[北京|结业弟子]QA-尚小雨|2018年04月16日的日报-技能树.IT修真院

发表于： 2018-04-16 20:32:58

1 1020

今天完成的事情：学习了XML和Web Servicese 简单了解爬虫

明天计划的事情：开始学习爬虫

遇到的问题：爬虫搭建环境各种失败对于爬虫了解太少了

收获：

XML：是一种可定义的扩展标记语言，被设计用来传输和存储数据，还可以当小型数据库。

XML提供了一种可用于不同平台和编程语言之间的语言。

语法规则：

XML文档必须有根元素

<root>
  <child>
    <subchild>.....</subchild>
  </child>
</root>

XML文档必须有关闭标签

<p>This is a paragraph</p>
<p>This is another paragraph</p>

XML标签对大小写敏感

<Message>这是错误的。</message>

<message>这是正确的。</message>

XML元素必须被正确的嵌套

<b><i>This text is bold and italic</i></b>

XML必须加引号

<note date="08/08/2008">
<to>George</to>
<from>John</from>
</note>

XML和HTML的差异：

XML不是对HTML的替代

XML仅仅是纯文本

HTML在显示信息 XML在传输信息

Web:网页

Web Servisces:使应用程序成为网络应用程序，特殊的Web服务，通过Web进行发布，查找和使用。

Web Servisces有三种基本元素：SOAP WSDL UDDI

Web Servisces通过提供标准的协议和接口，可以让不同程序集成一种SOA架构。

Web Servisces由XML+HTTP组成

Web Servisces有两种类型的应用

可以重复使用的应用组建：

Web Servisces可以把应用程序组建作为服务来提供，比如汇率转换，天气预报甚至语言翻译等。

链接现有软件：

通过使用Web Servisces，可以在不同应用程序与平台之间来交换数据。

爬虫：网络爬虫，是一种按照一定的规则，自动的抓取万维网信息的程序或者脚本（模仿浏览器去打开网页）

Scrapy：有一个独立现成的数据爬取框架叫 Scrapy，除了能提取 HTML，它还提供了很多功能，例如导出格式数据以及日志等。

网站可能会因为巨大的“爬虫”请求而超过负荷

BeautifulSoup 和 Request 库

Beautiful soup 库能让你以一种优美的方式解析 HTML 源代码。使用它的时候，你还需要一个Request 库来获取 url 的内容

返回列表