发表于: 2018-04-16 20:32:58

1 946


今天完成的事情:学习了XML和Web Servicese 简单了解爬虫

明天计划的事情:开始学习爬虫

遇到的问题:爬虫搭建环境各种失败 对于爬虫了解太少了

收获:

XML:是一种可定义的扩展标记语言,被设计用来传输和存储数据,还可以当小型数据库。

XML提供了一种可用于不同平台和编程语言之间的语言。

语法规则:

XML文档必须有根元素

<root>
  <child>
    <subchild>.....</subchild>
  </child>
</root>

XML文档必须有关闭标签

<p>This is a paragraph</p>
<p>This is another paragraph</p>

XML标签对大小写敏感

<Message>这是错误的。</message>

<message>这是正确的。</message> 

XML元素必须被正确的嵌套

<b><i>This text is bold and italic</i></b>


XML必须加引号

<note date="08/08/2008">
<to>George</to>
<from>John</from>
</note> 

XML和HTML的差异:

XML不是对HTML的替代

XML仅仅是纯文本

HTML在显示信息 XML在传输信息


Web:网页

Web Servisces:使应用程序成为网络应用程序,特殊的Web服务,通过Web进行发布,查找和使用。

Web Servisces有三种基本元素:SOAP WSDL UDDI

Web Servisces通过提供标准的协议和接口,可以让不同程序集成一种SOA架构。

Web Servisces由XML+HTTP组成

Web Servisces有两种类型的应用

可以重复使用的应用组建:

Web Servisces可以把应用程序组建作为服务来提供,比如汇率转换,天气预报甚至语言翻译等。

链接现有软件:

通过使用Web Servisces,可以在不同应用程序与平台之间来交换数据。


爬虫:网络爬虫,是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本(模仿浏览器去打开网页)

  • 抓取某个电商卖家的网页,了解你想买的东西的打折状况
  • 爬取几个品牌商铺的网页数据,比较它们的价格
  • 机票价格每天都会变动,这样我们可以爬取一个旅行网站的数据,每当有低价机票时自动提醒我们

Scrapy:有一个独立现成的数据爬取框架叫 Scrapy,除了能提取 HTML,它还提供了很多功能,例如导出格式数据以及日志等。

              网站可能会因为巨大的“爬虫”请求而超过负荷

BeautifulSoup 和 Request 库

Beautiful soup 库能让你以一种优美的方式解析 HTML 源代码。使用它的时候,你还需要一个Request 库来获取 url 的内容



返回列表 返回列表
评论

    分享到