发表于: 2018-04-16 20:32:58
1 946
今天完成的事情:学习了XML和Web Servicese 简单了解爬虫
明天计划的事情:开始学习爬虫
遇到的问题:爬虫搭建环境各种失败 对于爬虫了解太少了
收获:
XML:是一种可定义的扩展标记语言,被设计用来传输和存储数据,还可以当小型数据库。
XML提供了一种可用于不同平台和编程语言之间的语言。
语法规则:
XML文档必须有根元素
<root>
<child>
<subchild>.....</subchild>
</child>
</root>
XML文档必须有关闭标签
<p>This is a paragraph</p>
<p>This is another paragraph</p>
XML标签对大小写敏感
<Message>这是错误的。</message>
<message>这是正确的。</message>
XML元素必须被正确的嵌套
<b><i>This text is bold and italic</i></b>
XML必须加引号
<note date="08/08/2008"
>
<to>George</to>
<from>John</from>
</note>
XML和HTML的差异:
XML不是对HTML的替代
XML仅仅是纯文本
HTML在显示信息 XML在传输信息
Web:网页
Web Servisces:使应用程序成为网络应用程序,特殊的Web服务,通过Web进行发布,查找和使用。
Web Servisces有三种基本元素:SOAP WSDL UDDI
Web Servisces通过提供标准的协议和接口,可以让不同程序集成一种SOA架构。
Web Servisces由XML+HTTP组成
Web Servisces有两种类型的应用
可以重复使用的应用组建:
Web Servisces可以把应用程序组建作为服务来提供,比如汇率转换,天气预报甚至语言翻译等。
链接现有软件:
通过使用Web Servisces,可以在不同应用程序与平台之间来交换数据。
爬虫:网络爬虫,是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本(模仿浏览器去打开网页)
- 抓取某个电商卖家的网页,了解你想买的东西的打折状况
- 爬取几个品牌商铺的网页数据,比较它们的价格
- 机票价格每天都会变动,这样我们可以爬取一个旅行网站的数据,每当有低价机票时自动提醒我们
Scrapy:有一个独立现成的数据爬取框架叫 Scrapy,除了能提取 HTML,它还提供了很多功能,例如导出格式数据以及日志等。
网站可能会因为巨大的“爬虫”请求而超过负荷
BeautifulSoup 和 Request 库
Beautiful soup 库能让你以一种优美的方式解析 HTML 源代码。使用它的时候,你还需要一个Request 库来获取 url 的内容
评论