经产观察
IT资讯
IT产业动态
业界
网站运营
站长资讯
互联网
国际互联网新闻
国内互联网新闻
通信行业
通信设备
通信运营商
消费电子
数码
家电
IT产业动态

三步学会爬动态网站

作者:佚名 来源: 日期:2020-1-14 21:11:23 人气:

  本篇文章仅用于技术讨论,严禁用于任何非法用途。此外,请尽量通过公开数据进行,减缓爬取速度和数量。

  在我们写爬虫程序时,难免会碰到一些动态加载的网页,为获取数据制造了困难。本篇文章我将尝试用非常简短的篇幅来教大家:如何应对动态加载的网页。

  由于这些内容在网站中是静态的,我们直接使用open-uri打开目标网页,配合Nokogiri来获取各帮你看清已婚男人分类的url:

  前面提到,分类里边的产品列表由Javascript动态加载,这时候我们可以使用Watir来获取动态内容。

  Waitr是一个用于自动化测试的开源Ruby库。Watir将使用跟真人一样的浏览器交互方式来点击链接,填写表单和验证文本。可以配合Chrome、Firefox、IE、Sari、Edge等。

  当我们使用Watir访问目标网站时,会出现一个受代码控制的Chrome窗口。(不要用鼠标去操作或者关掉它!!)

  由于浏览器加载内容需要一些时间,所以我们适当增加一些休眠时间确保内容加载完成。通过Watir获取了每个页面的内容后,再次通过nokogiri进行获取即可。

  

关键词:动态网