七款必备的Python爬虫库,你知道几个?

365bet手机版网址:2018-12-03 365bet体育在线平台: 9976 次
  很多你需要的信息数据都是在网站内,虽然有些网站的数据会以整洁、结构化的形式呈现,但大部分网站却无法做到这样。因此,当你想要获得一些数据的时候,你需要一些爬虫工具帮助抓取,然后再对其进行分析。今天,将先容一些很棒的Python爬虫工具
  1、PyRailgun
  首先推荐的是PyRailgun,它是一个Web爬虫工具,具有强大的 WebUI 和脚本编辑器、任务监控和项目管理和结果查看。它支撑拓展、支撑任务优先级、重试、定期抓取,Pyspider同时支撑Python 2和Python 3,为了更快地爬行,可以使用分布式格式,同时使用多个爬行器。
  PyRailgun 有一个全面的文档记录了它的基本用法,包括示例代码片段,你可以通过在线演示了解它的UI界面,根据Apache 2 许可。(GitHub地址: https://github.com/binux/pyspider)
  2、MechanicalSoup
  MechanicalSoup是一个爬虫库,它是围绕非常流行、通用的HTML解析库Beautiful Soup构建的。如果你的爬行需求非常简单,只需要选中几个框或输入一些文本,并且你不想构建一个自己的爬行器,那么这是一个很好的选择。
  MechanicalSoup获得了麻省理工学院的许可。有关如何使用它的更多信息,可以查看GitHub上的源文件示例,不过,该项目目前没有特别全面的文档。(GitHub地址: https://github.com/hickford/MechanicalSoup)
  3、Scrapy
  Scrapy 是一个由活跃社区维护的爬虫框架,你可以使用它创建自己的抓取工具,除了抓取和解析,它还可以轻松导出以JSON或CSV等多种格式收集的数据,并将数据存储在你选择的后端。它还提供了许多用于cookie处理、限制爬行深度等任务的内置扩展,以及用于扩展的API。(GitHub地址:https://scrapy.org/)
  4、Cola
  Cola是一个分布式的爬虫框架,用户只需编写几个特定的函数,而无需关注分布式运行的细节。任务会自动分配到多台机器上,整个过程对用户是透明的。如果你正在寻找一个支撑Python 2的爬虫框架,那它是个不错的选择,但是,它已经两年多没有更新了。(详情:https://github.com/chineking/cola)
  5、Portia
  Portia是scrapyhub开源的一款可视化的爬虫规则编写工具。它提供可视化的Web页面,你只需要通过点击标注页面上你需要提取的数据,不需要任何编程常识也可以完成有规则的开发。这些规则可以在#Scrapy#中使用,用于抓取页面。(详情:https://github.com/scrapinghub/portia)
  6、Newspaper
  Newspaper可以用来提取资讯、文章和内容分析。使用多线程,支撑10多种语言并且unicode编码,它还可以提取和检测语言,如果你没有指定语言它还会自动检测。Newspaper 是一个Python 3 爬虫库,已经弃用了Python 2 的分支。(GitHub地址:https://github.com/codelucas/newspaper)
  7、Grab
  Grab是一个python web抓取框架。Grab提供了许多有用的方法来实行网络请求,抓取网站并处理已删除的内容:
  IDN支撑
  使用Web表单工具
  灵活定制的HTTP请求
  自动字符集检测
  ......(GitHub地址: https://github.com/lorien/grab)
 
  转自:开源最前线
分享到:
×

微信扫一扫分享

XML 地图 | Sitemap 地图