精选资源
文章和博客文章
Scrapy 入门(Python 3) - 抓取房地产数据、Scrapy shell、Scrapy 设置等。
如何将 Zyte 的代理管理服务与 Scrapy 结合使用。
如何将 Zyte 基于 AI 的网页抓取工具与 Scrapy 结合使用,从网页提取数据,无需编写提取代码。
从零开始解释 Scrapy。还提供了关于抓取 Reddit、XML 站点和电子商务网站(以及数据一起下载图像)的示例
通过一个非常有趣的用例解释下载器中间件。
关于如何绕过最常见的反机器人机制的全面文章。通过实现可重用组件(例如中间件)来演示良好的实践。
为 Scrapy 1.0.x 编写的,未使用现代习惯用法(例如 extract()[0]
),但展示了一个自定义 MongoDB 项目管道示例。
使用 Scrapy 1.0 和 Python 2,但仍然相关。
不是最漂亮的爬虫,但文章展示了如何使用 scrapy-redis、scrapy-heroku 和 scrapyd 在 Heroku 上运行定期爬虫。
旧但很好。使用 [0].extract()
,现在应该使用 .get()
。
旧文章,但关于如何配置 polipo 作为 HTTP 代理以将爬虫与 Tor 网络集成的内容仍然相关。
书籍
一本关于 Scrapy 的非常深入的书籍。它展示了 Scrapy 1.0.x,并且仅限于 Python 2。
它实际上解释了每个组件和设置,以帮助你开始使用 Scrapy,并在需要时深入了解。有一个 非常酷的异步发送项目示例,使用 engine.download
和 inlineCallback
。它还展示了如何将 Scrapy 项目部署到 Zyte Scrapy Cloud。这本书甚至包含了一个非常深入的 Twisted 和非阻塞 I/O 编程介绍(非常棒的一个)。
这本书有一个 配套网站,其中包含一些章节的视频。
这本书不仅关于 Scrapy,它还有一整章关于 Scrapy,“第 6 章 使用 Scrapy 进行重量级抓取”。
它建议使用 Anaconda,但请确保使用 conda-forge 频道。有一个关于 XPath 的很好的介绍,以及如何使用 scrapy shell 测试选择器。它还介绍了 ImagesPipeline
来获取诺贝尔奖得主照片,这很酷,对吧?
课程
Python Scrapy 教程 - 学习如何抓取网站并使用 Scrapy 和 Python 构建功能强大的网络爬虫。
免费开源的网络爬虫框架,用 Python 编写。
指南
网页抓取的介绍、一个基于 Scrapy 的教程和一般指南。
一系列 Scrapy 资源、指南和教程,帮助你成为 Scrapy 专家!
视频
本次研讨会将概述 Scrapy,从基础开始,并通过实践示例讲解每个新主题。参与者将对 Scrapy、其设计背后的原理以及如何将 Scrapy 提倡的最佳实践应用于任何抓取任务有一个很好的了解。
了解为什么需要尽早进行 Scrapy 化,Scrapy 爬虫的剖析,使用交互式 shell,什么是项目以及如何使用项目加载器,管道和中间件示例,避免被封禁的技术,如何部署 Scrapy 项目。
Scrapy 教程视频涵盖以下内容:什么是 Scrapy,为什么要使用 Scrapy - Scrapy 的替代方案,架构、组件和性能,快速演示。
Scrapy 让你能够直接从网络中提取数据。它可以帮助你重试如果站点宕机,使用 CSS 选择器(或 XPath)从页面提取内容,并使用测试覆盖你的代码。它以高性能异步下载。你对一个简单的模型进行编程,它也适用于 Web API。
Python 拥有 Django 和 Flask 等很棒的工具,可以将你的数据库转换为 html 页面,但如果你想获取他人的 html 页面并从中构建数据库怎么办?Scrapy 是一个用于构建网络爬虫的库,它将极大地简化你的网页抓取任务。朋友不会让朋友使用原始的 urllib2。
幻灯片
本次演讲介绍了两种可使用的关键技术:Scrapy,一个开源且可扩展的网络爬虫框架,以及 Mr. Schemato,一个新的开源语义 Web 验证器和提炼器。
爬取技术是搜索引擎的基础,但它们在商业和娱乐方面也有很多应用。
在本幻灯片中,作者分享了如何使用 Python 开源工具解决大数据问题。
使用 Scrapy Python 抓取(爬取)网站内容的教程