精选资源

文章和博客文章

Scrapy 入门(Python 3) - 抓取房地产数据、Scrapy shell、Scrapy 设置等。

如何将 Zyte 的代理管理服务与 Scrapy 结合使用。

如何将 Zyte 基于 AI 的网页抓取工具与 Scrapy 结合使用,从网页提取数据,无需编写提取代码。

从零开始解释 Scrapy。还提供了关于抓取 Reddit、XML 站点和电子商务网站(以及数据一起下载图像)的示例

通过一个非常有趣的用例解释下载器中间件。

关于如何绕过最常见的反机器人机制的全面文章。通过实现可重用组件(例如中间件)来演示良好的实践。

为 Scrapy 1.0.x 编写的,未使用现代习惯用法(例如 extract()[0]),但展示了一个自定义 MongoDB 项目管道示例。

使用 Scrapy 1.0 和 Python 2,但仍然相关。

不是最漂亮的爬虫,但文章展示了如何使用 scrapy-redis、scrapy-heroku 和 scrapyd 在 Heroku 上运行定期爬虫。

旧但很好。使用 [0].extract(),现在应该使用 .get()

旧文章,但关于如何配置 polipo 作为 HTTP 代理以将爬虫与 Tor 网络集成的内容仍然相关。

书籍

一本关于 Scrapy 的非常深入的书籍。它展示了 Scrapy 1.0.x,并且仅限于 Python 2。

它实际上解释了每个组件和设置,以帮助你开始使用 Scrapy,并在需要时深入了解。有一个 非常酷的异步发送项目示例,使用 engine.downloadinlineCallback。它还展示了如何将 Scrapy 项目部署到 Zyte Scrapy Cloud。这本书甚至包含了一个非常深入的 Twisted 和非阻塞 I/O 编程介绍(非常棒的一个)。

这本书有一个 配套网站,其中包含一些章节的视频。

这本书不仅关于 Scrapy,它还有一整章关于 Scrapy,“第 6 章 使用 Scrapy 进行重量级抓取”。

它建议使用 Anaconda,但请确保使用 conda-forge 频道。有一个关于 XPath 的很好的介绍,以及如何使用 scrapy shell 测试选择器。它还介绍了 ImagesPipeline 来获取诺贝尔奖得主照片,这很酷,对吧?

课程

Python Scrapy 教程 - 学习如何抓取网站并使用 Scrapy 和 Python 构建功能强大的网络爬虫。

免费开源的网络爬虫框架,用 Python 编写。

指南

网页抓取的介绍、一个基于 Scrapy 的教程和一般指南。

一系列 Scrapy 资源、指南和教程,帮助你成为 Scrapy 专家!

视频

通过这个短视频系列,学习如何使用 Scrapy 框架抓取网页。 配套代码

本次研讨会将概述 Scrapy,从基础开始,并通过实践示例讲解每个新主题。参与者将对 Scrapy、其设计背后的原理以及如何将 Scrapy 提倡的最佳实践应用于任何抓取任务有一个很好的了解。

了解为什么需要尽早进行 Scrapy 化,Scrapy 爬虫的剖析,使用交互式 shell,什么是项目以及如何使用项目加载器,管道和中间件示例,避免被封禁的技术,如何部署 Scrapy 项目。

Scrapy 教程视频涵盖以下内容:什么是 Scrapy,为什么要使用 Scrapy - Scrapy 的替代方案,架构、组件和性能,快速演示。

Scrapy 让你能够直接从网络中提取数据。它可以帮助你重试如果站点宕机,使用 CSS 选择器(或 XPath)从页面提取内容,并使用测试覆盖你的代码。它以高性能异步下载。你对一个简单的模型进行编程,它也适用于 Web API。

Python 拥有 Django 和 Flask 等很棒的工具,可以将你的数据库转换为 html 页面,但如果你想获取他人的 html 页面并从中构建数据库怎么办?Scrapy 是一个用于构建网络爬虫的库,它将极大地简化你的网页抓取任务。朋友不会让朋友使用原始的 urllib2。

幻灯片

本次演讲介绍了两种可使用的关键技术:Scrapy,一个开源且可扩展的网络爬虫框架,以及 Mr. Schemato,一个新的开源语义 Web 验证器和提炼器。

爬取技术是搜索引擎的基础,但它们在商业和娱乐方面也有很多应用。

在本幻灯片中,作者分享了如何使用 Python 开源工具解决大数据问题。

使用 Scrapy Python 抓取(爬取)网站内容的教程