Zyte 维护,拥有超过 500 名贡献者

全球使用最广泛的 开源 数据提取框架

一个用于提取公共网络数据的协作开源框架。

$pipinstallscrapy
阅读文档
当前版本 2.15.0下载发布说明
网页抓取助手 (Copilot)
通过 Scrapy 技能升级您的编程助手
生成选择器、解除网站封锁、部署到 Scrapy Cloud 等。

快速且强大

编写提取所需数据的规则,剩下的交给 Scrapy 即可。

可定制

使用 Python 构建爬虫,并针对任何网站或数据模型进行定制。

开源

由充满活力的社区维护,全球数百万开发者都在使用。

几分钟内即可上手

更快地构建爬虫

选择一个功能以查看相应的代码片段。

创建 Scrapy 项目
通过单条命令初始化一个新的 Scrapy 项目。
创建 Scrapy 爬虫
定义一个新的 Scrapy 爬虫来爬取网页并提取数据。
运行爬虫
运行 Scrapy 爬虫以抓取数据。
导出数据
将提取的数据以您选择的格式保存到文件中。
使用 Scrapy Shell
交互式地测试和调试您的抓取逻辑。
将它们部署到 Zyte Scrapy Cloud
或者使用 Scrapyd 在您自己的服务器上托管爬虫
$ scrapy startproject myproject

为什么要创建 Scrapy 项目?

创建 Scrapy 项目会设置必要的文件夹结构和文件,以便高效地开始构建您的网页抓取工具。

了解更多 关于为什么要创建 Scrapy 项目?

加入社区

如果不是因为 Scrapy,我的自由职业生涯以及后来的抓取业务永远不会起步。Scrapy 框架,尤其是它的文档,为任何具备基础 Python 技能的人简化了爬取和抓取。不知道为什么,多年来我与 Scrapy 建立了一种情感纽带。

Nishant Choudhary

DataFlirt.com 创始人

Scrapy:这份礼物彻底改变了网页抓取,并激励我通过 Scrapoxy 来回馈社会!”
“自第一个版本发布以来,Scrapy 就是我所有项目的核心引擎。

Fabien Vauchelles

Scrapoxy 创作者

Scrapy 作为一个卓越的工具脱颖而出,能够无缝管理未完成的请求,使大规模数据收集变得高效且可靠。”
“凭借其卓越的抓取速度,Scrapy 将复杂的网络提取任务转化为迅速、精简的操作,从而节省时间并实现产出最大化。

Hyder Khan

Flipdish

Scrapy 是 Python 网页抓取的基石。没有它,抓取会变得困难得多。”
“在我的职业生涯中,我构建了数千个爬虫,其中大部分是使用 Scrapy 完成的。它让我的生活变得轻松了许多。

Pierluigi Vinciguerra

Databoutique.com 联合创始人兼首席技术官

在网页抓取领域拥有 6 年以上的经验,Scrapy 一直是我构建快速、可靠和可扩展数据流水线的首选框架。”
“在我 6 年以上的抓取经验中,没有什么能比得上 Scrapy 在动力、灵活性和社区支持方面的平衡。

Ganesh Satheendran

Turbolab Technologies

当 Google 搜索强制执行 JavaScript 时,我们的抓取工具失效了。在短时间内难以使用 Puppeteer 构建有效的替代方案时,我们启动了 Scrapy、Splash,并编写了一个脚本。瞧——它奏效了!我们的 Google 基准测试再次活跃起来。

Adam

Proxyway

加入数百万使用 Scrapy 的开发者行列。

55.1k 星标, 10.8k 复刻 (Forks)。

由蓬勃发展的社区支持的快速、免费的网页抓取。