全球使用最广泛的 开源 数据提取框架
一个用于提取公共网络数据的协作开源框架。
快速且强大
编写提取所需数据的规则,剩下的交给 Scrapy 即可。
可定制
使用 Python 构建爬虫,并针对任何网站或数据模型进行定制。
开源
由充满活力的社区维护,全球数百万开发者都在使用。
几分钟内即可上手
更快地构建爬虫
选择一个功能以查看相应的代码片段。
- 创建 Scrapy 项目
- 通过单条命令初始化一个新的 Scrapy 项目。
- 创建 Scrapy 爬虫
- 定义一个新的 Scrapy 爬虫来爬取网页并提取数据。
- 运行爬虫
- 运行 Scrapy 爬虫以抓取数据。
- 导出数据
- 将提取的数据以您选择的格式保存到文件中。
- 使用 Scrapy Shell
- 交互式地测试和调试您的抓取逻辑。
- 将它们部署到 Zyte Scrapy Cloud
- 或者使用 Scrapyd 在您自己的服务器上托管爬虫
$ scrapy startproject myproject加入社区
“ 如果不是因为 Scrapy,我的自由职业生涯以及后来的抓取业务永远不会起步。Scrapy 框架,尤其是它的文档,为任何具备基础 Python 技能的人简化了爬取和抓取。不知道为什么,多年来我与 Scrapy 建立了一种情感纽带。”
Nishant Choudhary
DataFlirt.com 创始人
“ Scrapy:这份礼物彻底改变了网页抓取,并激励我通过 Scrapoxy 来回馈社会!”
“自第一个版本发布以来,Scrapy 就是我所有项目的核心引擎。”
Fabien Vauchelles
Scrapoxy 创作者
“ Scrapy 作为一个卓越的工具脱颖而出,能够无缝管理未完成的请求,使大规模数据收集变得高效且可靠。”
“凭借其卓越的抓取速度,Scrapy 将复杂的网络提取任务转化为迅速、精简的操作,从而节省时间并实现产出最大化。”
Hyder Khan
Flipdish
“ Scrapy 是 Python 网页抓取的基石。没有它,抓取会变得困难得多。”
“在我的职业生涯中,我构建了数千个爬虫,其中大部分是使用 Scrapy 完成的。它让我的生活变得轻松了许多。”
Pierluigi Vinciguerra
Databoutique.com 联合创始人兼首席技术官
“ 在网页抓取领域拥有 6 年以上的经验,Scrapy 一直是我构建快速、可靠和可扩展数据流水线的首选框架。”
“在我 6 年以上的抓取经验中,没有什么能比得上 Scrapy 在动力、灵活性和社区支持方面的平衡。”
Ganesh Satheendran
Turbolab Technologies
“ 当 Google 搜索强制执行 JavaScript 时,我们的抓取工具失效了。在短时间内难以使用 Puppeteer 构建有效的替代方案时,我们启动了 Scrapy、Splash,并编写了一个脚本。瞧——它奏效了!我们的 Google 基准测试再次活跃起来。”
Adam
Proxyway