https://scrapy-chs.readthedocs.io/zh_CN/latest/topics/commands.html
0.10 新版功能
Scrapy是通过 scrapy
命令行工具进行控制的。 这里我们称之为 “Scrapy tool” 以用来和子命令进行区分。 对于子命令,我们称为 “command” 或者 “Scrapy commands”。
scrapy
工具¶您可以以无参数的方式启动Scrapy工具。该命令将会给出一些使用帮助以及可用的命令:
Scrapy X.Y - no active project
Usage:
scrapy <command> [options] [args]
Available commands:
crawl Run a spider
fetch Fetch a URL using the Scrapy downloader
[...]
# 该命令将会在 myproject 目录中创建一个Scrapy项目。
scrapy startproject myproject
您可以在您的项目中使用 scrapy
工具来对其进行控制和管理。
# 创建一个新的spider:
scrapy genspider mydomain mydomain.com
有些Scrapy命令(比如 crawl
)要求必须在Scrapy项目中运行。 您可以通过下边的 commands reference 来了解哪些命令需要在项目中运行,哪些不用。
另外要注意,有些命令在项目里运行时的效果有些许区别。 以fetch命令为例,如果被爬取的url与某个特定spider相关联, 则该命令将会使用spider的动作(spider-overridden behaviours)。 (比如spider指定的 user_agent
)。 该表现是有意而为之的。一般来说, fetch
命令就是用来测试检查spider是如何下载页面。
Scrapy提供了两种类型的命令。一种必须在Scrapy项目中运行(针对项目(Project-specific)的命令),另外一种则不需要(全局命令)。全局命令在项目中运行时的表现可能会与在非项目中运行有些许差别(因为可能会使用项目的设定)。
全局命令: