文章目录
  1. 1. 运行scrapyd:
  2. 2. 部署project:
  3. 3. 运行jobs

以前我用scrapy写爬虫的时候都是通过crawl来执行的,但这样的运行方式是只执行一个爬虫的,如果想同时运行多个爬虫可以考虑使用scrapyd的方式,也就是scrapy server。

运行scrapyd:

1
scrapy server

部署project:

查看project的deploy列表

进入到project目录后执行下面的命令

1
scrapy deploy -l

如果有返回类似下面的内容的说明配置正确

1
scrapyd              http://localhost:6800/

如果没有显示就编辑project的scrapy.cfg里面的deploy

1
2
3
[deploy]
url = http://localhost:6800/
project = pitayacd

打包并上传

1
scrapy deplay default -p pitayacd

返回信息如下

1
{"status": "ok", "project": "pitayacd", "version": "1348817612", "spiders": 1}

运行jobs

部署完成后使用curl提交信息到scrapyd就可以运行指定的spiders了

1
curl http://localhost:6800/schedule.json -d project=pitayacd -d spider=spider2

参考资料: http://doc.scrapy.org/en/0.14/topics/scrapyd.html

文章目录
  1. 1. 运行scrapyd:
  2. 2. 部署project:
  3. 3. 运行jobs