概要

プロジェクトとバージョン

Scrapydは複数のプロジェクトを管理することができ、各プロジェクトはアップロードされた複数のバージョンを持つことができますが、新しいスパイダーを起動する際には、最新のバージョンのみが使用されます。

バージョン名の一般的(かつ便利)な慣習は、あなたのScrapyプロジェクトのコードを追跡するのに使用している、バージョン管理ツールのリビジョン番号です。例: r23 バージョンはアルファベット順で比較されるのではなく、( distutils が使用するのと同じ)よりスマートなアルゴリズムを使用する為、例えば r10r9 より大きくなります。

どのようにScrapydが動作するか

Scrapydは(一般的にデーモンとして実行する)アプリケーションであり、スパイダーの実行要求を待ち受け、実行するプロセスを生成します。

scrapy crawl myspider

また、Scrapydは、処理を行うためにできるだけ多くのプロセスを開始し、max_procmax_proc_per_cpu オプションで指定された固定数のスロットに割り当てを行い、複数のプロセスを並列に実行します。

プロセスの割り当てや管理の他、Scrapydは(egg形式の)新しいプロジェクト・バージョンをアップロードしたり、スパイダーをスケジューリングするための JSON web service を提供します。この機能はオプションであり、もしScrapydをカスタマイズしたい場合、この機能は無効化することが出来ます。もしScrapydを実装している Twisted Application Framework にあなたが精通しているのであれば、コンポーネントはプラガブルであり変更可能です。

バージョン0.11より、Scrapydは最小限の web interface も提供しています。

Scrapydを開始する

サービスを開始するには、Scrapyディストリビューションで提供されている scrapyd コマンドを使用します。

scrapyd

これでScrapydが起動します。

スパイダーの実行をスケジューリングする

スパイダーの実行をスケジューリングします。

$ curl http://localhost:6800/schedule.json -d project=myproject -d spider=spider2
{"status": "ok", "jobid": "26d1b1a6d6f111e0be5c001e648c57f8"}

より多くの使用可能なリソースについては、 API を参照してください。

Webインターフェース

Scrapydには(プロセスの実行やアクセスログを監視するための)最小限のwebインターフェースが付属しており、http://localhost:6800/ からアクセスすることができます。