設定ファイル¶
Scrapydは以下の場所から設定ファイルを探します。最後の設定ファイルを優先的に適用します。
/etc/scrapyd/scrapyd.conf
(Unix)c:\scrapyd\scrapyd.conf
(Windows)/etc/scrapyd/conf.d/*
(アルファベット順, Unix)scrapyd.conf
~/.scrapyd.conf
(ユーザのホームディレクトリ)
設定ファイルは以下のオプションをサポートします。デフォルト値は 例 を参照してください。
http_port¶
HTTP JSON APIが使用するTCPポートです。 デフォルトは 6800
です。
bind_address¶
WEBサイトとjson WEBサービスが使用するIPアドレスです。デフォルトは 127.0.0.1
(localhost) です
max_proc¶
同時に実行されるScrapyプロセスの最大数です。未指定もしくは 0
を指定した場合、システムで使用可能なCPU数に max_proc_per_cpu
の値を掛けた値を使用します。デフォルトは 0
です。
max_proc_per_cpu¶
CPUあたりの同時に実行されるScrapyプロセスの最大数です。デフォルトは 4
です。
debug¶
デバッグモードが有効かどうかを指定します。デフォルトは off
です。デバッグモードを有効にすると、JSON API呼び出しの処理中にエラーが発生した時に、完全なPythonトレースバックが(プレーンテキストのレスポンスで)返されます。
eggs_dir¶
プロジェクトのeggファイルが格納されるディレクトリです。
dbs_dir¶
プロジェクトのデータベースが格納されるディレクトリです。(スパイダーのキューを含みます)
items_dir¶
バージョン 0.15 で追加.
Scrapyのアイテムが格納されるディレクトリです。通常データベースかフィードエクスポーターが使用されることを想定している為、このオプションはデフォルトで無効にされています。空でない値を設定すると、Scrapyの設定 FEED_URI
を上書きし、指定したディレクトリに収集したアイテムフィードを格納します。
jobs_to_keep¶
バージョン 0.15 で追加.
spider毎の、完了したジョブを保持する数です。デフォルトは 5
です。保存する内容とは、ログとアイテムの事を指しています。
以前のバージョンでは、この設定項目は logs_to_keep
という名前でした。
finished_to_keep¶
バージョン 0.14 で追加.
ランチャーに保持する完了プロセスの数です。デフォルトは 100
です。これはウェブサイトの /jobs エンドポイントと、関連するjson ウェブサービスにのみ反映されます。
poll_interval¶
キューをポーリングする間隔です。秒で指定します。デフォルトは 5.0
です。0.2
のような小数を使用できます。
runner¶
サブプロセスを起動するのに使用されるモジュールです。Scrapydから起動されたScrapyプロセスは、任意のモジュールでカスタマイズ出来ます。
application¶
Twisted アプリケーションを返す関数です。Scrapydを拡張し、任意のコンポーネントやサービスを追加または削除したい場合に使用できます。
詳しい情報は Twisted Application Framework を参照してください。
webroot¶
Scrapydのインターフェースとして使用されるtwistedのウェブ リソースです。Scrapydは、単純な監視と、アプリケーションのウェブリソースにアクセスするためのインターフェースをウェブサイトで提供しています。この設定はtwisted ウェブ リソースのルートクラスが設定されるべきです。
Example configuration file¶
全てをデフォルトに設定した設定ファイルの例を示します。
[scrapyd]
eggs_dir = eggs
logs_dir = logs
items_dir =
jobs_to_keep = 5
dbs_dir = dbs
max_proc = 0
max_proc_per_cpu = 4
finished_to_keep = 100
poll_interval = 5.0
bind_address = 127.0.0.1
http_port = 6800
debug = off
runner = scrapyd.runner
application = scrapyd.app.application
launcher = scrapyd.launcher.Launcher
webroot = scrapyd.website.Root
[services]
schedule.json = scrapyd.webservice.Schedule
cancel.json = scrapyd.webservice.Cancel
addversion.json = scrapyd.webservice.AddVersion
listprojects.json = scrapyd.webservice.ListProjects
listversions.json = scrapyd.webservice.ListVersions
listspiders.json = scrapyd.webservice.ListSpiders
delproject.json = scrapyd.webservice.DeleteProject
delversion.json = scrapyd.webservice.DeleteVersion
listjobs.json = scrapyd.webservice.ListJobs
daemonstatus.json = scrapyd.webservice.DaemonStatus