設定ファイル

Scrapydは以下の場所から設定ファイルを探します。最後の設定ファイルを優先的に適用します。

  • /etc/scrapyd/scrapyd.conf (Unix)
  • c:\scrapyd\scrapyd.conf (Windows)
  • /etc/scrapyd/conf.d/* (アルファベット順, Unix)
  • scrapyd.conf
  • ~/.scrapyd.conf (ユーザのホームディレクトリ)

設定ファイルは以下のオプションをサポートします。デフォルト値は を参照してください。

http_port

HTTP JSON APIが使用するTCPポートです。 デフォルトは 6800 です。

bind_address

WEBサイトとjson WEBサービスが使用するIPアドレスです。デフォルトは 127.0.0.1 (localhost) です

max_proc

同時に実行されるScrapyプロセスの最大数です。未指定もしくは 0 を指定した場合、システムで使用可能なCPU数に max_proc_per_cpu の値を掛けた値を使用します。デフォルトは 0 です。

max_proc_per_cpu

CPUあたりの同時に実行されるScrapyプロセスの最大数です。デフォルトは 4 です。

debug

デバッグモードが有効かどうかを指定します。デフォルトは off です。デバッグモードを有効にすると、JSON API呼び出しの処理中にエラーが発生した時に、完全なPythonトレースバックが(プレーンテキストのレスポンスで)返されます。

eggs_dir

プロジェクトのeggファイルが格納されるディレクトリです。

dbs_dir

プロジェクトのデータベースが格納されるディレクトリです。(スパイダーのキューを含みます)

logs_dir

Scrapyのログが格納されるディレクトリです。ログの保存を行いたくない場合、以下の様にこのオプションに空値を設定してください。

logs_dir =

items_dir

バージョン 0.15 で追加.

Scrapyのアイテムが格納されるディレクトリです。通常データベースかフィードエクスポーターが使用されることを想定している為、このオプションはデフォルトで無効にされています。空でない値を設定すると、Scrapyの設定 FEED_URI を上書きし、指定したディレクトリに収集したアイテムフィードを格納します。

jobs_to_keep

バージョン 0.15 で追加.

spider毎の、完了したジョブを保持する数です。デフォルトは 5 です。保存する内容とは、ログとアイテムの事を指しています。

以前のバージョンでは、この設定項目は logs_to_keep という名前でした。

finished_to_keep

バージョン 0.14 で追加.

ランチャーに保持する完了プロセスの数です。デフォルトは 100 です。これはウェブサイトの /jobs エンドポイントと、関連するjson ウェブサービスにのみ反映されます。

poll_interval

キューをポーリングする間隔です。秒で指定します。デフォルトは 5.0 です。0.2 のような小数を使用できます。

runner

サブプロセスを起動するのに使用されるモジュールです。Scrapydから起動されたScrapyプロセスは、任意のモジュールでカスタマイズ出来ます。

application

Twisted アプリケーションを返す関数です。Scrapydを拡張し、任意のコンポーネントやサービスを追加または削除したい場合に使用できます。

詳しい情報は Twisted Application Framework を参照してください。

webroot

Scrapydのインターフェースとして使用されるtwistedのウェブ リソースです。Scrapydは、単純な監視と、アプリケーションのウェブリソースにアクセスするためのインターフェースをウェブサイトで提供しています。この設定はtwisted ウェブ リソースのルートクラスが設定されるべきです。

node_name

バージョン 1.1 で追加.

表示するホスト名のような、各ノードのノード名です。デフォルトは ${socket.gethostname()} です。

Example configuration file

全てをデフォルトに設定した設定ファイルの例を示します。

[scrapyd]
eggs_dir    = eggs
logs_dir    = logs
items_dir   =
jobs_to_keep = 5
dbs_dir     = dbs
max_proc    = 0
max_proc_per_cpu = 4
finished_to_keep = 100
poll_interval = 5.0
bind_address = 127.0.0.1
http_port   = 6800
debug       = off
runner      = scrapyd.runner
application = scrapyd.app.application
launcher    = scrapyd.launcher.Launcher
webroot     = scrapyd.website.Root

[services]
schedule.json     = scrapyd.webservice.Schedule
cancel.json       = scrapyd.webservice.Cancel
addversion.json   = scrapyd.webservice.AddVersion
listprojects.json = scrapyd.webservice.ListProjects
listversions.json = scrapyd.webservice.ListVersions
listspiders.json  = scrapyd.webservice.ListSpiders
delproject.json   = scrapyd.webservice.DeleteProject
delversion.json   = scrapyd.webservice.DeleteVersion
listjobs.json     = scrapyd.webservice.ListJobs
daemonstatus.json = scrapyd.webservice.DaemonStatus