Skip to content

Latest commit

 

History

History
56 lines (34 loc) · 1.95 KB

File metadata and controls

56 lines (34 loc) · 1.95 KB

公式サイトのクローリング

※ スクリプト実行時に PYTHONPATH=.:$PYTHONPATH が省略されている場合は、 uv pip install -e . が実行済みであること

OriginDataの永続化はRDBにて行われる。

前提条件

スキーマが生成されていること。
( psql "postgresql://postgres:password@127.0.0.1:55432/metaboatrace_development" を実行し、スキーマが作成されているかやデータが入っているかを確認する )

手順

データの収集

以下を実行することで指定した期間のすべてのデータを収集できる。

$ python scripts/crawl_data_for_period.py 2022-05-01 2022-05-10

データの管理

エクスポート

レースデータの管理

収集したデータは、レーサーの級別審査期間単位で管理する。
以下のスクリプトを実行すると対象の期以外のデータを削除した上でアーカイブファイルが出力される。

$ python scripts/trim_data_for_specified_term.py 2021 1

※ データ削除前にバックアップが自動的に生成される

レーサーデータの管理

前項のアーカイブファイルには、 racersstadiums は含まれていない。

前者に関しては手動で別途管理する。
後者に関してはマスターデータをスクリプト経由でいつでも入れられるので、ここではケアしない。

racers のみエクスポート対象としたい場合は以下のコマンドで実現できる。

$ pg_dump -h 127.0.0.1 -p 55432 -U postgres -d metaboatrace_development -n public --data-only --table=racers -f racers_$(date +"%Y%m%d%H%M%S").dump

インポート

前節で作成したアーカイブファイルを、以下のようにインポートできるので適宜実施する。

$ psql -h 127.0.0.1 -p 55432 -U postgres -d metaboatrace_development -f 20200501.dump