scrapyのバックエンドDBをBigQueryにしたい

11/20/202002/10/2021

目次

こんなことをしたい

クローリングコードをscrapyで作成している。
クローリング結果をBigQueryに保存したい。つまり、バックエンドDBをBigQueryにする。

こうすればいい

pipelines.pyの中にBigQueryに保存するためのメソッドを作成する。

こんな仕組み

scrapyがプロジェクトを新規作成すると、scrapyはpipeline.pyというスクリプトファイルを自動生成する。

pipeline.pyはspider.pyの後続処理を書くためのスクリプトファイルである（もちろん、自分で任意のスクリプトファイルを用意しても良い）

pipelineの中には、BigQueryのDBハンドラとでも言えるクラスを用意する。クラスはscrapyから継承しなくても良い。

大切なポイントは、次の３つのメソッド。

open_spider
close_spider
process_item
- このメソッドの中にBigQueryへの保存処理を書く。

pipeline.pyを作ったら、settings.pyの変更も忘れずに。

このブログを参考にして作業をした。

BigQueryへの書き込みにはこのパッケージを利用した。DataframeをよしなにBigQueryに突っ込んでくれるので、とても楽であった。

https://pypi.org/project/pandas-gbq/

Pandas interface to Google BigQuery

Posted by blog_author

エーリッヒ・フロムの生い立ちを追って

bz2が存在しないエラーでpoetry installできない

ディスカッション

コメント一覧

まだ、コメントがありません

コメントをどうぞコメントをキャンセル

この記事のトラックバックURL

プロフィール

ぼく（ときどき私）
現在、南フランスで博士課程にいる。
研究テーマはシュミレーションとパラメタ推定。
Python歴 9年。

自然言語処理を業務で５年ほど経験。
スタートアップでゼロから分析システム設計などなど。

ドイツ移住後はフリーランス資格を取得し、生活。
自然言語処理エンジニア（兼 Pythonエンジニア）で生計を立てる。
ドイツ生活中にGoethe-zertifikat B2を取得。

フランス語の言語学習しながら、研究活動。
研究内容のこと、Pythonのこと、言語学習のこと、フランス生活のことなどを書いていきます。