huggingfaceで瞬殺的に系列ラベリングコードを実装したい
やりたかったこと
- 日本語のBertモデルでFine-tuningしたい。Fine-tuningして、系列ラベリングのモデルを作りたい。
解決策
- 系列ラベリングコードはexampleをコピペして使う。まったく同じで良かった。
- 新しく作成するファイルは2種類。
- config.json。ここに記載がある。
- train / dev / testのためのCoNLL形式ファイル
- Pre-train済みのBertモデルには cl-tohoku/bert-base-japanese-whole-word-masking を指定する。他にもいくつかの種類がある。
注意点など
入力文長がくっそ長いと、サンプルコードは途中で系列をぶった切って、モデルを学習する。予測時は、指定長以降のtokenに対して、モデルが予測をしない。この入力長は max_seq_length で制御する。このパラメタはconfig.jsonに記載する。
くっそ長すぎてどうにもならない場合は、入力データの文長を調整することをオススメする。
感想
くっそ簡単になった。Pytorchを使って自分でモデルを書いていた時間はなんだったのだろう。まぁ、いいか。
ディスカッション
コメント一覧
まだ、コメントがありません