huggingfaceで瞬殺的に系列ラベリングコードを実装したい

A8バナー広告

やりたかったこと

  • 日本語のモデルでFine-tuningしたい。Fine-tuningして、系列ラベリングのモデルを作りたい。

解決策

  • 系列ラベリングコードはexampleをコピペして使う。まったく同じで良かった。
  • 新しく作成するファイルは2種類。
    1. config.json。ここに記載がある。
    2. train / dev / testのためのCoNLL形式ファイル
  • Pre-train済みのBertモデルには cl-tohoku/bert-base-japanese-whole-word-masking を指定する。他にもいくつかの種類がある。

注意点など

入力文長がくっそ長いと、サンプルコードは途中で系列をぶった切って、モデルを学習する。予測時は、指定長以降のtokenに対して、モデルが予測をしない。この入力長は max_seq_length で制御する。このパラメタはconfig.jsonに記載する。

くっそ長すぎてどうにもならない場合は、入力データの文長を調整することをオススメする。

感想

くっそ簡単になった。Pytorchを使って自分でモデルを書いていた時間はなんだったのだろう。まぁ、いいか。