huggingfaceで瞬殺的に系列ラベリングコードを実装したい

06/30/2020

目次

やりたかったこと

日本語のBertモデルでFine-tuningしたい。Fine-tuningして、系列ラベリングのモデルを作りたい。

解決策

系列ラベリングコードはexampleをコピペして使う。まったく同じで良かった。
新しく作成するファイルは２種類。
1. config.json。ここに記載がある。
2. train / dev / testのためのCoNLL形式ファイル
Pre-train済みのBertモデルには cl-tohoku/bert-base-japanese-whole-word-masking を指定する。他にもいくつかの種類がある。

注意点など

入力文長がくっそ長いと、サンプルコードは途中で系列をぶった切って、モデルを学習する。予測時は、指定長以降のtokenに対して、モデルが予測をしない。この入力長は max_seq_length で制御する。このパラメタはconfig.jsonに記載する。

くっそ長すぎてどうにもならない場合は、入力データの文長を調整することをオススメする。

感想

くっそ簡単になった。Pytorchを使って自分でモデルを書いていた時間はなんだったのだろう。まぁ、いいか。

Natural Language processing,Programming and researchbert,huggingface

Posted by blog_author

Vue.jsのテストを作成したかったが、苦労した

huggingface transformerのシード値を固定したい

ディスカッション

コメント一覧

まだ、コメントがありません

コメントをどうぞコメントをキャンセル

この記事のトラックバックURL

プロフィール

ぼく（ときどき私）
現在、南フランスで博士課程にいる。
研究テーマはシュミレーションとパラメタ推定。
Python歴 9年。

自然言語処理を業務で５年ほど経験。
スタートアップでゼロから分析システム設計などなど。

ドイツ移住後はフリーランス資格を取得し、生活。
自然言語処理エンジニア（兼 Pythonエンジニア）で生計を立てる。
ドイツ生活中にGoethe-zertifikat B2を取得。

フランス語の言語学習しながら、研究活動。
研究内容のこと、Pythonのこと、言語学習のこと、フランス生活のことなどを書いていきます。