追加するボキャブラリファイル
添付してあるファイル
empty.txt
: 何も追加しないnlp2023_py0500.txt
: Python語彙500nlp2023_py2500.txt
: Python語彙2500nlp2023_py5000.txt
: Python語彙5000
python3 vocamaru.py empty.txt --tokenizer_path=megagonlabs/t5-base-japanese-web-8k --save_path=meg8
オプションの説明
--tokenizer
: ベースのトークンナイザ--save_path
: 保存先
python3 vocamaru.py nlp2023_py0500.txt --tokenizer_path=megagonlabs/t5-base-japanese-web-8k --skip_empty --save_path=meg8
オプションの説明
--tokenizer
: ベースのトークンナイザ--save_path
: 保存先--skip_empty
: 新ボキャブラリが足りないときはそのまま残す--head_first
: ボキャブラリテーブルの先頭から置き換える--enable_trim
: トリミングをする:字句の汎化を行う--disable_number
: 数字の置き換えはしない--disable_ja
: 日本語の重複語は置き換えない。(SentencePiece を信じる)