Skip to content

Latest commit

 

History

History
38 lines (30 loc) · 2.03 KB

README.md

File metadata and controls

38 lines (30 loc) · 2.03 KB

ngram-model

Генерация текстов с помощью N-граммной модели для отбора на Tinkoff Generation ML 2022, Денисьев Илья

$ python train.py -h
usage: train.py [-h] [--input INPUT_FILE_PATH] --model OUTPUT_FILE_PATH [-n NGRAM_LEN]

Тренировка N-граммной модели

options:
  -h, --help            show this help message and exit
  --input INPUT_FILE_PATH
                        путь к файлу с текстом для обучения (по умолчанию stdin)
  --model OUTPUT_FILE_PATH
                        путь к файлу, в который сохраняется модель (если он уже существует, то модель
                        будет обновлена)
  -n NGRAM_LEN          размер N-грамм (по умолчанию 3)
$ python generate.py -h
usage: generate.py [-h] --model INPUT_FILE_PATH [--prefix PREFIX] --length LENGTH

Генератор текстов с помощью N-граммной модели

options:
  -h, --help            show this help message and exit
  --model INPUT_FILE_PATH
                        путь к файлу с моделью
  --prefix PREFIX       начало текста
  --length LENGTH       длина генерируемой последовательности (в словах)

Можно запускать train.py несколько раз на одной и той же модели, чтобы её доучивать. При первом запуске generate.py на модели, создаётся оптимизированная версия с расширением .opt. После доучивания модели следует удалить этот файл, чтобы она соптимизировалась заново.

В /models лежат модели, обученные на романе "Война и мир" с размерами N-грамм 2, 3, 4. Текст романа лежит в /data.