GitHub

プロジェクト概要

本プロジェクトでは以下の処理をローカル環境で行います：

whisperを用いた音声ファイルの文字起こし
pyannote-audioを用いた話者分離（Speaker Diarization）
話者ごとの文字起こしを整理・統合し、CSVファイルに出力

ユースケース

セキュリティ重視の環境で、データを外部に出さずに音声を分析
複数人の会話を話者ごとに整理したい場合

事前に必要なもの

Hugging Face pyannote.audioのAPIトークンこちらからAPIトークンを取得し.envファイルに記入してください
ffmpegのインストール whisperのリポジトリを参照してインストールしてください
必要なライブラリのインストール

$ pip install -r requirement.txt

実行手順

音声ファイルに合わせてconfig.ini を編集する
app.batを実行する
結果を確認する結果は以下の形式で出力されます：
{音声ファイルの名前}_result/result_{話者情報}_transcription.csv
※start, end, speaker, text のカラムをで構成されます
※1レコードは、「start から end までの時間でspeakerがtextの内容を発話した」ことを示しますが、文字起こしと話者分離を別々で処理する関係上時間が重なって表示されることがあります

`config.ini`の編集

[FILE]

file_path mp3ファイルのパス

[SPEAKER_INFO]

num_speakers 発言者の数がわかる場合に指定
min_speakers 発言者の数が曖昧な場合の下限
max_speakers 発言者の数が曖昧な場合の上限
※num_speakersが指定された場合、min_speakers及びmax_speakersは指定無しとして読み込まれる

[DEFAULT]

lang 音声の言語
model_size whisperで使用するモデルサイズ:参照
realtime_log 文字起こしの内容表示のON/OFF

動作確認環境

OS : Windows10
GPU : GTX 1660 Super
RAM : 16GB
Python 3.10.8

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
.env		.env
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
app.bat		app.bat
config.ini		config.ini
generate_directory.py		generate_directory.py
requirements.txt		requirements.txt
speach2text_on_whisper.py		speach2text_on_whisper.py
speaker_diarization.py		speaker_diarization.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

プロジェクト概要

ユースケース

事前に必要なもの

実行手順

`config.ini`の編集

[FILE]

[SPEAKER_INFO]

[DEFAULT]

動作確認環境

About

Releases

Packages

Languages

License

hrask/mojioko

Folders and files

Latest commit

History

Repository files navigation

プロジェクト概要

ユースケース

事前に必要なもの

実行手順

config.iniの編集

[FILE]

[SPEAKER_INFO]

[DEFAULT]

動作確認環境

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

`config.ini`の編集

Packages