์ ํด์ฒ ์ ๋ผ๋์ค ํ๋ก๊ทธ๋จ, ๊ณ ์คํธ์คํ ์ด์ ์ ์ ๋ฌธ์ STT๋ก ์ด์ฉํ์ฌ ์ ์ํด๋ณด๋ ค๊ณ ํฉ๋๋ค.
- ํ ์คํธ ์คํฌ๋ฆฝํธ๋ค์ transcribed_files์ .txt ํ์ผ ํํ๋ก ์ ์ฅํ์ต๋๋ค
- ํ์ฌ ghoststation wikipedia๋ฅผ ์ ์ ์ค์ด๋ฉฐ, ํฅํ ์คํฌ๋ฆฝํธ ํ์ผ๋ค์ ์ ๋ก๋ํ ์์ ์ ๋๋ค
This project's object is to archive Shin Hae-Chul(crom)'s radio program "Ghoststation" as transcript document.
- Transcripts are saved at transcribed_files folder as .txt file format
- Apr 2001 ~ Dec 2002 radio program's transcripts are crawled from SBS radio station.
- Google Cloud Speech๋ MP3๋ฅผ input์ผ๋ก ๋ฐ์ง ์์ต๋๋ค. FLAC, WAV๋ง์ input์ผ๋ก ๋ฐ์ต๋๋ค.
- ๋ฐ๋ผ์ ์ด ํ๋ก์ ํธ์๋ ๋ ๊ฐ์ง๋ฅผ ๋ค์ด๋ก๋ ๋ฐ์์ผ ํฉ๋๋ค.
- Windows OS์์๋ Virtual Environment๋ฅผ ํ์ฑํด์ ์์ ํด์ผ ํ๋ฉฐ, Mac OS์์๋ ๋ก์ปฌ์์ ์์ ํ ์ ์์ต๋๋ค.
- env_settings.bat์์๋ ์์ ๋ค์ด๋ก๋ ๋ฐ์ Google Cloud SDK์ FFMPEG์ system path๋ฅผ ์ค์ ํด์ค๋๋ค.
- Windows OS์์๋ virtual environment๋ฅผ ์ค์ ํด๋์ ํด๋ ์์์๋ง ์์ ํ์ ์ผ ํฉ๋๋ค. Google Cloud SDK๋, FFMPEG๋ Virtual Environment๋ฅผ ์ค์ ํ ํด๋์ ๋ค์ด๋ก๋ ๋ฐ์ผ์ ์ผ ํฉ๋๋ค. ๋ง์ฐฌ๊ฐ์ง๋ก, env_settings.bat์ ํด๋น ํด๋์์ ์คํ์์ผ์ผ๋ง system path๋ฅผ ์ค์ ํ ์ ์์ต๋๋ค.
- Mac OS์์๋ terminal์์ ํด๋น command๋ฅผ ์คํ์ํค๋ฉด ๋ฉ๋๋ค.
- _ghost_cloud_transcriber.py๋ Google Cloud Storage์ ์์นํ 40๋ถ ๋ถ๋์ FLAC ํ์ผ์ ํ๊ธ transcript๋ก ์ถ๋ ฅํฉ๋๋ค.
- _local_transcriber.py๋ local ํด๋์ ์์นํ 4๋ถ ๋ถ๋์ FLAC ํ์ผ์ ํ๊ธ transcript๋ก ์ถ๋ ฅํฉ๋๋ค. ๊ทธ๋ฌ๋ Google Cloud API ์ ํ์ด ์๊ธฐ ๋๋ฌธ์ 5๋ถ ์ด์ ๋ถ๋์ ์ค๋์ค ํ์ผ์ _ghost_cloud_transcriber.py๋ฅผ ์ด์ฉํด์ผ ํฉ๋๋ค.
- Google Cloud SDK Setup ๋ฐฉ๋ฒ์ ํด๋น ํํ ๋ฆฌ์ผ์ ์ฐธ๊ณ ํ์ญ์์ค.
- _ghost_transform.py๋ mp3 ํ์ผ์ flac ํ์ผ๋ก ๋ณํํฉ๋๋ค.