Skip to content

Aplicativos de geração de fala a partir de texto

Notifications You must be signed in to change notification settings

eac-ufsm/texto-para-voz

Repository files navigation

speech-synthesizer

Aplicativo desenvolvido em Python para gerar (sintetizar) um sinal de fala a partir de um texto, desenvolvido por alunos do curso de graduação em Engenharia Acústica, pela Universidade Federal de Santa Maria (UFSM).

Artigo (FONO 2020)

Breve resumo do artigo apresentado no XXVIII Congresso Brasileiro de Fonoaudiologia.

  • Introdução: Sistemas computacionais de síntese de voz têm alcançado maior robustez e sofisticação, especialmente na última década. Como consequência disso, tecnologias da fala sintética estão cada vez mais presentes e acessíveis (em diversos dispositivos) na vida moderna. De forma rudimentar, eles podem ser explicados como sistemas autônomos que são capazes de “ler textos”, convertendo as informações gráficas em sonoras.

  • Objetivo: Este trabalho possui o objetivo apresentar e oferecer facilidades para o uso de um software (com bibliotecas livres, freeware) para síntese (e reprodução) de voz a partir de texto. Para este fim, uma interface gráfica (GUI, graphical user interface) foi desenvolvida, facilitando o uso também por leigos em programação. O software como um todo pode ser aplicado em outras pesquisas e/ou no desenvolvimento de outras tecnologias assistivas.

  • Método: O software é desenvolvido em linguagem de programação Python, que é livre para uso (ou seja, sem custo para desenvolvedor e usuário) e independente de sistema operacional (isto é, pode rodar em Windows, MacOS e Linux). Esses são aspectos importantes ressaltados neste projeto. As bibliotecas utilizadas gTTS (Google text-to-speech) e PyQt5 são os elementos centrais na constituição dos códigos desenvolvidos. Elas são utilizadas, respectivamente, para construção dos algoritmos de síntese de voz e para a elaboração da interface gráfica (tornando assim o software mais amigável).

  • Resultados: A construção e configuração deste sistema computacional livre (freeware) resulta em uma ferramenta gratuita de síntese de fala, que pode ser usada por profissionais e/ou estudantes. Ela está disponibilizada online na plataforma de hospedagem de software GitHub (que detém todas as informações necessárias para uso, além dos códigos comentados). Apesar de se saber que vozes sintéticas têm limitações no que concerne à compreensão do receptor, estima-se que ela pode ajudar em estudos de reabilitação e/ou na assimilação de texto-fala.

  • Conclusão: A criação de um sistema de síntese de voz acessível e de uso livre é de considerável importância, sobretudo para a comunidade acadêmica (e/ou aqueles que tem restrições de capital). Os áudios gerados podem ser tanto utilizados de forma praticamente instantânea, quando gravados em um arquivo de áudio como wave ou mp3, por exemplo. Como objetivo futuro, espera-se expandir o projeto, adicionando mais recursos que possam ser úteis nas práticas de fonoaudiologia e engenharia.

Uso

No dado momento, o software desenvolvido ainda não possui um arquivo executável (.exe), necessitando ser executado em um compilador Python. Para mais informações sobre como baixar e instalar o Python e pacotes necessários acesse (sites, sites e mais sites).

Para usar os software basta fazer o download dos arquivos deste repositório, instalar as dependências e executar o arquivo ttsApp_v1.py no terminal do Pyhton para rodar programa.

A janela principal da interface do aplicativo é vista à esquerda. À direita, vemos a janela de configurações, onde é possível escolher por qual dispositivo o áudio será reproduzido, bem como a sua taxa de amostragem, o número de canais e a opção do formato, podendo ser mp3 ou wav. Para utilizar o aplicativo, o usuário deverá inserir um texto, checar as configurações do dispositivo de áudio no botão Configurar e clicar em Gerar voz na janela principal. Por fim, para ouvir o áudio sintetizado, basta clicar no botão Play. É possível ainda acompanhar a reprodução do áudio na barra de progresso na parte inferior da janela principal, podendo pausar pelo botão Pause e encerrar a reprodução pelo botão Stop. Para deletar o texto inserido e restaurar a janela principal, basta clicar no botão Limpar.

Versão futura

Pretende-se para a próxima versão do software, gerar um arquivo executável (.exe) para facilitar a utilização em diferentes dispositivos sem a necessidade de instalar um interpretador Python e suas dependências.

Dependências

  • Python 3.7
  • gtts
  • librosa
  • PyQt5
  • SoundDevice

Contato

Referências

https://www.researchgate.net/publication/344549583_Sistema_computacional_livre_para_sintese_de_voz_a_partir_de_texto

About

Aplicativos de geração de fala a partir de texto

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages