Erro de Float 16 e de ativação da GPU ao processar transcrição de áudio #2386
Replies: 6 comments 15 replies
-
Hi. I'm traveling on vacation and not able to help you right now... @gfd2020 seems he is following your GPU tutorial, do you have available time to help him? Thanks in advance. |
Beta Was this translation helpful? Give feedback.
-
Oi @RafaelgsEspindola . Me tira algumas dúvidas:
|
Beta Was this translation helpful? Give feedback.
-
@RafaelgsEspindola , acho que está acontecendo várias coisas diferentes. Esse bug é em relação ao áudio vir vazio e o whisper não consegue detectar a linguagem, então a GPU vai ficar parada mesmo pois não tem nada a transcrever pois o job falhou. Faz um teste pra mim. Abre o zip da sua evidência e extrai uns 30 audios grandes ogg e tenta processar eles separadamente. Utilize int8 na configuração e veja se vai transcrever. Se funcionar, aí você tenta de novo sua evidencia inteira zipada mas espera o processo todo acabar, provavelmente a GPU vai ficar 0% enquanto não passa a parte do bug do fast-whisper ... |
Beta Was this translation helpful? Give feedback.
-
@gfd2020 extraí 300 áudios em .opus, que é o formato dos áudios do Whatsapp, pelo menos a maioria, segue o resultado na primeira imagem e o primeiro log, pode verificar que continuou usando a CPU. Na segunda imagem, é o processamento com os arquivos . ogg, que você solicitou, mas que continuou utilizando a CPU. Com relação ao pytorch, estou seguindo a versão que indica no site, comecei com o CUDA 12.6, já que o drive era de 12.7, porém sem sucesso. Depois fui para o CUDA 12.4 e agora estou usando o CUDA 11.8 e continua dando erro, mesmo alterando a versão do torch e testando e reconhecendo o CUDA, tanto que rodou tranquilo novamente hoje usando o WHISPER no modo TURBO, transcreveu uma oitiva de 15 minutos em .mp4 no tempo de 1 minuto. Mandei também o arquivo de configuração. Por fim, compartilhei o arquivo do IPED que estou utilizando para verificação, caso queira. o arquivo está zipado e está no link do google drive abaixo. https://drive.google.com/drive/folders/1TbgqCTBB7lnF67ndmTAscDDfZE-7_ZPG?usp=sharing |
Beta Was this translation helpful? Give feedback.
-
@RafaelgsEspindola , acho que descobri o erro. Você está usando a versão snapshot 4.2 certo? Essa versão está sempre mandando para a cpu, não sei o porquê ficou escrita assim. Verifique o arquivo WhisperProcess.py que está na pasta "iped-4.2-snapshot\scripts\tasks". Provavelmente você verá perto da linha 40 o seguinte código:
O correto é o abaixo:
PS: Eu imagino que essa versão 4.2 snapshot não foi muito testada, aconselho cautela a utilizá-la. |
Beta Was this translation helpful? Give feedback.
-
Just a reminder. After fixing the code to perform the transcription using the GPU, I was unable to make it work. The transcription task always crashed. I discovered that the error was that a cudnn dll (cudnn_ops_infer64_8.dll) from pytorch was not in the path (I believe it must be a bug in this version). So I had to put the folder 'python\Lib\site-packages\torch\lib' in the windows path. |
Beta Was this translation helpful? Give feedback.
-
Prezados, preciso de ajuda com relação ao rodar a biblioteca de transcrição de áudio deepdml/faster-whisper-large-v3-turbo-ct2 e também do whisper. Quando coloco na versão float16, apresenta o seguinte erro: "Requested float16 compute type, but the target device or backend do not support efficient float16 computation.", além disso, quando coloco o float32, não ativa a GPU, roda apenas a CPU. Esse mês adquirimos uma CPU para rodar o IPED, ela vem com placa de vídeo RTX 4070 SUPER, i7 14700KF e memória de 64 GB, ela veio com drive Nvidia 12.7, instalei o CUDA 12.4, cuDNN compatível com a versão 12.4 e o pytorch compatível, ademais, segui todo o processo recomendado na WIKI do IPED, porém não obtive sucesso ao rodar usando a GPU da máquina. Estou utilizando a versão 4.2 snapchat, que é uma versão muito boa e me ajudou demais, mas só preciso de ajuda com relação da GPU, pois temos várias extrações para rodar e muito deles passam de 50 mil áudios, que fica muito difícil de analisar sem uma transcrição boa.




IPED-2024-12-18-13-23-04.log
AudioTranscriptConfig (2).txt
Beta Was this translation helpful? Give feedback.
All reactions