Erro de Float 16 e de ativação da GPU ao processar transcrição de áudio #2386

RafaelgsEspindola · 2024-12-19T13:01:38Z

RafaelgsEspindola
Dec 19, 2024

Prezados, preciso de ajuda com relação ao rodar a biblioteca de transcrição de áudio deepdml/faster-whisper-large-v3-turbo-ct2 e também do whisper. Quando coloco na versão float16, apresenta o seguinte erro: "Requested float16 compute type, but the target device or backend do not support efficient float16 computation.", além disso, quando coloco o float32, não ativa a GPU, roda apenas a CPU. Esse mês adquirimos uma CPU para rodar o IPED, ela vem com placa de vídeo RTX 4070 SUPER, i7 14700KF e memória de 64 GB, ela veio com drive Nvidia 12.7, instalei o CUDA 12.4, cuDNN compatível com a versão 12.4 e o pytorch compatível, ademais, segui todo o processo recomendado na WIKI do IPED, porém não obtive sucesso ao rodar usando a GPU da máquina. Estou utilizando a versão 4.2 snapchat, que é uma versão muito boa e me ajudou demais, mas só preciso de ajuda com relação da GPU, pois temos várias extrações para rodar e muito deles passam de 50 mil áudios, que fica muito difícil de analisar sem uma transcrição boa.
IPED-2024-12-18-13-23-04.log
AudioTranscriptConfig (2).txt

lfcnassif · 2024-12-19T15:46:06Z

lfcnassif
Dec 19, 2024
Maintainer

Hi. I'm traveling on vacation and not able to help you right now... @gfd2020 seems he is following your GPU tutorial, do you have available time to help him? Thanks in advance.

1 reply

gfd2020 Dec 20, 2024
Collaborator

Hi. I'm traveling on vacation and not able to help you right now... @gfd2020 seems he is following your GPU tutorial, do you have available time to help him? Thanks in advance.

Hello. I'll try to help him.

gfd2020 · 2024-12-20T12:56:07Z

gfd2020
Dec 20, 2024
Collaborator

Prezados, preciso de ajuda com relação ao rodar a biblioteca de transcrição de áudio deepdml/faster-whisper-large-v3-turbo-ct2 e também do whisper. Quando coloco na versão float16, apresenta o seguinte erro: "Requested float16 compute type, but the target device or backend do not support efficient float16 computation.", além disso, quando coloco o float32, não ativa a GPU, roda apenas a CPU. Esse mês adquirimos uma CPU para rodar o IPED, ela vem com placa de vídeo RTX 4070 SUPER, i7 14700KF e memória de 64 GB, ela veio com drive Nvidia 12.7, instalei o CUDA 12.4, cuDNN compatível com a versão 12.4 e o pytorch compatível, ademais, segui todo o processo recomendado na WIKI do IPED, porém não obtive sucesso ao rodar usando a GPU da máquina. Estou utilizando a versão 4.2 snapchat, que é uma versão muito boa e me ajudou demais, mas só preciso de ajuda com relação da GPU, pois temos várias extrações para rodar e muito deles passam de 50 mil áudios, que fica muito difícil de analisar sem uma transcrição boa.

Oi @RafaelgsEspindola . Me tira algumas dúvidas:

Quando você roda com int8 a transcrição na GPU funciona?
No Nvidia panel está monstrando qual versão da NVCUDA64.dl ?
Eu também tive esses erros de não funcionar float16 e float32 mas eu pensava que era por causa de gpu antiga. A sua é bem nova. Tenta desinstalar o pytorch 12.4 e instala a 12.1 para testar ( pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121 )
Parece que a tabela de compatibilidade do Pytorch foi atualizada. Veja se você está atendendo todos os requisitos e versões. Pelo que eu vi o seu CUDNN está em uma versão abaixo recomendada.

1 reply

RafaelgsEspindola Dec 20, 2024
Author

Olá, @gfd2020! Muito obrigado pela ajuda e atenção.

rodei com o int8 e o CUDA 11.8 e não deu certo utilizar a GPU, está aí embaixo. estou enviando também o log e audioconfig.txt
IPED-2024-12-20-10-13-36.log
AudioTranscriptConfig.txt
A versão do NVCUDA64.dll é o 12.7, mandei também, já veio instalado quando recebemos e infelizmente, não tenho o conhecimento de alterar.
rodei o whisper diretamente pelo CMD da máquina e transcreveu normalmente utilizando 100% da GPU e transcreveu uma oitiva de mais de 10 min em menos de 30 seg.

Se precisar de algo a mais é só falar.

gfd2020 · 2024-12-20T14:10:09Z

gfd2020
Dec 20, 2024
Collaborator

@RafaelgsEspindola , acho que está acontecendo várias coisas diferentes.
Pelo log que você me enviou, parece que está acontecendo o bug relatado aqui abaixo:
SYSTRAN/faster-whisper#900

Esse bug é em relação ao áudio vir vazio e o whisper não consegue detectar a linguagem, então a GPU vai ficar parada mesmo pois não tem nada a transcrever pois o job falhou.

Faz um teste pra mim. Abre o zip da sua evidência e extrai uns 30 audios grandes ogg e tenta processar eles separadamente. Utilize int8 na configuração e veja se vai transcrever.

Se funcionar, aí você tenta de novo sua evidencia inteira zipada mas espera o processo todo acabar, provavelmente a GPU vai ficar 0% enquanto não passa a parte do bug do fast-whisper ...

0 replies

RafaelgsEspindola · 2024-12-20T19:04:31Z

RafaelgsEspindola
Dec 20, 2024
Author

@gfd2020 extraí 300 áudios em .opus, que é o formato dos áudios do Whatsapp, pelo menos a maioria, segue o resultado na primeira imagem e o primeiro log, pode verificar que continuou usando a CPU. Na segunda imagem, é o processamento com os arquivos . ogg, que você solicitou, mas que continuou utilizando a CPU. Com relação ao pytorch, estou seguindo a versão que indica no site, comecei com o CUDA 12.6, já que o drive era de 12.7, porém sem sucesso. Depois fui para o CUDA 12.4 e agora estou usando o CUDA 11.8 e continua dando erro, mesmo alterando a versão do torch e testando e reconhecendo o CUDA, tanto que rodou tranquilo novamente hoje usando o WHISPER no modo TURBO, transcreveu uma oitiva de 15 minutos em .mp4 no tempo de 1 minuto. Mandei também o arquivo de configuração. Por fim, compartilhei o arquivo do IPED que estou utilizando para verificação, caso queira. o arquivo está zipado e está no link do google drive abaixo.
AudioTranscriptConfig.txt
IPED-2024-12-20-15-22-56.log
IPED-2024-12-20-15-39-32.log

https://drive.google.com/drive/folders/1TbgqCTBB7lnF67ndmTAscDDfZE-7_ZPG?usp=sharing

0 replies

gfd2020 · 2024-12-20T20:17:56Z

gfd2020
Dec 20, 2024
Collaborator

@RafaelgsEspindola , acho que descobri o erro. Você está usando a versão snapshot 4.2 certo? Essa versão está sempre mandando para a cpu, não sei o porquê ficou escrita assim. Verifique o arquivo WhisperProcess.py que está na pasta "iped-4.2-snapshot\scripts\tasks". Provavelmente você verá perto da linha 40 o seguinte código:

if cudaCount > 0:
    deviceId = 'cpu'
    deviceNum = 0
else:
    deviceId = 'cpu'
    deviceNum = 0

O correto é o abaixo:

if cudaCount > 0:
    deviceId = 'cuda'
else:
    deviceId = 'cpu'
    deviceNum = 0

PS: Eu imagino que essa versão 4.2 snapshot não foi muito testada, aconselho cautela a utilizá-la.

12 replies

gfd2020 Dec 26, 2024
Collaborator

Link for the latest snapshot: https://github.com/sepinf-inc/IPED/actions/runs/12296839061/artifacts/2311627934

@wladimirleite , Does this version have the source code too?

wladimirleite Dec 26, 2024
Collaborator

Not sure which would be an easy way to check the code from that exact version, but it is pretty much the master. There were a couple of merges after that, but very small fixes.

wladimirleite Dec 26, 2024
Collaborator

Are you having any trouble with that snapshot?!

gfd2020 Dec 26, 2024
Collaborator

Are you having any trouble with that snapshot?!

No. I wanted to release a custom beta version before the 4.2 release came out.

lfcnassif Dec 26, 2024
Maintainer

To see all source code related to a specific snapshot, just click on the commit number in the Actions tab, then click on "Browse Files".

gfd2020 · 2024-12-23T19:50:22Z

gfd2020
Dec 23, 2024
Collaborator

Just a reminder. After fixing the code to perform the transcription using the GPU, I was unable to make it work. The transcription task always crashed. I discovered that the error was that a cudnn dll (cudnn_ops_infer64_8.dll) from pytorch was not in the path (I believe it must be a bug in this version). So I had to put the folder 'python\Lib\site-packages\torch\lib' in the windows path.

1 reply

lfcnassif Dec 26, 2024
Maintainer

@RafaelgsEspindola, was you able to run transcription on GPU with last official snapshot (not a third party version/fork) and @gfd2020's tip above?

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Erro de Float 16 e de ativação da GPU ao processar transcrição de áudio #2386

{{title}}

Replies: 6 comments 15 replies

{{title}}

{{editor}}'s edit

{{editor}}'s edit

{{title}}

{{title}}

{{editor}}'s edit

{{editor}}'s edit

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{editor}}'s edit

{{editor}}'s edit

{{title}}

{{title}}

{{editor}}'s edit

{{editor}}'s edit

{{title}}

{{title}}

{{editor}}'s edit

{{editor}}'s edit

{{title}}

Select a reply

Erro de Float 16 e de ativação da GPU ao processar transcrição de áudio #2386

RafaelgsEspindola Dec 19, 2024

Replies: 6 comments · 15 replies

lfcnassif Dec 19, 2024 Maintainer

gfd2020 Dec 20, 2024 Collaborator

gfd2020 Dec 20, 2024 Collaborator

RafaelgsEspindola Dec 20, 2024 Author

gfd2020 Dec 20, 2024 Collaborator

RafaelgsEspindola Dec 20, 2024 Author

gfd2020 Dec 20, 2024 Collaborator

gfd2020 Dec 26, 2024 Collaborator

wladimirleite Dec 26, 2024 Collaborator

wladimirleite Dec 26, 2024 Collaborator

gfd2020 Dec 26, 2024 Collaborator

lfcnassif Dec 26, 2024 Maintainer

gfd2020 Dec 23, 2024 Collaborator

lfcnassif Dec 26, 2024 Maintainer

RafaelgsEspindola
Dec 19, 2024

Replies: 6 comments 15 replies

lfcnassif
Dec 19, 2024
Maintainer

gfd2020 Dec 20, 2024
Collaborator

gfd2020
Dec 20, 2024
Collaborator

RafaelgsEspindola Dec 20, 2024
Author

gfd2020
Dec 20, 2024
Collaborator

RafaelgsEspindola
Dec 20, 2024
Author

gfd2020
Dec 20, 2024
Collaborator

gfd2020 Dec 26, 2024
Collaborator

wladimirleite Dec 26, 2024
Collaborator

wladimirleite Dec 26, 2024
Collaborator

gfd2020 Dec 26, 2024
Collaborator

lfcnassif Dec 26, 2024
Maintainer

gfd2020
Dec 23, 2024
Collaborator

lfcnassif Dec 26, 2024
Maintainer