A DeepMind, empresa de pesquisa e desenvolvimento de inteligência artificial (IA) do Google, desenvolve uma ferramenta capaz de criar “paisagens sonoras” para vídeos. Chamada de V2A (abreviação, em inglês, de “vídeo-para-áudio”), a ferramenta entende comandos de texto e “lê” pixels para sincronizar áudio com vídeo.
Nova ferramenta do Google cria falas, música e efeitos para vídeos
- A DeepMind, empresa de pesquisa e desenvolvimento de inteligência artificial (IA) do Google, desenvolve uma ferramenta chamada V2A (vídeo-para-áudio), capaz de criar “paisagens sonoras” para vídeos. Esta ferramenta entende comandos de texto e analisa pixels para sincronizar áudio com vídeo;
- O “motor” da V2A é um modelo de IA treinado com sons, videoclipes e transcrições de diálogos. As “paisagens sonoras” geradas pela ferramenta incluem diálogos, música e efeitos sonoros, todos ajustados para corresponder ao tom das imagens dos vídeos;
- Devido à qualidade ainda não ideal do som e para evitar o uso indevido, como a criação de deep fakes focadas em desinformação, a DeepMind informou que a ferramenta não será disponibilizada ao público tão cedo.
O “motor”– ou “cérebro”, se preferir – do V2A é um modelo de IA que foi treinado combinando sons, videoclipes e transcrições de diálogos. A ferramenta usa a descrição de trilhas sonoras para criar “paisagens” e, depois, as sincroniza com as imagens.
Leia mais:
- Nova atualização do Chrome vai ajudar quem não gosta de ler
- Veja as vantagens de usar o Gemini em vez do Google Assistente no seu celular
- Como verificar informações e imagens falsas no Google
‘Paisagens sonoras’ criadas por IA do Google têm falas, efeitos e música
As “paisagens sonoras” criadas pela nova ferramenta do Google contam com diálogos, música e efeitos sonoros. Elas são geradas de forma que correspondam ao tom das imagens dos vídeos.
“Através do treinamento em vídeo, áudio e anotações adicionais, nossa tecnologia aprende a associar eventos de áudio específicos a várias cenas visuais, ao mesmo tempo que responde às informações fornecidas nas anotações ou transcrições”, explica a DeepMind em comunicado publicado em seu site.
Ainda de acordo com a empresa, a ferramenta seria capaz de compreender “pixels brutos” de uma imagem e sincronizar automaticamente os sons gerados, sem necessidade de descrições.
Por ainda não ter alcançado uma qualidade alta de som e para evitar o uso indevido, como deep fakes focadas em desinformação, a DeepMind disse que não disponibilizará o recurso tão cedo.
Assista abaixo algumas demonstrações de “paisagens sonoras” criadas na V2A (as imagens foram criadas no Veo, plataforma do Google que transforma texto em vídeo):
O post IA do Google ‘lê’ texto e pixels para criar paisagens sonoras apareceu primeiro em Olhar Digital.
Fonte: https://olhardigital.com.br/2024/06/18/pro/ia-do-google-le-texto-e-pixels-para-criar-paisagens-sonoras/