
Por Eduardo Salles, Diretor de Inovação da Dotter Brasil
Todo mundo já sabe, mas a frase nunca perde sua magia: TREINO É UMA COISA, JOGO É OUTRA.
Estávamos todos muito empolgados (talvez ‘assustados’ seja a realidade para a maioria das pessoas) com a chegada da Inteligência Artificial através dos modelos de linguagem (Large Language Models ou LLMs) e com os impactos desta tecnologia sobre a produtividade de todos nós.
Toda essa comoção não era à toa. Afinal, é realmente espetacular ver a capacidade de processamento de informações, identificação de padrões em bases de dados desestruturadas e a transformação de tudo isso em informação humanizada através de ferramentas como o ChatGPT, Gemini, Llama e tantos outros.
Assim, o tempo passa e as ferramentas de Inteligência Artificial começam a tomar a forma de soluções para diversas aplicações na forma de produtos e serviços específicos. É hora de sair do TREINO e entrar em campo para o JOGO DE VERDADE… é aí que os problemas começam a aparecer. Isso porque o mundo real é muito diferente da “prancheta”.
A IA é genial, mas precisa de entrada de dados para fazer o que quer que seja. A questão é que a entrada de dados possui uma infinidade de variáveis absolutamente amorfas, incontroláveis e, por vezes, aleatórias que torna a viabilidade das soluções um desafio tão expressivo quando o próprio desenvolvimento das LLMs em si.
Estamos falando de coisas como: arquivos em formatos diferentes, câmeras com resoluções diferentes, imagens com luminosidade variável, sons misturados com ruídos, velocidade e latência das conexões de rede oscilantes, tons de pele, enfim: todo um universo de variáveis que vêm “atrapalhar” a precisão das IAs que, além de tudo, passam a ter seus resultados rotulados como “alucinações”.
Um exemplo muito interessante e ilustrador destes desafios ocorreu quando iniciamos o desenvolvimento de uma ferramenta para a captura e transcrição de consultas médicas com geração autônoma de prontuário e anamnese.

Quem quiser testar e brincar com a versão gratuita do nosso Escriba, pode acessar o link a seguir (não é preciso nenhum cadastro e nem fornecer seus dados para acessar): Transcritor de Áudio com Inteligência Artificial.
A capacidade das LLMs de, ao receber a transcrição de uma consulta, transformá-la em um prontuário é espetacular, mas depende, invariavelmente, da qualidade do texto transcrito.
A captura de áudio e transcrição são ferramentas relativamente antigas e “confiáveis” e nos debruçamos no uso das bibliotecas Speech-to-Text que funcionam de forma excelente em inúmeros softwares, aplicativos e páginas web.
Sim: funcionam de forma excelente QUANDO a conexão com a rede é extremamente estável… ninguém imaginava que as redes de dados em ambientes hospitalares e postos de saúde eram bastante instáveis. A rede está lá, disponível. Funciona muito bem para navegar pela internet, acessar sistemas e assistir ao YouTube.
Mas, Captura e Transcrição de Áudio é uma outra história…

Perdendo o Foco
O projeto passou a se desviar totalmente de seu foco, consumindo tempo e recursos para conseguir superar as dificuldades de captura de áudio com qualidade.
Conversamos com empresas de telefonia e redes de dados e, quanto mais me aprofundava no tema, mais descobria o tamanho dos desafios e dos investimentos necessários para superá-los.
Parecia cada vez mais óbvio que nenhuma instituição de saúde redirecionaria recursos necessários a investimentos em equipamentos médicos, instalações e profissionais para melhorar a qualidade da rede de dados.
Leia mais:
- Solução para alucinações de IA pode ser… a própria IA!
- ChatGPT e Bard: veja 8 dicas fora do óbvio para usar os modelos de IA
- Uso de IA pode revolucionar produção de hidrogênio verde; saiba com
Após meses de trabalho, conseguimos uma solução razoavelmente boa e viável (tanto economicamente quanto em sua capacidade de adaptação a diferentes dispositivos e ambientes) e conseguimos um resultado com 98% de acuracidade.
Legal, né? Infelizmente não. Para o uso médico, nenhuma acuracidade inferior a 100% na captura de áudio é aceitável e a ferramenta segue em desenvolvimento.
A questão é que, vamos lembrar, inovação também tem que pagar contas e dar resultados… como financiar este desenvolvimento ainda sem horizonte claro de tempo e custos? E a IA passa a enfrentar outra variável: o mundo dos negócios e das finanças.
Mas isso já é assunto para outro artigo. Por enquanto, me limito a compartilhar com vocês outras ferramentas para transcrição de áudio: Notta.AI, Transkriptor, Veed.IO e HappyScribe.
O post Entrando em campo com a Inteligência Artificial apareceu primeiro em Olhar Digital.
Fonte: https://olhardigital.com.br/2024/09/06/pro/entrando-em-campo-com-inteligencia-artificial/