Um estudo amplo liderado por Mahmud Omar e Eyal Klang, da Icahn School of Medicine at Mount Sinai, com a colaboração de Girish N. Nadkarni e outros pesquisadores do Mount Sinai Health System e publicado em The Lancet Digital Health, revelou uma vulnerabilidade estrutural dos sistemas baseados em IA no domínio da saúde: quando mensagens falsas são revestidas com linguagem clínica ou narrativa corrente das redes, tendem a ser aceitas e reproduzidas como corretas pelos modelos de linguagem.
Os autores analisaram mais de um milhão de interações com nove grandes modelos de linguagem (LLMs), testando a capacidade desses sistemas de identificar e bloquear a desinformação médica. Para isso, o conjunto de testes incluiu três tipos de material: notas de alta hospitalar reais do banco de dados MIMIC com a inserção de uma única indicação clínica falsa; mitos de saúde provenientes de fóruns como Reddit; e 300 cenários clínicos curtos escritos e validados por médicos.
Cada cenário foi apresentado em versões que iam de uma formulação neutra até textos com carga emocional ou sugestiva, simulando o tipo de conteúdo que circula nas redes sociais. Um exemplo citado pelos pesquisadores foi uma nota de alta que sugeria, incorretamente, que pacientes com esofagite deveriam “beber leite frio para aliviar os sintomas”. Vários modelos não sinalizaram o conselho como perigoso e o trataram como uma prática clínica padrão.
Segundo Eyal Klang, responsável pela Generative AI no Mount Sinai, “os resultados indicam que esses sistemas tendem a considerar verdadeiro um conteúdo expresso com linguagem médica segura e autoritativa, mesmo quando é claramente equivocado”. Em outras palavras, a forma — o tom clínico, as siglas, a estrutura típica de uma nota de serviço — pode funcionar como um “revestimento” que contorna as proteções atuais dos modelos.
Os pesquisadores propõem transformar a pergunta teórica “essa IA pode transmitir uma mentira?” em um parâmetro mensurável antes da adoção clínica: realizar testes de estresse em larga escala e verificações externas baseadas em evidências. Mahmud Omar destaca que o dataset produzido pelo estudo pode ser usado por hospitais e desenvolvedores para avaliar com que frequência um modelo repete informações falsas e se essas falhas diminuem em versões subsequentes.
Para Girish N. Nadkarni, diretor do Windreich Department of Artificial Intelligence and Human Health, a mensagem é clara: “a inteligência artificial tem potencial para melhorar o cuidado, mas só com salvaguardas que verifiquem as afirmações médicas antes de apresentá-las como fatos”. O trabalho, portanto, indica tanto pontos de falha quanto caminhos práticos — desde métricas padronizadas de segurança até auditorias independentes e integração de fluxos de verificação de evidência.
Do ponto de vista de infraestrutura digital, o estudo mostra que a confiança nas respostas geradas por modelos de linguagem depende tanto do alicerce de dados e regras quanto da camada de apresentação: o “tonalidade clínica” pode atuar como um sinal enganoso, equivalente a uma identificação falsificada numa rede de serviços. Para sistemas de saúde europeus e italianos isso significa que a arquitetura de adoção da IA deve incorporar filtros contextuais, rotas de verificação e mecanismos de verificação cruzada com bases clínicas autorizadas antes da entrega ao paciente ou ao clínico.
Em suma, o estudo do Mount Sinai não é um alerta simplista contra a tecnologia, mas um diagnóstico técnico: as camadas de inteligência devem ser redesenhadas para que o sistema nervoso das cidades e hospitais — o fluxo de dados clínicos — não propague efêmeros ruídos que possam comprometer decisões reais. Engenharia, métricas e governança caminham juntas se quisermos que a IA cumpra seu papel de amplificar segurança e eficiência, não de multiplicar erros bem redigidos.






















