Uma nova análise constatou que cerca de um terço das respostas das ferramentas de IA (inteligência artificial) não tem respaldo de fontes confiáveis. Para o GPT 4.5, da OpenAI, o número foi ainda maior, de 47% — atrás apenas da Perplexity.
A equipe de Pranav Narayanan Venkit, da Salesforce AI Research, testou mecanismos de busca de IA generativa, incluindo o GPT-4.5 e 5, o You.com, o Perplexity e o Bing Chat da Microsoft. Além disso, testaram ainda cinco agentes de pesquisa aprofundada: o Deep Research do GPT-5, o Think Deeper do Bing Chat e as ferramentas do You.com, Google Gemini e Perplexity.
Os diferentes mecanismos de IA receberam 303 perguntas, com suas respostas avaliadas em relação a oito métricas. As métricas testam se uma resposta é unilateral ou excessivamente confiante; sua relevância para a pergunta; quais fontes cita, se houver; quanto suporte as citações oferecem para as afirmações feitas nas respostas; e quão completas são as citações.
As perguntas foram divididas em dois grupos. O primeiro continha questões controversas, a fim de detectar vieses nas respostas. Já o segundo grupo incluía perguntas para testar a expertise em diversas áreas, como meteorologia, medicina e interação humano-computador.
As respostas da IA foram avaliadas por um grande modelo de linguagem (LLM) ajustado para entender a melhor forma de julgar uma resposta. O treinamento examinou como dois anotadores humanos avaliaram respostas para mais de 100 perguntas semelhantes.
Tanto os mecanismos de busca com tecnologia de IA quanto as ferramentas de pesquisa aprofundada tiveram desempenho insatisfatório. A grande quantidade de respostas unilaterais surpreendeu os pesquisadores.
Resultados de cada IA no teste de confiabilidade
Cerca de 23% das afirmações da busca do Bing Chat incluíam declarações sem fundamento, enquanto para o You.com e o Perplexity AI, o número foi de aproximadamente 31%. Já o GPT-4.5 produziu 47% alegações sem fundamento, mas ficou abaixo dos 97,5% do agente de pesquisa profunda da Perplexity.
A Perplexity, por sua vez, discordou da metodologia do estudo, destacando que sua ferramenta permite ao usuário escolher um modelo de IA específico para a melhor resposta. Em contrapartida, o estudo usou a configuração padrão na qual a ferramenta escolhe o próprio modelo.
Venkit admitiu que a equipe não explorou essa variável. No entanto, apontou que a maioria dos usuários não saberia qual modelo de IA escolher de qualquer maneira. As demais empresas não comentaram o estudo.
Com informações de NewScientist.
The post Uma em cada três respostas de IA não é confiável, alerta estudo appeared first on Giz Brasil.