Nation of Illusions: Assessing the Madness of Your Preferred Artificial Intelligence Model. Nação da Alucinação: Quão louco é o seu modelo de IA favorito?

Apesar de todo o poder transformador e disruptivo atribuído ao surgimento da inteligência artificial, o calcanhar de Aquiles da IA geradora continua sendo sua tendência a inventar coisas. A tendência dos Grandes Modelos de Linguagem (LLMs) a “alucinar” vem com todos os tipos de armadilhas, semeando as sementes da desinformação. A esfera do Processamento de Linguagem Natural (PNL) pode ser perigosa, especialmente quando as pessoas não conseguem distinguir entre o que é humano e o que é gerado pela IA. Para lidar com a situação, a Huggingface, que afirma ser a maior comunidade de IA de código aberto do mundo, introduziu o Hallucinations Leaderboard, um novo ranking dedicado à avaliação de LLMs de código aberto e sua tendência a gerar conteúdo alucinado, executando-os através de um conjunto de diferentes benchmarks adaptados ao aprendizado em contexto. “Esta iniciativa deseja ajudar pesquisadores e engenheiros a identificar os modelos mais confiáveis e potencialmente impulsionar o desenvolvimento de LLMs em direção a uma geração de linguagem mais precisa e fiel”, explicaram os desenvolvedores do ranking. Alucinações factuais são quando o conteúdo contradiz fatos verificáveis do mundo real. Um exemplo de tal discrepância poderia ser um modelo que proclama incorretamente que o Bitcoin tem 100 milhões de tokens em vez de apenas 23 milhões. As alucinações fiéis, por outro lado, surgem quando o conteúdo gerado se desvia das instruções explícitas do usuário ou do contexto estabelecido, levando a possíveis imprecisões em domínios críticos, como resumo de notícias ou análise histórica. Nesta frente, o modelo gera informações falsas porque parece ser o caminho mais lógico de acordo com seu prompt. O quadro de classificação usa o Arnês de Avaliação de Modelos de Língua da EleutherAI para conduzir uma avaliação completa do modelo de linguagem de zero-shot e few-shot em uma variedade de tarefas. Estas tarefas são concebidas para testar o quão bem um modelo se comporta. Em termos gerais, cada teste dá uma pontuação com base no desempenho do LLM, então esses resultados são medidos para que cada modelo compita com base em seu desempenho geral em todos os testes.