LLM即使在明确警告后仍相信虚假陈述

Ars Technica

Kyle Orland

2026年5月29日 05:297.0/10

新研究表明，大型语言模型（LLM）即使在训练数据中明确标注为虚假的情况下，仍会内化虚假陈述，这种现象被称为'否定忽视'。研究发现，尽管有明确警告，像GPT-4.1这样的模型仍会吸收捏造的主张，这表明它们更注重统计模式而非显式框架。这一发现有助于解释为什么LLM经常产生幻觉，并对AI训练数据质量有重要启示。

背景

大型语言模型基于海量文本数据进行训练，但它们生成虚假或误导性信息（幻觉）的倾向仍然是AI开发中的一个重大挑战。理解这些模型如何处理和内化信息对于提高其可靠性和安全性至关重要。

来源: Ars Technica
发布时间: 2026年5月29日 05:29
评分: 7.0 / 10

阅读原文 →