测试表明Google AI概览功能每小时产生数百万条错误信息

Ars Technica

Ryan Whitwam

2026年4月8日 00:537.0/10

《纽约时报》使用OpenAI的SimpleQA基准测试发现，Google的AI概览功能有10%的概率提供错误答案，相当于每天产生数百万次错误。该功能从Gemini 2.5到3.0的更新中准确率从85%提升至91%，但在大规模应用中仍存在问题。实例显示其会自信地引用矛盾或无关来源回答事实性问题。

Google的AI概览功能是基于Gemini的搜索摘要工具，自2024年推出后因准确性问题备受争议。SimpleQA是OpenAI发布的包含4000多个可验证问题的基准测试，用于评估生成式AI的事实准确性。