E-Ink 新闻日报

返回列表

测试表明Google AI概览功能每小时产生数百万条错误信息

《纽约时报》使用OpenAI的SimpleQA基准测试发现,Google的AI概览功能有10%的概率提供错误答案,相当于每天产生数百万次错误。该功能从Gemini 2.5到3.0的更新中准确率从85%提升至91%,但在大规模应用中仍存在问题。实例显示其会自信地引用矛盾或无关来源回答事实性问题。

背景

Google的AI概览功能是基于Gemini的搜索摘要工具,自2024年推出后因准确性问题备受争议。SimpleQA是OpenAI发布的包含4000多个可验证问题的基准测试,用于评估生成式AI的事实准确性。

来源
Ars Technica
发布时间
2026年4月8日 00:53
评分
7.0 / 10