核心摘要
本研究依托为期 14 天的对照实验,选取 6 款主流商用大模型对话产品,围绕六大语种区域的当日 BBC 实时新闻设置 2100 道测试问题,累计生成 12600 份模型应答样本,系统核验 AI 作为新闻信息中介的内容可靠性。从整体数据来看,头部模型在标准化选择题测试中准确率普遍突破 90%,相较过往实时问答基准实现明显技术进步,但平均高分掩盖三大结构性缺陷:其一存在显著语种区域鸿沟,印地语场景受检索资源收录不足影响,全模型正确率大幅落后其余语种,错误量近乎其他地区两倍,问题根源并非模型语言理解与推理短板,而是非英文本土新闻数据源收录缺位、系统优先调取同主题英文替代信源;其二模型引文导向受爬虫合规政策、商业版权约束深度影响,不同产品引用同源新闻站点比例差距悬殊,且全品类产品普遍存在英文信息源依赖,即便检索非英语新闻问题,英文维基百科等外文站点仍是高频参考来源,极易因海内外报道数据、细节差异催生事实错误,催生独属于 AI 时代的信息碎片化问题;其三面对带有错误前提、细节失真的瑕疵提问时,模型稳健性出现剧烈分化,标准题干下各产品准确率差距仅 8 个百分点,干扰题干环境下性能落差扩大至 51 个百分点,同时模型的错误前提识别能力和最终答题正确率不存在正向绑定关系。
此外研究补充三项客观实验局限:测试题型以选择题为主,开放式作答场景模型准确率会进一步下滑;测试素材依托索引完善的 BBC 新闻,面对小众地方媒体内容模型表现大概率走低;测试服务器架设在美国,客观加剧外文检索的英文偏向。结合当下行业趋势,搜索引擎向新闻站点导流规模逐年萎缩,AI 正在快速成为大众获取新闻的主流渠道,单一整体准确率评价指标已无法客观衡量 AI 新闻服务质量,未来评测需要新增跨语种检索保真度、信源溯源合规性、劣化提问抗干扰能力等多项考核维度。本课题由斯坦福大学以人为本人工智能研究所(HAI)提供项目资助。
原文节选
In a new preprint study, we evaluated six commercial AI chatbots on 2,100 same-day news questions, yielding 12,600 model responses, across six regions and languages. We found that while many achieved over 90% accuracy on multiple-choice questions, the aggregate scores obscured three crucial patterns.
Five of the six regional services cluster tightly between 88.9% and 91.3%, but the average Hindi performance is at 79.3%, nearly 10% below the next-lowest region. Retrieval failure accounted for 38.8% of errors, source divergence made up 32.7%.
Under adversarial conditions with flawed prompts, performance spread widened to 51%: Grok 4 retained 70.0% accuracy while GPT-5 fell to 19.0%.
版权声明:内容观点节选引用自斯坦福大学以人为本人工智能研究所 (Stanford HAI),原文链接:https://hai.stanford.edu/news/reading-todays-headlines-through-ai-a-real-time-audit-of-six-commercial-chatbots