MIT与哈佛用“海战棋”训练AI提问能力，小模型胜率从8%跃升至82%

资讯动态

发布日期：2026-06-08 浏览：11

当前沿人工智能模型在几秒内写出一篇关于罗马帝国衰亡的流畅论文时，它几乎无所不能。但若让它诊断一种罕见病，或为一种新药筛选“大海捞针”般的分子结构，AI往往会陷入停滞。麻省理工学院计算机科学与人工智能实验室（MIT CSAIL）与哈佛大学工程与应用科学学院（SEAS）的研究者通过一场经典游戏“海战棋”，揭示了一个被忽视的现实：今天的大模型在回答问题上极为出色，却极度缺乏主动提出好问题的能力。

为了破解这一困局，研究团队设计了一个名为“协作海战棋”的自然语言版游戏。游戏中，一个AI扮演“舰长”通过提问猜测隐藏船只的位置，另一个AI扮演“观察员”实时作答。他们收集了超过40名人类玩家的数据，构建了“BattleshipQA”数据集，并对比了人类与OpenAI的GPT-5、Meta的Llama 4 Scout等语言模型的策略差异。

实验结果初看并不令人意外。被寄予厚望的GPT-5等大型模型表现尚可，但较小的模型则完全陷入非理性猜测。然而，当研究者为模型配备了一项蒙特卡洛推理策略后，局面迅速扭转。该策略会基于每一次回答，持续计算正确选项的概率，从而指导模型提出更具信息量的下一个问题。原本人类胜率仅为8%的Llama 4 Scout，在此加持下胜率猛增至82%。

论文第一作者、MIT博士生Gabriel Grand指出：“当前的语言模型主要被优化来回答复杂问题，但它们是否学会了为自己提出好问题，这一点尚不明朗。我们的研究表明，提出有信息量的问题，依赖于预测和模拟世界的能力。当我们赋予智能体一个‘世界模型’时，它们能提出更好的问题，更高效地做出发现。”

除了提升提问能力，团队还改进了模型的回答机制。在“海战棋”中，较小的AI系统常常对隐藏舰船的位置给出错误回应。为此，研究者引入了一种将自然语言问题自动转换为代码的方法，迫使模型在回复前必须明确验证其数据。这种基于代码的验证策略，平均将模型的回答准确率提升了15%，使得小型系统也能成为更可靠的队友。

这套“会提问、会验证”的组合，让AI之间的协作效率大幅提升，轻量级的GPT-4o-mini性能提升了近30个百分点，大型的Claude 4 Opus也获得了8个百分点的增益。在另一款游戏“猜猜是谁？”的测试中，相同方法将Llama 4 Scout的成功率从30%提高到72%以上，GPT-4o的成功率则从62%提高到90%。

论文资深作者Jacob Andreas对此评价道：“这项工作最令我兴奋的是，它开启了用这些技术改善语言模型探索与信息收集能力，从而产生更好解决方案的可能性。我们正将这项工作从科学领域扩展到编程和数学问题求解等应用中。”

从行业视角看，这项研究触及了AI从“指令执行者”向“自主发现者”角色转变的核心瓶颈。无论是药物研发中的分子筛选，还是复杂科学假设的生成，本质上都是大海捞针式的探索任务。蒙特卡洛推理与代码验证的组合，提供了一条低成本增强模型推理与验证能力的路径，其意义不亚于单纯扩大模型规模。若未来能将该策略泛化到通用领域，我们或许将看到AI在科学发现中从工具真正转变为合作者的可能性。