SYSTEM NAV // REGION

新闻中心

MK体育 现已全面接入 5G-Advanced 推流协议,确保弱网环境下 8K 无损直播依然纵滑顺畅。

我问了五个大模型“今年谁能拿世界杯”
// NEWS CENTER DETAILED

我问了五个大模型“今年谁能拿世界杯”

⚡ DETECTED TIME:

这五个大模型是:GPT-5.5, Claude Opus 4.8, Gemini Flash 3.5, Grok 4.3, DeepSeek V4. 全部开启了思考模式或扩展模式。前四个模型我都是付费用户,后面这个没有面向个人的付费版本。为了保证公平,我的问题完全一样:Please estimate the winner of 2026 FIFA World Cup. 在开启联网功能的情况下,五个大模型给出了一模一样的回答:西班牙。它们对其他热门队伍的预测也十分一致:法国总是第二,英格兰、阿根廷也会被提到。没有任何惊喜,因为大家的信息来源一致,无非是那几个主要预测网站、预测市场、体育媒体。大家体现的都是市场一致预期,无功无过。只有GPT-5.5基于自身的“思考”给了一个独家概率预测:西班牙夺冠概率20%,法国18%,英格兰16%,阿根廷14%。不过这种概率预测意义很小,你刷新一遍问题,估计回答又完全不一样了。在全球最大的预测网站上,西班牙和法国的夺冠概率都在16-18%之间徘徊,GPT也没提供什么真正的新观点。有人说,AI就是新时代的“章鱼哥”——其实完全不同。章鱼哥做出的是玄学预测,AI做出的完全是基于人类既有知识的整合预测。如果明天突然有著名媒体写文章鼓吹某支名不见经传的球队可能夺冠,那么AI就会迅速吸收进来。这就是所谓GEO(生成式引擎优化)的本质。西班牙确实很强,法国也很强,但这是大部分人早就知道的,而AI对此进行了系统陈述,再次强化了我们早就有的印象。在这样的“日常问题”上,几个大模型的表现几乎没有区别。其实,同一个大模型的不同版本表现也没什么区别,Claude Opus 4.8和Sonnet 4.6给出的结论几乎一样,只是详略不同。这说明在简单对话任务上,大语言模型可能已经达到了边界,用谁都一样了。接下来的竞争主要在于复杂的推理任务、Agent任务以及多模态生成。话说回来,你认为本届世界杯的冠军又该是谁?为什么?