凯发K8国际登录AI榜单“变天”了!马斯克发布Grok 41盲测排名登顶第一|r

  凯发APP官网★◈★◈,k8凯发★◈★◈,凯发k8娱真人★◈★◈,凯发K8旗舰厅★◈★◈,凯发K8官网就在OpenAI发布GPT-5.1★◈★◈,大谈“情商”之际凯发K8国际登录★◈★◈,埃隆·马斯克(Elon Musk)也带着他的xAI★◈★◈,火速加入了这场“AI体验”之战★◈★◈。

  就在刚刚★◈★◈,xAI宣布推出Grok4.1★◈★◈,这是对现有Grok 4模型的重大升级★◈★◈,并已在X平台以及iOS和Android应用向所有用户全面开放凯发K8国际登录★◈★◈。★◈★◈。官方宣称★◈★◈,新版本在创意表达★◈★◈、情感互动和协同交流方面表现尤为突出★◈★◈,并且出现幻觉的概率仅为此前模型的三分之一★◈★◈。

  更引人注目的是★◈★◈,在一个公开的“盲测”竞技场(LMArena)上★◈★◈,Grok 4.1的“思考模式”版本已悄然登顶总榜第一★◈★◈,甚至其“非推理”的快速模式★◈★◈,都击败了所有对手的“完整推理”模式★◈★◈。

  这场突如其来的“榜首易主”retiyishu★◈★◈,无疑为日趋白热化的AI竞赛凯发K8国际登录★◈★◈,又增添了浓重的火药味★◈★◈。

  xAI本次发布了两个Grok 4.1模型★◈★◈:Grok 4.1(非推理模式)和Grok 4.1 Thinking(思考模式)★◈★◈。这两个模型均可免费使用★◈★◈,但付费用户面临的限制更少★◈★◈。

  官方表示★◈★◈,新版本能更细致地理解隐含意图凯发K8国际登录★◈★◈,与之对话引人入胜★◈★◈,也更能保持人设的一致性★◈★◈。

  为了优化模型的风格★◈★◈、人格和有用性★◈★◈,xAI利用前沿的代理型推理模型(agentic reasoning models)作为“奖励模型”★◈★◈,在大规模环境中自主评估并迭代模型的回答★◈★◈。

  在11月1日至14日的“静默上线”期间★◈★◈,xAI在真实流量上进行了盲测式的成对比较评估★◈★◈,结果显示凯发K8国际登录★◈★◈,在64.78%的情况下★◈★◈,用户更偏好Grok 4.1★◈★◈。

  LMArena是一个开源工具★◈★◈,用户可以通过并排★◈★◈、盲测的方式★◈★◈,比较不同大语言模型的表现★◈★◈。在这个竞争最激烈的“斗兽场”里★◈★◈,Grok 4.1取得了惊人的成绩★◈★◈:

  ·Grok 4.1的“思考模式”(代号★◈★◈:quasarflux)以1483 Elo的成绩位列总榜第一★◈★◈,领先所有非xAI模型31分★◈★◈。

  ·Grok 4.1的“非推理模式”(代号★◈★◈:tensor)无需使用“思考词元”(thinking tokens)★◈★◈,可立即生成回答凯发K8国际登录★◈★◈,并以1465 Elo的成绩排名第二★◈★◈。

  ·更夸张的是凯发K8国际登录★◈★◈,Grok 4.1的“非推理”模式表现★◈★◈,超过了所有其他模型在“完整推理模式”下的公开排行榜成绩★◈★◈。

  ·情绪智能(Emotional Intelligence)为评估模型在个性与人际互动方面的进展retiyishu★◈★◈,xAI对Grok 4.1进行了EQ-Bench3测试retiyishu★◈★◈。这是一项由LLM作为裁判的测试★◈★◈,用于评估模型在主动情绪智能retiyishu★◈★◈、理解力★◈★◈、洞察力★◈★◈、共情能力和人际技能方面的表现★◈★◈。

  ·创意写作能力(Creative Writing)xAI同样测量了Grok 4.1在Creative Writing v3基准测试中的表现★◈★◈。在该测试中★◈★◈,模型需要根据32个不同的写作提示★◈★◈,在3次迭代中生成回答凯发K8国际登录★◈★◈。

  快速响应模型在配备搜索工具后★◈★◈,虽然能迅速给出答案★◈★◈,但更容易出现事实性错误★◈★◈。

  在Grok 4.1的后训练阶段★◈★◈,xAI重点降低了模型在信息查询类提示中的事实性“幻觉”retiyishu★◈★◈。

  根据xAI的说法★◈★◈,Grok 4.1出现幻觉的概率是此前模型的三分之一★◈★◈,这使其成为xAI迄今为止的最佳版本之一★◈★◈。

  为了验证这一点★◈★◈,xAI不仅在真实的生产流量中进行了评估★◈★◈,还使用了FActScore——一个包含500道关于人物传记问题的公开基准测试★◈★◈。

  更重要的是★◈★◈,谷歌(Google)正在准备发布Gemini 3.0★◈★◈,这可能会成为迄今为止最强大的模型★◈★◈。

  Grok 4.1的发布★◈★◈,无疑是马斯克在AI竞赛中投下的一枚重要棋子★◈★◈。但在这场“神仙打架”的牌局中★◈★◈,谁能笑到最后★◈★◈,还远未可知★◈★◈。(易句)