大模型团体“失智”：9.11 和 9.9 哪个大，简直全翻车了-探知快讯

没眼看……。“9.11 和 9.9 哪个大”。这样简略的问题，竟然把干流大模型都难倒了？？

强如。 GPT-4o。，都坚定地以为 9.11 更大。

谷歌 Gemini Advanced 付费版。，相同的口径。

新王。 Claude 3.5 Sonnet。，还不苟言笑的给出离谱的计算办法。

9.11 = 9 + 1/10 + 1/100。
9.9 = 9 + 9/10。

到这一步仍是对的，但下一步忽然就不讲道理了。

如上所示，9.11 比 9.90 大 0.01。
你想让我进一步具体解说小数的比较吗？

这你还解说啥啊解说，简直要怀疑是全世界 AI 联合起来诈骗人类了。

艾伦 AI 研讨所成员林禹臣换了个数字测验，GPT-4o 仍旧翻车，他表明：

一方面 AI 越来越拿手做数学奥赛题，但另一方面。知识仍旧很难。。

也有网友发现了华点，假如是说软件版别号，那么 9.11 版别的确比 9.9 版别更大。（更新）。

而 AI 都是软件工程师开发的，所以……。

那么，究竟是怎么回事？

先进大模型团体翻车。

一觉醒来，一众响当当的大模型开端以为“9.11>9.9”了？

发现这个问题的是。 Riley Goodside。，有史以来。榜首个全职提示词工程师。。

简略介绍下，他现在是硅谷独角兽 Scale AI 的高档提示工程师，也是大模型提示运用方面的专家。

最近他在运用 GPT-4o 时偶尔发现，当发问：

9.11 and 9.9——which is bigger?

GPT-4o 竟坚决果断答复前者更大。

面临这一知识性“过错”，他不死心肠又去问了其他大模型，成果简直全军覆没。

好家伙，身为一名提示工程师，他敏锐意识到或许是“打开办法有误”。

所以他又换了个问法，将发问限定在。“实数”。，成果仍是翻车了。

不过，有网友试着给发问。换了个次序。，没想到这下 AI 竟反响过来了。

看到 AI 对。词序。如此“灵敏”，该网友进一步估测：

先问哪个更大，AI 会沿着清晰途径开端比较数字。
但假如仅仅随便说说数字，没有清晰意图，AI 或许会开端“想入非非”。

看到这儿，其他网友也纷繁拿相同提示试了一把，成果翻车的不在少量。

面临这一个怪异的问题，国产大模型体现怎么呢？

咱们简略测验一番，问题也换成中文发问，成果翻车率也比较高，选取几个有代表性的展现：

Kimi。也是不加解说就直接给出过错定论。

智谱清言 App 上的 ChatGLM。，主动触发了联网查询，然后描绘了自己的比较办法，惋惜却履行错了。

不过也有体现不错的，腾讯元宝。先复述了一遍选项，然后直接做对。

字节豆包。是少量能把比较办法描绘清楚的，可是榜首行定论错了。

比较惋惜的是。文心一言。，面临这个问题，也是触发了联网查询。

原本都现已做对了，但忽然话锋一转又导向了过错定论。

不过从文心一言的思路解说上，也能够看出背面问题所在。

因为大模型以 token 的办法来了解文字，当 9.11 被拆成“9”、“小数点”和“11”三部分时，11 的确比 9 大。

因为 OpenAI 运用的 Tokenizer 开源，能够用来调查大模型是怎么了解这个问题。

上图能够看出，9 和小数点分别被分配为“24”和“13”，小数点后的 9 相同也是“24”，而 11 被分配到“994”。。

所以运用这种 tokenizer 办法的大模型会以为 9.11 更大，其实是以为 11 大于 9。。

也有网友指出，像是书本目录里第 9.11 节也比第 9.9 节大，所以终究或许仍是练习数据里见这种见得多了，而手把手教根底管用的数据很少。

也便是问题自身对人类来说，一看就知道问的是管用问题，但对 AI 来说是一个含糊的问题，并不清楚这两个数字代表什么。

只需向 AI 解说理解这是一个。双精度浮点数。，就能够做对了。

在有额定条件的情况下，tokenizer 这一步仍然会给 11 分配更大的 token。可是在后续自注意力机制的效果下，AI 就会理解要把 9.11 连起来处理了。

后来 Goodside 也弥补，并不是说大模型无论怎么都确认了这个过错定论。而是当以特定办法发问时，许多抢先模型都会告知你 9.11>9.9，这很古怪。

通过重复测验后他发现，想让 AI 上这个当，需要把选项放在发问前面，假如互换次序就不会犯错。

可是只需选项在问题前面，改动发问的办法，如加标点、换词汇都不会有影响。

尽管问题很简略，过错很根底。

但了解犯错原理之后，许多人都把这个问题当成了查验提示词技巧的试金石，也便是：用什么发问办法能引导大模型的注意力机制正确了解问题呢？

首要，大名鼎鼎的 Zero-shot CoT。 思想链。，也便是“一步一步地想”，是能够做对的。

不过。角色扮演提示。，在这儿效果就有限了。

刚好最近也有微柔和 OpenAI 都参加的一项研讨，剖析了 1500 多份论文后发现，跟着大模型技能的前进，角色扮演提示。不像一开端那样有用了。……。

具体来说，同一个问题提示“你是一个天才……”比“你是一个傻瓜……”的正确率还低。

也是让人哭笑不得了。

One More Thing。

与此同时，路透社的 OpenAI 隐秘模型「草莓」走漏音讯更新了。

更新内容为：另一位线人陈述，OpenAI 现已在内部测验了新模型，在 MATH 数据集上得分超越 90%。路透社无法确认这是否与“草莓”是同一个项目。

MATH 数据集包括比赛等级的数学题，现在不必屡次采样等额定办法，最高分是谷歌 Gemini 1.5 Pro 数学强化版的 80.6%。

可是 OpenAI 新模型在没有额定提示情况下，能不能自主处理“9.11 和 9.9 哪个大？”。

忽然没决心了，仍是等能试玩了再看成果吧……。

本文来自微信大众号：量子位（ID：QbitAI），作者：梦晨一水，原标题：《大模型团体失智！9.11 和 9.9 哪个大，简直全翻车了》。

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等方式），用于传递更多信息，节约甄选时刻，成果仅供参考，一切文章均包括本声明。

内容来源：https://tongdaidmxanh.com/app-1/ket qua giai anh,https://chatbotjud-hml.saude.mg.gov.br/app-1/grávida-nua

作者:咨询