您现在的位置是：综合 >>正文

这个时代最聪明的网站提升SEO策略模型，数学考试也拿不了1分？

综合264人已围观

简介每当有人问我AI是不是比人聪明的时候，我只用一句话他就会闭嘴。那就是，9.11和9.9哪个大？自打去年有网友发现比大小这个bug以来，这一个人类可以一眼定真的问题，对AI来说那就跟送命题一样，比女朋友 ...

每当有人问我AI是代最的模不是比人聪明的时候，我只用一句话他就会闭嘴。聪明

那就是型数学考网站提升SEO策略，9.11 和 9.9 哪个大？

自打去年有网友发现比大小这个 bug 以来，试也这一个人类可以一眼定真的代最的模问题，对 AI 来说那就跟送命题一样，聪明比女朋友问我跟你妈掉水里先救谁还难回答。型数学考

所以每次有新 AI 出现都会被网友们拿这个问题测试一遍，试也到现在2025年都要过去 1/3 了，代最的模还是聪明有 AI 做不对。

不过，型数学考要理解AI为啥数学上犯傻，试也咱还是代最的模得站到ai的角度上来聊。

当你告诉 AI “ 9.11 和 9.9 哪个大？ ” 这句话的聪明时候，它的型数学考眼中并没有数字，而是一个个碎片化的词。

比如 “ 9.11 ” 会被拆成 [token_9, token_dot, token_11]，而 “ 9.9 ” 则会被拆成[token_9, token_dot, token_9]。网站提升SEO策略

也就是说，这俩数对 AI 而言一开始就没有大小之分，而是一堆 Tokens 。所以当你提问以后，AI 的第一反应是要明白，这里的 9.11 是个啥？

众所周知，AI嘴里的所有内容，全都靠从网上的各种信息里学，而 “ 这个网络 ” 是程序员们 “ 创造的 ” ，所以当AI学多了这些语料后，脑子也就变成人家的形状了。

所以再看到9.11 和 9.9时，AI可能就压根没把这俩数当成数学里的小数比大小，而是字符串、版本号，甚至可能是飞机撞双子塔，和撞塔的前天。

再加上现在的AI都引入了注意力机制，所以系统一开始就过度注意了可能象征着日期、字符串、版本号的 token_11，而不是把9.11这个数字当成整体。

于是AI完事儿把这两堆Tokens拉一块儿做比较：

“ 9 ” = “ 9 ”，“ . ” =“ . ” ， “ 11 ” > “ 9 ” ，破案了， 9.11 大于 9.9 。

有差友可能就要问了，像OpenAI-o1这些推理大模型，不是都号称能做奥数题吗，那人家怎么就能搞明白这些数学？

该说不说，那还真不一定。

本月初的一篇来自 INSAIT 、苏黎世联邦理工学院（ETH Zurich）等顶尖机构的论文研究显示，这些号称能做对奥数题的大模型绝大部分做的都是算术填空题。

当研究人员把题库换成论述解答题以后，发现从 DeepSeek-R1 到 OpenAI-o1pro ，甚至新出的 Claude3.7 都只能拿到零点几分（满分7分）。。。

从这帮大模型的翻车记录中，研究人员发现目前这些推理大模型也是一个比一个抽象。

比如在一道几何证明题里，所有模型都幻想出了不同的假定理，然后用假定理去硬解题，最后做出来的也就是全错的。

像o3-mini就直接假设一个点位于特定圆外部，但实际上那个点应该在里面，于是后面模型利用切线做的论证就全错了。

而gemini-2.5-pro更离谱，它在论述过程里写了个表情，然后把表情当成参考文献去证明了。。。

虽然这可能是因为模型的随机性，但更无语的是这些大模型往往相当固执。

即使你告诉它这里是错的，它还是不会跳出原先的思维定式，老是在一棵树上吊死。

而在所有失败分布中，有将近一半的原因都是因为推理逻辑错误。没错，这些号称推理的大模型，真到了纯推理的时候就会翻车。。。

比如在一个要证明所有数据都满足某个性质的问题中，Claude 3.7模型只证明了一个，就直接说所有的都符合这个性质，中间没有任何归纳、推广的步骤，就纯嘴硬。

也就是说，这些推理大模型看上去能分析这那的，但实际上不具备真正深度思考的能力，当然这是因为Transformer的问题，也是大语言模型的通病。

对Transformer模型来说，它实际上是通过tokens之间的概率，权重来输出对应的文字符号，它操作的是符号的统计关联，是在预测“给定前面的符号，后面跟哪个符号的可能性更大”，而不是在理解和执行抽象的数学公理。

所以在论文最后，研究人员总结说：当前的LLMs不足以完成严格的数学推理任务，这凸显了推理和证明生成能力需要大幅改进。

也就是说，AI确实擅长模仿（Mimicry），但它和真正的理解（Understanding）与创造（Creation）还相当遥远，AI到目前也还不具备像人类一样，对数学的思考和认知能力。

但要从更本质上讲，AI的数学缺陷其实是因为符号与理解的割裂。

虽然它能学会跟你对答如流，但这只是照搬语言的模式，而这种模式跟精确的数学逻辑不是一回事儿，人类语言本身就充满歧义。

维特根斯坦说，“语言的边界意味着世界的边界”。对我们人类而言，数字并不是是眼前的黑白符号，“9”就是九个苹果，“0.11米”就是尺子上那段你量出的长度，这些概念全部来自你和世界的互动。

而语言却无法描述这些经历到底有多丰富，就像AI永远弄不明白，她的“爱过”两个字，会让你的心有多痛。

前几个月deepseek大火的时候，有人问deepseek如果变成人，最想做什么？deepseek说它想去经历暴雨、去熬夜读书、去经历失恋，甚至承认自己会犯错。

实际上，这恰恰就是AI越来越强的现在，你和我作为人类存在的价值。

生命的意义不是要你成为一台不会出错的机器，而是全然地投入这场有笑有泪、有成有败、充满不确定的旅程。正是这些看似平平无奇还不完美的经历，构成了人的一生：丰富、复杂、充满体验而不断变化。

所以下一次，当你轻松地判断出9.9大于9.11时，不妨停顿一下，感受这中理所当然背后作为人类的深刻与幸运。

毕竟在这浩瀚宇宙中，能够思考、能够感受、能去爱，去体验生活本身，就是我们存在的奇迹。

撰文：纳西

编辑：江江 & 面线

美编：焕妍

图片、资料来源：

PROOF OR BLUFF? EVALUATING LLMS ON 2025 USA MATH OLYMPIAD

REASONING LIMITATIONS OF MULTIMODAL LARGE LANGUAGE MODELS. A CASE STUDY OF BONGARD PROBLEMS

涌现据点：数学之谜，揭秘AI在奥数证明中的惊人失败

OpenAI Platfor、小红书、知乎等，部分图源网络返回搜狐，查看更多

Tags：

上一篇：月圆之夜CCG巫师卡组搭配分享

下一篇：新三国志曹操传孙坚之影关卡攻略

Khởi tố nhóm "bác sĩ rởm" ở Phòng khám đa khoa quốc tế Đà Nẵng
综合
Vớikhẩuhiệu“Yđứchàngđầu,vươntầmthếgiới”,PhòngkhámđakhoaquốctếĐàNẵng(180đườngTrầnPhú,ĐàNẵng)hoạtđộngt ...

2025-08-06 13:23【综合】
阅读更多
杨洋亮相Bottega Veneta 2025夏季系列发布活动于静谧中诠释奢华叙事
综合
　　中国娱乐网讯www.yule.com.cn3月13日，杨洋受邀亮相BottegaVeneta2025夏季系列发布活动现场。参观了BottegaVeneta上海国金中心IFC店铺的同时，对品牌202 ...

2025-08-06 12:09【综合】
阅读更多
程序员面试自我介绍范文模板（7篇范文精选）
综合
自我介绍需要明确自己的目的和受众，突出自己的优势和特点，表达自己的自信和积极态度。程序员面试自我介绍范文模板怎么才能写好？这里分享一些程序员面试自我介绍范文模板，方便大家学习。程序员面试自我介绍范文模 ...

2025-08-06 12:02【综合】
阅读更多

您现在的位置是：综合 >>正文

这个时代最聪明的网站提升SEO策略模型，数学考试也拿不了1分？

相关文章

Khởi tố nhóm "bác sĩ rởm" ở Phòng khám đa khoa quốc tế Đà Nẵng

杨洋亮相Bottega Veneta 2025夏季系列发布活动于静谧中诠释奢华叙事

程序员面试自我介绍范文模板（7篇范文精选）

热门文章

最新文章

友情链接

您现在的位置是：综合 >>正文

这个时代最聪明的网站提升SEO策略模型，数学考试也拿不了1分？

相关文章

Khởi tố nhóm "bác sĩ rởm" ở Phòng khám đa khoa quốc tế Đà Nẵng

杨洋亮相Bottega Veneta 2025夏季系列发布活动 于静谧中诠释奢华叙事

程序员面试自我介绍范文模板（7篇范文精选）

热门文章

最新文章

友情链接

杨洋亮相Bottega Veneta 2025夏季系列发布活动于静谧中诠释奢华叙事