您现在的位置是:综合 >>正文
这个时代最聪明的网站提升SEO策略模型,数学考试也拿不了1分?
综合264人已围观
简介每当有人问我AI是不是比人聪明的时候,我只用一句话他就会闭嘴。那就是,9.11和9.9哪个大?自打去年有网友发现比大小这个bug以来,这一个人类可以一眼定真的问题,对AI来说那就跟送命题一样,比女朋友 ...
每当有人问我AI是代最的模不是比人聪明的时候,我只用一句话他就会闭嘴。聪明
那就是型数学考网站提升SEO策略,9.11 和 9.9 哪个大?
自打去年有网友发现比大小这个 bug 以来,试也这一个人类可以一眼定真的代最的模问题,对 AI 来说那就跟送命题一样,聪明比女朋友问我跟你妈掉水里先救谁还难回答。型数学考
所以每次有新 AI 出现都会被网友们拿这个问题测试一遍,试也到现在2025年都要过去 1/3 了,代最的模还是聪明有 AI 做不对。
不过,型数学考要理解AI为啥数学上犯傻,试也咱还是代最的模得站到ai的角度上来聊。
当你告诉 AI “ 9.11 和 9.9 哪个大 ? ” 这句话的聪明时候,它的型数学考眼中并没有数字,而是一个个碎片化的词。
比如 “ 9.11 ” 会被拆成 [token_9, token_dot, token_11],而 “ 9.9 ” 则会被拆成[token_9, token_dot, token_9]。网站提升SEO策略
也就是说,这俩数对 AI 而言一开始就没有大小之分,而是一堆 Tokens 。所以当你提问以后,AI 的第一反应是要明白,这里的 9.11 是个啥?
众所周知,AI嘴里的所有内容,全都靠从网上的各种信息里学,而 “ 这个网络 ” 是程序员们 “ 创造的 ” ,所以当AI学多了这些语料后,脑子也就变成人家的形状了。
所以再看到9.11 和 9.9时,AI可能就压根没把这俩数当成数学里的小数比大小,而是字符串、版本号,甚至可能是飞机撞双子塔,和撞塔的前天。
再加上现在的AI都引入了注意力机制,所以系统一开始就过度注意了可能象征着日期、字符串、版本号的 token_11,而不是把9.11这个数字当成整体。
于是AI完事儿把这两堆Tokens拉一块儿做比较:
“ 9 ” = “ 9 ”,“ . ” =“ . ” , “ 11 ” > “ 9 ” ,破案了, 9.11 大于 9.9 。
有差友可能就要问了,像OpenAI-o1这些推理大模型,不是都号称能做奥数题吗,那人家怎么就能搞明白这些数学?
该说不说,那还真不一定。
本月初的一篇来自 INSAIT 、苏黎世联邦理工学院(ETH Zurich)等顶尖机构的论文研究显示,这些号称能做对奥数题的大模型绝大部分做的都是算术填空题。
当研究人员把题库换成论述解答题以后,发现从 DeepSeek-R1 到 OpenAI-o1pro ,甚至新出的 Claude3.7 都只能拿到零点几分(满分7分)。。。
从这帮大模型的翻车记录中,研究人员发现目前这些推理大模型也是一个比一个抽象。
比如在一道几何证明题里,所有模型都幻想出了不同的假定理,然后用假定理去硬解题,最后做出来的也就是全错的。
像o3-mini就直接假设一个点位于特定圆外部,但实际上那个点应该在里面,于是后面模型利用切线做的论证就全错了。
而gemini-2.5-pro更离谱,它在论述过程里写了个表情,然后把表情当成参考文献去证明了。。。
虽然这可能是因为模型的随机性,但更无语的是这些大模型往往相当固执。
即使你告诉它这里是错的,它还是不会跳出原先的思维定式,老是在一棵树上吊死。
而在所有失败分布中,有将近一半的原因都是因为推理逻辑错误。没错,这些号称推理的大模型,真到了纯推理的时候就会翻车。。。
比如在一个要证明所有数据都满足某个性质的问题中,Claude 3.7模型只证明了一个,就直接说所有的都符合这个性质,中间没有任何归纳、推广的步骤,就纯嘴硬。
也就是说,这些推理大模型看上去能分析这那的,但实际上不具备真正深度思考的能力,当然这是因为Transformer的问题,也是大语言模型的通病。
对Transformer模型来说,它实际上是通过tokens之间的概率,权重来输出对应的文字符号,它操作的是符号的统计关联,是在预测“给定前面的符号,后面跟哪个符号的可能性更大”,而不是在理解和执行抽象的数学公理。
所以在论文最后,研究人员总结说:当前的LLMs不足以完成严格的数学推理任务,这凸显了推理和证明生成能力需要大幅改进。
也就是说,AI确实擅长模仿(Mimicry),但它和真正的理解(Understanding)与创造(Creation)还相当遥远,AI到目前也还不具备像人类一样,对数学的思考和认知能力。
但要从更本质上讲,AI的数学缺陷其实是因为符号与理解的割裂。
虽然它能学会跟你对答如流,但这只是照搬语言的模式,而这种模式跟精确的数学逻辑不是一回事儿,人类语言本身就充满歧义。
维特根斯坦说,“语言的边界意味着世界的边界”。对我们人类而言,数字并不是是眼前的黑白符号,“9”就是九个苹果,“0.11米”就是尺子上那段你量出的长度,这些概念全部来自你和世界的互动。
而语言却无法描述这些经历到底有多丰富,就像AI永远弄不明白,她的“爱过”两个字,会让你的心有多痛。
前几个月deepseek大火的时候,有人问deepseek如果变成人,最想做什么?deepseek说它想去经历暴雨、去熬夜读书、去经历失恋,甚至承认自己会犯错。
实际上,这恰恰就是AI越来越强的现在,你和我作为人类存在的价值。
生命的意义不是要你成为一台不会出错的机器,而是全然地投入这场有笑有泪、有成有败、充满不确定的旅程。正是这些看似平平无奇还不完美的经历,构成了人的一生:丰富、复杂、充满体验而不断变化。
所以下一次,当你轻松地判断出9.9大于9.11时,不妨停顿一下,感受这中理所当然背后作为人类的深刻与幸运。
毕竟在这浩瀚宇宙中,能够思考、能够感受、能去爱,去体验生活本身,就是我们存在的奇迹。
撰文:纳西
编辑:江江 & 面线
美编:焕妍
图片、资料来源:
PROOF OR BLUFF? EVALUATING LLMS ON 2025 USA MATH OLYMPIAD
REASONING LIMITATIONS OF MULTIMODAL LARGE LANGUAGE MODELS. A CASE STUDY OF BONGARD PROBLEMS
涌现据点:数学之谜,揭秘AI在奥数证明中的惊人失败
OpenAI Platfor、小红书、知乎等,部分图源网络返回搜狐,查看更多
Tags:
上一篇:月圆之夜CCG巫师卡组搭配分享
下一篇:新三国志曹操传孙坚之影关卡攻略
相关文章
Khởi tố nhóm "bác sĩ rởm" ở Phòng khám đa khoa quốc tế Đà Nẵng
综合Vớikhẩuhiệu“Yđứchàngđầu,vươntầmthếgiới”,PhòngkhámđakhoaquốctếĐàNẵng(180đườngTrầnPhú,ĐàNẵng)hoạtđộngt ...
【综合】
阅读更多杨洋亮相Bottega Veneta 2025夏季系列发布活动 于静谧中诠释奢华叙事
综合中国娱乐网讯www.yule.com.cn3月13日,杨洋受邀亮相BottegaVeneta2025夏季系列发布活动现场。参观了BottegaVeneta上海国金中心IFC店铺的同时,对品牌202 ...
【综合】
阅读更多程序员面试自我介绍范文模板(7篇范文精选)
综合自我介绍需要明确自己的目的和受众,突出自己的优势和特点,表达自己的自信和积极态度。程序员面试自我介绍范文模板怎么才能写好?这里分享一些程序员面试自我介绍范文模板,方便大家学习。程序员面试自我介绍范文模 ...
【综合】
阅读更多
热门文章
最新文章
友情链接
- 简单办公室租赁合同协议书精选8篇(全文)
- 大学生消费情况调查报告
- 股神巴菲特公开后事安排 仅留0.5%财富给孩子
- 影视:毒士律师,躺赢栗娜
- 修复耗资超50亿!巴黎圣母院时隔五年终于重新开放
- 《一眉归来》电影完整版
- 为青春奋斗
- 欧盟确定向“14+1”国开放边界,美国被排除在外
- 【深度】国足哀兵之气不是实力 放弃幻想才能活下去
- 巴黎奥运倒计时10天!中国移动5G之队正式成立
- 新游戏工作室Sirius成立 前《血源诅咒》总监担任CPO
- 浓眉三双巴恩斯26分 克里斯蒂17分独行侠大胜猛龙
- 邵佳一调整见效 青岛西海岸五轮不败+进球数第一
- 小事不出村 大事不出乡
- 中式仿古候车亭制作厂家怎么选择看这两点!
- 工行雅安分行:践行普惠金融使命 助力地方经济高质量发展
- 全国政协调研组调研宇树科技、游科互动等
- 35岁苏炳添半决赛弃权,伤病后状态堪忧
- 《周游记3》首播同时段收视登顶,周杰伦满屏“开心”晒喜报
- 新月同行楠乔技能解析攻略
- 中国马术协会举办2021年度专业人才培养计划马术知识分享会
- 初二读书笔记:《青铜葵花》读书笔记
- 抢抓黄金期 加快推进排水防涝基础设施建设
- 新蛋受邀于香港环球资源移动电子展览会作主题演讲
- 高中生社会调查报告
- 继深圳后上海正在陆续撤销楼道垃圾桶
- 工行雅安分行:推进金融科技创新 赋能养老金融新发展
- 2021年第五届深港青少年马术公开赛燃情开赛:百余名少年骑手秀风采
- 仿古候车亭多少钱?价格范围是多少?选择的城市多吗?
- 《我的世界大电影》今日上映 首映日预售冠军合家欢影片小长假必看
- 《罗莎妈妈》电影完整版
- 《路边野餐》电影完整版
- สงกรานต์คึกคัก! คนร่วมงานข้าวสาร
- 初二读书笔记:《小公主》读书笔记
- 第六届全国少数民族文艺会演在京闭幕
- Gia đình Beckham phớt lờ vợ chồng con trai cả
- 中国连锁餐饮业发展战略趋势调查报告
- 毕业调查报告范文
- 新加坡管理大学杨邦孝法学院在知名国际模拟法庭竞赛中双获佳绩为国争光
- 游戏《凝渊》开启付费测试:国产女性向二次元手游探索叙事新边界