首页

圣水黄金女王调教

时间:2025-05-28 17:02:17 作者:清华学霸与AI比做高考压轴题,谁会赢? 浏览量:99331

  作者:陆涵之

  去年,“9.11和9.9谁大?”这一简单的数学题曾难倒了多家大模型。到了今年,大模型的理科能力提升如何?

  今日网易有道发布了一则视频,6位清华姚班学生与AI比赛做高考压轴题。清华姚班为图灵奖得主姚期智院士创办,汇聚了数学、物理、信息学竞赛金牌得主。

  姚班学生和AI竞速的两道题分别为2023年高考数学全国一卷压轴题和2021年高考物理江苏卷压轴题。姚班学生在10分钟内完成了作答,仅有1位同学做错了题目,AI答疑笔则在输入确认后几秒就开始输出步骤,并答对了题目。

  对于AI的回答,一位姚班学生认为AI做题思路与其一致,步骤更加清晰,相较于传统的答案更有利于学生理解解题思路。

  可以对比的是,去年高考结束后,有机构让包括GPT-4o、豆包、文心4.0在内的9家大模型尝试河南的高考卷,并以河南的分数线评判,最终有4家大模型在文科高考中达到河南的一本线,但没有大模型的理科分数达到河南省一本线。

  有道相关负责人对记者表示,今年以来AI进展迅速,尤其是DeepSeek-R1带来了推理模型大爆发,而大模型推理能力和交互能力在教育场景的适配性非常高,能够逐步解决个性化教学和答疑的需求,而且提供的指导和答疑质量越来越高,所以选择与高考顶尖学霸进行同题测试,用一种直接明了的方式向大众展示AI大模型能力的提升。

  在题型选择上,主要基于难度和认知度的考量,上述负责人表示,“因为大家对高考的难度都是有概念的,尤其是这种高难度的理科压轴题,容易引起关注,也能直观展示效果。”

  上述人士透露,前段时间还做了北京最新高考二模(题库数据里没有的新题)的挑战。AI答题后由老师进行批改,分数为697分(总分750分),达到“清北”水平。“毕竟去年AI集体做24年高考题的时候理科几乎全军覆灭。”

  过去一年时间,不少大模型公司将数学能力作为大模型的能力体现。OpenAI在介绍OpenAI o3-mini时表示,OpenAI o3‑mini 的高推理能力在 FrontierMath 上的表现优于其前辈。在 FrontierMath 上,当被要求使用 Python 工具时,具有高推理能力的 o3‑mini 首次尝试即可解决超过 32% 的问题,其中包括超过 28% 的挑战性 (T3) 问题。FrontierMath是由Epoch AI联合60余位全世界的数学家共同推出了全新的数学基准,其原创的数学问题对于专业数学家而言仍需数小时甚至数日解决。不过,OpenAI公布的成绩后续曾遭到质疑。

  此前谷歌宣布推出了基于强化学习的数学推理系统 AlphaProof,以及几何求解系统的改进版 AlphaGeometry 2。谷歌表示这两款系统共同解决了2024年国际数学奥林匹克(IMO) 六道题目中的四道,首次达到了与银牌得主相当的水平。

  今年4月29日,阿里巴巴发布新一代通义千问模型Qwen3。据了解,在奥数水平的AIME25测评中,千问3斩获81.5分,刷新开源纪录。

  艾媒咨询发布的《2024年人工智能+教育行业发展研究报告》指出,2023至2027年在线教育市场的AI贡献率预计从7%提升至16%左右。

展开全文
相关文章
【邂逅中国 爱上中国】巴基斯坦留学生可汗:我的“毛尖”奇遇记

傅聪说,当去年10月18日美国第一次否决时,加沙有近3000平民丧生。当美国第二次否决时,以色列的轰炸已造成17000人死亡。伴随美国一次又一次否决,当美国在今年4月18日第五次否决时,加沙的死亡人数飙升到了34000多人。现在加沙已有近44000人丧生,美国还是毫不犹豫地使用了否决权。巴勒斯坦人真的命如草芥、一文不值吗?难道44000人的死亡,也换不来美国一点点的同情心吗?到底还要再死多少人,才能让他们从装睡中醒来?

2024年“潮味乡村·美食同行”系列活动启动

坚持全面深化改革。只有社会主义才能救中国,只有改革开放才能发展中国、发展社会主义、发展马克思主义。必须坚持和完善中国特色社会主义制度,不断推进国家治理体系和治理能力现代化,坚决破除一切不合时宜的思想观念和体制机制弊端,突破利益固化的藩篱,吸收人类文明有益成果,构建系统完备、科学规范、运行有效的制度体系,充分发挥我国社会主义制度优越性。

青年工匠传承千年夹苎脱胎漆艺:留住历史的足迹

天眼查专业版数据显示,目前国内人工智能相关企业已达344.4万家,2023年新增注册相关企业98.2万家,与2022年同比增加24.1%;从成立时间来看,人工智能相关领域的企业大都比较“年轻”,成立在1-5年的人工智能相关企业占比52.8%;从地域分布来看,广东、江苏、北京三地,人工智能相关企业数量最多,分别拥有49.8万家,27.7万家以及27.4万家。

【第七届进博会】香蕉树如何变华服?来看进博会中的最“香”穿搭

在疏通下水堵塞管道、缓解小区停车难、更换天然气管道、老旧小区改造等民生实事中,库尔勒市“全过程人民民主实践站”涌现出大量贴近基层实际、符合人民意愿的意见建议,提升了居民的社区获得感和幸福感。

厦门机场海关查获6只卡罗莱纳箱龟 属外来物种

空天院助理研究员蒋敏说,本次试验核心区域位于西藏自治区日喀则市定日县境内珠穆朗玛峰北侧,平均海拔约4200米,地形和地表覆盖较为复杂。相较团队此前在甘肃敦煌、云南大理、青海格尔木等地开展的观测试验,珠峰试验区海拔高、天气变化剧烈、观测难度更大、挑战更多。

相关资讯
热门资讯