AI考高数正确率达81%是怎么回事，关于ai高考分数的新消息。

2022-07-01 12:15:54

摘要：

中央电视台新闻app 7月1日早上，庆贺香港回归祖国25周年纪念大会暨香港特别行政区第六届政府部门就职仪式在香港会展中心举办，习近平主席监誓，李家超宣誓誓词上任香港特别行政区特首。

“高等数学里程碑式的研究”，114页论文让AI文理双修，也许不久后机器出的高数试卷就会走进高校课堂，这下可以说“高数题不是人出的了”。

编译 | 王晔

编辑 | 青暮

人工智能虽然给我们带来了诸多便利，但也不免受到了各种质疑。在互联网领域表现良好的人工智能，在数学领域的很多表现却被认为是“出乎意料地糟糕”。基于Transformers的语言模型在零样本和少样本等各种自然语言处理（NLP）任务中取得了令人难以置信的成功。但是，“这些模型在解决数学问题方面基本上是失败的。”

中国科学院院士、普林斯顿大学数学系和应用数学研究所教授、北京大数据研究院院长鄂维南曾表示，神经网络可以帮助我们有效地表示或逼近高维函数，深度神经网络是一个有效的工具，它带来的影响是巨大的。

以上思路更多还是基于深度学习在特征提取上的优势，然而，在更简单或“低维”函数的、符号逻辑层面的推理中，神经网络真的毫无希望了吗？

回归人工智能发展萌芽阶段，符号语言的思想为数理逻辑的产生和发展奠定了基础。当时人们试图将对一切事物的理解与认知化为符号语言以及符号间的推理，以此思路构建的模型以符号为基底，但或许可以尝试另一种思路，就是先用神经网络挖掘符号的特征。

在最新的一项研究中，用神经网络的方法精确求解低维的数学问题被证实非常有效。

值得一提的是，该项研究中还用到了OpenAI Codex。作为一种生成软件源代码的深度学习模型，Codex 可以理解十几种编程语言，通过 API 提供的 Codex 模型在 Python 编程中也具有极强的能力，它在执行编程任务时能够考虑到上下文信息，包括转译、解释代码和重构代码。

该研究还被其研究团队称为“第一项可以规模化自动解决、评分和生成大学水平数学课程问题”的工作，打破了人们普遍认为的神经网络不能解决高等数学问题的观点。

“这些所谓不成功的研究只使用了基于文本的预训练，而既对文本进行预训练又对代码进行微调的神经网络，可以通过程序合成成功解决大学水平的数学问题。”

1 秒速解高数

机器学习模型真的可以解决单变量函数的图形绕轴旋转产生的体积、洛伦兹吸引子及其投影、奇异值分解（SVD）方法的几何图形等问题吗？

这项研究展示了机器学习在这方面的强大能力。机器学习模型可以大规模很好地解决麻省理工学院包括单变量微积分、多变量微积分、微分方程、概率和统计学导论在内的数学课程问题。

不仅如此，该团队的研究证实它还可以解决MATH数据集的问题，“MATH数据集是衡量模型的数学问题解决能力的基准，该数据集的主要来源是高中数学竞赛，如AMC 10、AMC 12和AIME等。目前为止，最先进的 Transformers ，如GPT-3，只对文本进行了预训练，GPT-3取得的最好成绩总体准确率为6.9%，并且在所有题目上的准确率都低于8.8%”。

论文地址：https://arxiv.org/pdf/2112.15594v1.pdf

图1：图中展示了模型可求解的高数问题。例如，在微积分18.01-02中，求由两个二维图形限定的二维区域围绕z轴旋转一周得到的体积（右上）；在微分方程18.03中，求解洛伦兹奇异吸引子（右下）；在线性代数18.06中，画出奇异值分解（SVD）的几何图形（右下）。

“以前使用Transformers解决数学课程问题的工作之所以失败，是由于像GPT-3一样的Transformers，只在文本上进行了预训练。”

研究团队认为此前工作使用验证或预测表达式树的联合训练输出，虽然在解决小学水平的数学问题（如MAWPS和Math23k）时，准确率超过80%。然而，这种方法的有效性并未在高中、数学奥林匹克或大学水平的数学课程中得到扩展。后来有人通过与图神经网络（GNN）配对预测算术表达式树（expression trees），并在文本上预训练Transformers，来求解大学水平问题，且准确率高达95%。但是这个结果仅限于数字答案，并局限于特定课程，不容易扩展到其他课程。

而本文的这项研究证明，把问题变成编程任务进行程序合成，是大规模解决数学和STEM课程的关键。“对文本进行预训练并对代码进行微调的 Transformers ，可以在MATH数据集和大学水平的数学课程上取得完美表现。”

如图1所示，研究团队将麻省理工学院课程中的数学问题和MATH数据集进行处理，并将其作为输入传给OpenAI Codex Transformers，使要解决的问题转化为编程任务，然后执行自动生成程序。问题不同，运行程序的输出形式也不同，包含数字输出形式，甚至可以通过程序合成从文本中产生图片输出形式。该团队用prompt生成法（prompt generation methods ），使Transformers能够为每个随机抽到的问题生成带图的解题程序和方案。相比之下，这项工作可以输出包括图表在内的多种模式，并且不需要专门的训练就可以扩展到其他数学课程。

他们还对原始问题和转化后的问题进行了对比量化，并通过调查评估了生成问题的质量和难度。

表1：针对六门课程（18.01, 18.02, 18.03, 18.05, 18.06, 6.042）和MATH数据集的六个主题（预-代数，代数，中级代数，计数和概率，预-微积分，数论）中的一些问题的解决方案。解决方案可包含数字答案、方程式和图表等。

在上表所列的麻省理工学院的数学课程中，使用该方法可以很好地自动解决、评分和生成问题，并且所有这些都是实时的，每个问题处理时间竟不到一秒。

2 关键

研究实验题目来自麻省理工学院六门课程中随机抽取的25个问题，和MATH数据集的六个主题中各随机抽取5个问题。并且，为了说明他们的研究结果不是过度拟合训练数据，他们还用了在训练期间网上查不到的新的应用线性代数课程COMS3251来进行验证。

技术代替人进行解题时，并不是使用技术对问题进行重大修改，而是努力提取问题的本质，因此，该团队使用Codex对问题进行了整理。

图2：问题的扩充和重组得到正确的Codex输出。

上图中，显示了使用Codex将课程问题转化为编程任务并运行程序以解决数学问题的方法。每个面板的左半部分显示了原始问题和通过添加问题背景、互动或简化后而重新表述的问题。

添加问题背景是非常有必要的，对学生和程序来说，解题域是选择合适的解题方法的必要信息。例如，如果没有问题背景，一个关于网络的问题，可能是关于神经网络的问题也可能是关于通信网络的问题。

面板A中对微积分方程问题的主题背景进行了补充，将其重新表述为一个编程任务的问题。补充背景包括澄清含糊不清的定义和运算符，或有一个以上标准用法的符号，说明学生通过学习课程就会知道的隐含假设，包括课程的主题或课题，指出学生从与问题相关的讲座或教科书章节中学到的适当方法。面板B中使用了Python库、sympy库和streamplot库的背景，用于解题和绘制可视化图。如果程序的语法与Python版本不兼容，或者数据类型有错误，又或者没有使用库，合成程序在执行中可能无法得到正确的答案。面板C中显示了概率和统计学中的一个例子，原始问题被转化为生成模拟的概率编程任务。在做题时学生可以从课程的主题和涵盖的材料中得到一些信息，在这个过程中，要通过了解问题背景，确定所需要的是什么类型的答案，对处理形式有一个合理预期。例如，概率或组合学中的许多问题可能需要用阶乘、组合函数或指数来回答。因此在实验中也必须要提供背景，以便用正确的方法来处理问题。面板D考虑到NLP模型在处理长而复杂的文本方面有困难，因此将较长的问题分解成了具体的编程任务，并删除了多余的信息。通过互动产生了多个图，交互式使用Codex可以使可视化图很好地被绘制出来，并且可以发现缺失的功能或需要的库。面板E来自《计算机科学数学》，对问题进行了简化处理，简化包括删除多余的信息，将长的句子结构分解成较小的组成部分，并将提示转换为编程格式。概括提炼出简洁的提示和一系列较短的问题，可以提高Codex性能。

除此之外，他们还考虑了原始课程问题转化为Codex 提示的三种情况：

原样提示。原始问题和Codex 提示是相同的；自动提示转换。原始问题和Codex提示不同，Codex提示是由其本身自动生成的；手动提示转换。原始问题和Codex提示不同，Codex提示是由人生成的。

当把问题转化为Codex提示时，又出现了一个关键性的问题：原始问题与之后产生正确答案的提示在语义上的接近程度如何？

图3：按课程和类别划分的所有问题的余弦相似度分布。

如图3所示，为了测量原始问题和转化后之间的差距，他们使用Sentence-BERT嵌入之间的余弦相似度。Sentence-BERT使用siamese和triplet网络结构对预训练的BERT模型进行了微调。Sentence-BERT能够在句子层面上产生语义嵌入，从而可以在长篇文本中进行语义相似度比较。

应用他们的方法，对于难度较低的课程，修改少量原始问题（高余弦相似度分数），就可以达到Codex提示，输出一个提供正确答案的程序。而每个框图左边的线代表每门课程的基准相似度分数，通过平均每门课程中所有这样的问题组之间的相似度计算得出。

他们还做了原始问题和产生正确答案的转换版本之间的相似性分数的直方图，用来评估。

图4：最右边的一列代表了按原样或做了非常小的改动就能正确回答问题所占的百分比。

使用Codex进行提示生成也会产生一些问题。在某些课程中，直接用未经转化的原始问题来提示Codex并不能得到正确的答案。因此，需要将原始问题的形式进行转化，他们将其主要分为三类：

主题背景。为Codex提供与一般课程和具体问题相关的主题和副主题，可以帮助指导Codex产生正确答案。例如，对于概率中的条件预期问题，提供有关贝叶斯定理、预期值等背景。库背景。为Codex提供解决特定问题所需的编程包/库也是非常有帮助的。例如，引导Codex使用Python中的Numpy包以解决线性代数问题。定义背景。很多时候，Codex缺乏某些术语的定义基础。例如，Codex并不清楚扑克牌中 "Full House "的含义。明确这些术语的定义并让Codex理解它们，可以更好地指导其程序合成。

此外，他们还使用Codex，通过从数据集中创建一个有编号的问题列表，为每门课程生成了新的问题。这个列表在生成随机数量的问题后会被切断，其结果将用于提示Codex生成下一个问题。重复进行此过程，就可以为每门课程生成许多新问题。

图5：学生调查问题。学生要对60个问题中的每一个问题进行评分。

如上图所示，他们还在麻省理工学院和哥伦比亚大学选修过这些课程或其同等课程的学生中进行了长时间调查，比较了机器生成的问题和人写的问题在每门课程中的质量和难度。

图6. 学生调查结果。A组基于学生的评分，比较了人工编写的问题和本文研究方法为每门课程产生的问题的难度。该图显示了1（最容易）和5（最难）之间的难度评分的平均值，以及它们的95%置信区间。B组显示的是人工编写的和机器生成的问题被评为适合和不适合该课程的百分比。C组显示了被评为人写的或机器生成的问题的百分比。

然而，该研究还有一些局限性，如Codex只能接受基于文本的输入，因此该团队的方法无法对输入图像进行处理，无法回答带有必要视觉组成部分的问题，如数字或图表。其次，本研究没有涉及高级数学证明的问题，他们强调，这是研究的广度所带来的限制，而不是Codex的限制。

并且，他们的方法最后一步是通过执行一个程序来完成的，例如使用Python解释器，存在局限性。此外，理论上复杂性结果也不适用于本研究解决的具体实例。

3 总结

该团队的研究证明，对文本进行预训练并对代码进行微调的 Transformers能够解决训练能够通过程序合成解决、评定和生成大学水平的数学问题。

问题集的生成和分析进一步验证了这些惊人的结果。这项研究成功证实了现代程序设计语言可以作为一种替代性的表述和计算环境。由他们的方法不需要额外的训练，就可以扩展到其它STEM课程，并且可以给高等教育带来巨大的帮助。

他们的研究证实了，用现代编程语言进行的神经网络合成是更有活力和广泛适用的，有可能解决更广泛的问题。尽管任何有限的计算都可以被表示为足够大的表达式树，但人们可能会看到所需的表达式树的大小可能是任意大的。与图灵完备语言相比，这种灵活性得到了加强，因为已经存在的大量程序语料库让可用的标记表达式树的数量黯然失色。

“程序输出在本质上也更适合人类阅读。因为使用抽象化、模块化和高级逻辑的能力可以更清晰地说明解决问题的方法。”此外，程序生成可以通过解释性的注释以及函数和变量的名称，直接传达逻辑推论。值得一提的是，在他们的这项研究中在Codex的一些输出中看到了这样的解释文字和推导。

“这种正式和非正式语言的统一是我们方法论的一个固有的优势。”

参考资料：

1. CQ Choi, 7 revealing ways AIs fail: Neural networks can be disastrously brittle, forgetful, and surprisingly bad at math. IEEE Spectr. 58, 42–47 (2021)

GAIR 2021大会首日：18位Fellow的40年AI岁月，一场技术前沿的传承与激辩

2021-12-10

致敬传奇：中国并行处理四十年，他们从无人区探索走到计算的黄金时代 | GAIR 2021

2021-12-09

时间的力量——1991 人工智能大辩论 30 周年纪念：主义不再，共融互生｜GAIR 2021

2021-12-12

论智三易，串联通讯，贯通边缘，演进认知，汇于机器：听五位IEEE Fellow畅谈AI未来 | GAIR 2021

2021-12-25

新一代AI人才从哪里来，该往哪里去？| GAIR 2021院长论坛

2021-12-29

AI填报高考志愿，靠谱吗？

由来：中间广电总台中央广播电台

高考后以后，考生和父母又将遭遇新一轮的测试——志愿填报。新闻记者注意到，最近各电子商务平台、网络直播平台逐渐发生所说的志愿填报策划师、AI人工智能志愿填报卡商家等。一款志愿卡业务员称，只需输入分数，就可自动生成报考志愿表，全自动强烈推荐能里的高校和专业，立即给出录用几率。一键生成的填写计划方案是不是可靠？

店家树立根据人工智能技术等技术性

可个性化推荐报考院校

新闻记者注意到，现阶段目前市面上高考志愿规划服务项目大概可分为二种，一种是借助所说优化算法、互联网大数据、人工智能的志愿填报手机软件，市场价一般在数百元；另一种是线下推广一对一咨询，价钱在一千元到几万元左右。

据国家教育部统计分析，2022年全国各地高考报名人数为1193万，比往年提升115万。近些年，各种填报高考志愿的服务逐渐发生，一些企业树立根据人工智能技术互联网大数据等技术性，能够依照特定成绩搜索学校、成绩，模拟高考志愿填报，个性化推荐报考院校。

针对AI填写志愿，考生人群见解不一，有些人对填好结论持质疑心态，也有人表明在模拟填报志愿阶段会参照该类专用工具数值。

不一样AI志愿填报手机软件

得到的录用几率存有差别

新闻记者以山西省应届生考生真实身份在某志愿填报网址键入预计考试分数以后，系统给出了我省估计排行，还有一些大学的录用几率，但如果想点击查看，就必须购买价格为398元的志愿填报卡。

该志愿填报平台销售工作人员：志愿填报卡（能够）查一些高校专业的信息，全是十分全的，包含一些报名数据信息。假如你对专业如今不确定性，还可以去做评测，会让你介绍一些相应的专业方位。在高考出分这个阶段，你也可以键入选修课考试成绩，做模拟填报，会让你发布“稳保”的院校。

这名市场销售人员介绍，除开志愿填报指南中能够查看的院校、专业录取分数线外，服务平台主推智能化录用概率计算，几率从1%到99%不一。“你需要去查基本数据是可以查获得的，在学校官网也可以查，但是你如果想要做模拟填报，让你剖析‘稳保’的学校，肯定是在我们的网站上才可以查获得。”

但是新闻记者注意到，所谓的的几率其实就是按照以往的录取分数给出，分成“冲、稳、保”三类，而不同AI志愿填报手机软件给出的可能性也是有差别，这让一些考生更加蒙蔽。

△AI志愿填报手机软件给出的志愿填报预测分析

高三老师：志愿填报需各个方面充分考虑

河北省某普通高中高三年级教导主任何炅详细介绍，高考志愿填报专业性十分强，不但要融合本地现行政策和专业录用数据信息，还需要充分考虑考生和学生家长的不一样挑选，各个方面充分考虑，才可以给出一个全方位的、专业的强烈推荐。与此同时，考生也需要更进一步地掌握本人潜力，作出精确分辨，这也是这种所说的AI志愿填报定制软件所无法取代的。

“本人就业是不是真的适合自己的工作能力、兴趣爱好，最先应当恰当、充分的地掌握个激发潜能。在掌握一定的高等院校专业以后，对自身未来专业潜力的估算才可以更准确、更客观性。”何炅说。

教育专家：AI并不是志愿填报的武器

只有做为参照的专用工具

除开AI志愿填报手机软件外，也有店家搞出了一对一高考考试志愿填报服务咨询的幌子，其官方网站表明，承担答疑解惑的教师称号多种多样，分成王牌和杰出等好几个级别。

某线下推广志愿填报企业工作员：看你需要选什么档，由于我们这边老师是划档线下推广一对一咨询，分金牌导师和杰出老师，8800元的有，几千块钱也是有，价钱越高老师资质证书会就越好。

现代教育科学院研究者储朝晖表明，高考考试志愿填报的销售市场由需要造成，但这类组织给予的业务是不是精确却要加上疑问。

储朝晖说，考生和父母挑选AI志愿填报需保持理性，例如手机软件依据互联网大数据推断出某专业的录取分线很低，就可能发生许多考生报名这一专业，反倒会把成绩拉高。该类手机软件的数值只可参照，不能封建迷信。

储朝晖提议：“实际上AI就是一个信息专用工具，也许有一部分学员必须，但它没有必需的。这种信息还能够根据别的的方式综合性看来，始终不要把AI当做确定自身报考志愿的武器，而只有把它当作一个参照的专用工具。”

文中由来：中间广电总台中央广播电台（ID：zgzs001）

总服务台央广新闻记者/李行健

频道导航

热门栏目

AI考高数正确率达81%是怎么回事，关于ai高考分数的新消息。

相关阅读

推荐阅读

的确！这五款手机价格不超1000元，用两年不是问题，都是百元神机

iPhone13Pro Max再次降价，128GB版本跌至新低，果粉可以入手了

不建议入手的3款iPhone，续航差、价格贵、配置落伍，谁买谁吃亏

从5988元跌至2989元，麒麟990+徕卡四摄，华为旗舰二手机跌至新低

iPhone 12和iPhone 13哪个好？iPhone 12和iPhone 13对比你选择哪个？

2021年八款堪称年度最佳手机推荐

大电池才是王道！这4款5000mAh超值手机，你尽管用电量不用操心

哪些手机能做到颜值和手感兼具？或许它们可以

哪些手机能做到颜值和手感兼具？或许它们可以

玩英雄联盟手游？这些潮流时尚手机也可以爽玩

热门话题

猜你喜欢

顶流主播童锦程被无数成为“撩妹祖师爷”！

英雄联盟美女主播豚豚颜值很高，网友们很喜欢！

王者荣耀热度一直很高，杰7排位上演夹子音调戏路人！

英雄联盟主播小超梦实力很强，粉丝称他是国服重装上单天花板！

某牙平台主播子圣异军突起，地位快赶超童锦程了！

沫子非常全能，从唱歌跳舞到开导失恋的姐妹全都行！

高人气主播张嘉文最擅长男枪，经常在直播间展示各种各样的操作技术！

张嘉文的的格雷福斯玩的出神入化！

游戏女主播沫子直播经常停听一些经典老歌！

主播北枫奇亚娜秀的一批，上分嘎嘎快！

阅读排行