在语言模型中解答数学题有多难
像gpt-3一样,在9-12岁的小学数学中,第一次测试是20分以上。
去年年末GPT3使用新的方法努力取得了55分,但遗憾的是不及格。
没想到,2022年刚开始,就突然宣布成为了“MIT”这个学部水平高的模特。
我学习了6个在本科基础数学课上随机抽取的例题“MIT”。全部在网上公开。
单数变量微积分(18.01、单数变量微积分(18.02、微分方程(18.03、概率与统计入门(18.05、线性代数(18.06、计算机科学中的数学(6.042、
那么AI会达到什么水平呢
在6个学科课程中,每25道题随机出题,再加上ACT级别的数据集中的60道题。
共计210道题,全部答对了。
最后为了证明训练的AI不符合,我们尝试了额外的应用线性代数(COMS3251、
这门课不是公开课,在网上完全没有进行,所以在预演阶段AI无法访问,结果AI也学会了。
就在几个月前,AI还在为“小明种了5棵柠檬树,每年从一棵树上得到6个柠檬。10年间得到了多少柠檬”的问题而烦恼。
仅仅几个月,我就从小学数学发展到了高等数学
这个MIT+哈佛+哥伦比亚大学+滑铁卢大学的共同研究是什么
研究小组发现,以前使用AI解答数学问题的尝试是共通的。培训数据只包含文本。
这就像AI里面的文科,不会数学也不奇怪。
那么,在AI上理科的学生是如何培养的呢。
研究小组的解决方案是用文本进行事前训练,用代码进行微调。
把数学题转换成编程题的想法
这个AI理科生和gpt-3同门
“OpenAI”代码是“GitHub”代码生成工具代码背后的技术基础。
Codex的解法分为两个过程:一是解题,二是答题。
第一步是自动生成所需的上下文,并将问题树干改写为适合扩展、折叠或编程解决的形式。
在步骤2中生成相应的代码并在运行后给出答案
例如,补充自然语言的问题树干中隐藏的问题的上下文的“微分方程式中”。
列出解决问题所需的Python库。
把问题扩展到更精确的数学语言
原始问题:
改写问题:
(好严格啊)
对于复杂的问题,请自动生成中间步骤的提示,然后再写代码。
如果有与数学无关的多余信息,就剪掉。
这样,AI解题后,写下代码并给出全正确答案。
除了解答问题,高度化的AI还可以反过来向人类提出问题。
问题在1秒内出现一道,共出现120道。
把人类出题的问题和AI出题的问题混为一谈,对学生进行问卷调查,学生也不知道一个问题是不是AI出题的。
AI好像提出了稍微难一点的问题,但是在课堂上也有很多合适的问题。
AI提出的问题可以吗?论文表明,这项研究有一些局限性。
首先,用图做的问题我做不到,这次实验没有需要很多证明的问题。
另外,最终的答案实际上是通过执行代码得到的,但是最近的研究也表明神经网络会直接预测部分代码的执行结果。
同时,开放性高的题目AI不能。
例如,“向量v是否可以表示为集合S的向量之和”,“下一个方程的整数解是什么?”
最后还有一个蛋,论文的作者出现了Gilbert Strang。
他编写的《线性代数导论》被誉为最好的线性代数教科书之一。
他在这篇论文中的贡献是提供研究的想法。
研究小组下一步将这项技术扩展到更多的课程,并考虑在实际课程中的运用。
“MIT”期末考试可能会有AI出题。
首先,试着解答AI提出的问题吧
论文地址:https://arxiv.org/abs/2112.15594
参考链接:[1]https://www.reddit.com/r/machinelearning/comments/rutbpv/r_a_neural_network_solves_and_generates/
文章评论