最好看的新闻，最实用的信息

11月01日 13.2°C-15.3°C
澳元 : 人民币=4.69

墨尔本

今日墨尔本

MELBOURNE TODAY

今日澳洲app下载

登录注册

AI做题家：高数考试正确率81% 竞赛题成绩超过计算机博士

2022-07-05 来源： cnBeta 原文链接评论0条

AI做题家：高数考试正确率81% 竞赛题成绩超过计算机博士 - 1

课程范围从初级微积分到微分方程、概率论、线性代数都有，题目形式除了计算、甚至还有画图。

AI做题家：高数考试正确率81% 竞赛题成绩超过计算机博士 - 2

这件事最近还登上了微博热搜。

AI做题家：高数考试正确率81% 竞赛题成绩超过计算机博士 - 3

“仅”得81分，对AI的期待也太高了吧

现在，Google那边又传来了最新大消息：

不止数学，我们的AI甚至在整个理工科上，都已经拿到最高分啦！

看来在培养“AI做题家”这件事上，科技巨头们已经卷出了新高度。

AI做题家：高数考试正确率81% 竞赛题成绩超过计算机博士 - 4

Google这个最新AI做题家，参加了四门考试。

数学竞赛考试MATH，以往只有三届IMO金牌得主才拿过90分，普通的计算机博士甚至只能拿到40分左右。

至于别的AI做题家们，以前最好成绩只有6.9分……

但这一次，Google新AI却刷到了50分，比计算机博士还高。

综合考试MMLU-STEM，内含数理化生、电子工程和计算机科学，题目难度达到高中甚至大学水平。

这一次，GoogleAI“满血版”，也都拿到了做题家中的最高分，直接将分数拉高了20分左右。

AI做题家：高数考试正确率81% 竞赛题成绩超过计算机博士 - 5

小学数学题GSM8k，直接将成绩拉升到78分，相比之下GPT-3还没及格（仅55分）。

就连MIT本科和研究生学的固体化学、天文学、微分方程和狭义相对论等课程，Google新AI也能在200多道题中，答出将近三分之一。

AI做题家：高数考试正确率81% 竞赛题成绩超过计算机博士 - 6

最重要的是，与OpenAI凭借“编程技巧”取得数学高分的方法不同，GoogleAI这一次，走的可是“像人一样思考”的路子——

它像一个文科生一样只背书不做题，却掌握了更好的理工科解题技巧。

值得一提的是，论文一作Lewkowycz还分享了一个论文中没写到的亮点：

我们的模型参加了今年的波兰数学高考，成绩比全国平均分还要高。

AI做题家：高数考试正确率81% 竞赛题成绩超过计算机博士 - 7

看到这里，有的家长已经坐不住了。

如果告诉我女儿这件事，我怕她用AI做作业。但如果不告诉她，就没有让她对未来做好准备！

AI做题家：高数考试正确率81% 竞赛题成绩超过计算机博士 - 8

在业内人士看来，只靠语言模型，不对算数、逻辑和代数做硬编码达到这种水平，是这项研究最惊艳的地方。

AI做题家：高数考试正确率81% 竞赛题成绩超过计算机博士 - 9

那么，这是怎么做到的？

AI狂读arXiv上200万篇论文

新模型Minerva，基于Pathway架构下的通用语言模型PaLM改造而来。

分别在80亿、600亿和5400亿参数PaLM模型的基础上做进一步训练。

Minerva做题与Codex的思路完全不同。

Codex的方法是把每道数学题改写成编程题，再靠写代码来解决。

而Minerva则是狂读论文，硬生生按理解自然语言的方式去理解数学符号。

在PaLM的基础上继续训练，新增的数据集有三部分：

主要有arXiv上收集的200万篇学术论文，60GB带LaTeX公式的网页，以及一小部分在PaLM训练阶段就用到过的文本。

AI做题家：高数考试正确率81% 竞赛题成绩超过计算机博士 - 10

通常的NLP数据清洗过程会把符号都删掉只保留纯文字，导致公式不完整，比如爱因斯坦著名的质能方程只剩下了Emc2。

AI做题家：高数考试正确率81% 竞赛题成绩超过计算机博士 - 11

但Google这次把公式都保留，和纯文本一样走一遍Transformer的训练程序，让AI像理解语言一样去理解符号。

与之前的语言模型相比，这是Minerva在数理问题上表现更好的原因之一。

但与专门做数学题的AI相比，Minerva的训练中没有显式的底层数学结构，这带来一个缺点和一个优点。

缺点，是可能出现AI用错误的步骤得到正确答案的情况。

优点，是可以适应不同学科，即使有些问题无法用正规的数学语言表达出来，也可以结合自然语言理解能力解出来。

到了AI的推理阶段，Minerva还结合了多个最近Google开发的新技术。

先是Chain of Thought思维链路提示，今年一月由Google大脑团队提出。

具体来说就是在提问的同时给一个分步骤回答的示例来引导。AI在做题时就可以采用类似的思考过程，正确回答本来会答错的题目。

AI做题家：高数考试正确率81% 竞赛题成绩超过计算机博士 - 12

再有是Google和MIT合作开发的Scrathpad草稿纸方法，让AI把分步计算的中间结果临时存储起来。

AI做题家：高数考试正确率81% 竞赛题成绩超过计算机博士 - 13

最后还有Majority Voting多数表决方法，也是今年3月才发表的。

让AI多次回答同一个题目，选择答案中出现频率最高的。

AI做题家：高数考试正确率81% 竞赛题成绩超过计算机博士 - 14

所有这些技巧全用上以后，5400亿参数的Minerva在各种测试集中达到SOTA。

甚至80亿参数版的Minerva，在竞赛级数学题和MIT公开课问题中，也能达到GPT-3最新更新的davinci-002版本水平。

AI做题家：高数考试正确率81% 竞赛题成绩超过计算机博士 - 15

说了这么多，Minerva具体都能做出哪些题目？

对此Google也开放出了样例集，一起来看一下。

数理化生全能，连机器学习都会

数学上，Minerva可以像人类一样按步骤计算数值，而不是直接暴力求解。

AI做题家：高数考试正确率81% 竞赛题成绩超过计算机博士 - 16

对于应用题，可以自己列出方程式并做简化。

AI做题家：高数考试正确率81% 竞赛题成绩超过计算机博士 - 17

甚至还可以推导证明。

AI做题家：高数考试正确率81% 竞赛题成绩超过计算机博士 - 18

物理上，Minerva可以求中性氮基态（Z = 7）电子的总自旋量子数这样的大学水平题目。

AI做题家：高数考试正确率81% 竞赛题成绩超过计算机博士 - 19

生物和化学上，Minerva凭借语言理解能力也可以做各种选择题。

以下哪种点突变形式对DNA序列形成的蛋白质没有负面影响？

AI做题家：高数考试正确率81% 竞赛题成绩超过计算机博士 - 20

以下哪种是放射性元素？

AI做题家：高数考试正确率81% 竞赛题成绩超过计算机博士 - 21

以及天文学：为什么地球拥有很强的磁场？

AI做题家：高数考试正确率81% 竞赛题成绩超过计算机博士 - 22

在机器学习方面，它通过解释“分布外样本检测”的具体含义，从而正确了给出这个名词的另一种说法。

AI做题家：高数考试正确率81% 竞赛题成绩超过计算机博士 - 23

……

不过，Minerva有时也会犯一些低级错误，比如把等式两边的√给消了。

AI做题家：高数考试正确率81% 竞赛题成绩超过计算机博士 - 24

除此之外，Minerva会出现的推理过程错误但结果对的“假阳性”情况，比如下面这种，有8%的可能性。

AI做题家：高数考试正确率81% 竞赛题成绩超过计算机博士 - 25

经过分析之后，团队发现主要的错误形式来自计算错误和推理错误，只有小部分来自题意理解错误和在步骤中使用了错误的事实等其他情况。

其中计算错误可以轻易通过访问外部计算器或Python解释器解决，但其他种类的错误因为神经网络规模太大就不太好调整了。

AI做题家：高数考试正确率81% 竞赛题成绩超过计算机博士 - 26

总的来看，Minerva的表现让很多人感到惊艳，纷纷在评论区求API（可惜Google目前并没有公开计划）。

AI做题家：高数考试正确率81% 竞赛题成绩超过计算机博士 - 27

有的网友想到，加上前几日让GPT-3解题正确率暴涨61%的“哄一哄”大法，它的准确率或许还可以再提高？

AI做题家：高数考试正确率81% 竞赛题成绩超过计算机博士 - 28

不过作者的回应是，哄一哄方法属于零样本学习，再强恐怕也比不上带4个例子的少样本学习。

AI做题家：高数考试正确率81% 竞赛题成绩超过计算机博士 - 29

还有网友提出，既然它可以做题，那么能不能反过来出题？

AI做题家：高数考试正确率81% 竞赛题成绩超过计算机博士 - 30

事实上用AI给大学生出题这件事，MIT已经联合OpenAI在做了。

他们把人类出的题和AI出的题混在一起，找学生来做问卷调查，大家也很难分清一道题是不是AI出的。

AI做题家：高数考试正确率81% 竞赛题成绩超过计算机博士 - 31

总之现在的情况，除了搞AI的在忙着读这篇论文以外。

学生们盼着有一天能用AI做作业。

AI做题家：高数考试正确率81% 竞赛题成绩超过计算机博士 - 32

老师们也盼着有一天能用AI出卷子。

AI做题家：高数考试正确率81% 竞赛题成绩超过计算机博士 - 33

关键词： AI Minerva Google 做题数学错误

转载声明：本文为转载发布，仅代表原作者或原平台态度，不代表我方观点。今日澳洲仅提供信息发布平台，文章或有适当删改。对转载有异议和删稿要求的原著方，可联络content@sydneytoday.com。

相关新闻

Google母企Alphabet推出AI聊天机械人Bard，与ChatGPT一较高下（图）

AI数学: 数形结合的方式来理解就舒服多了，自己画图体会体会。数学手册计算器是一款久负盛名的专业级图形化数学计算器软件，被网友称为手机上的数学运算和数学作图神器！它是三合一 = 数学手册+计算器+计算机代数系统 = 看书做题+计算画图+编程开发，支持符号和数值

比尔盖茨预告！AI将杀死Google搜寻引擎（图）

谷歌要“与时俱进“ 将可搜寻AI对话、社媒、短视频（图）

AI教父离开Google，忏悔并警告人工智慧的风险（图）

恐失914亿收入！Google怕了ChatGPT、新Bing 拚搜寻技术进化、4大AI新细节曝（组图）

恍恍惚惚！一大学老师线上授课时，趁学生做题偷看AV，结果误按公开播放…（组图）

用数学手mathHand.com学数学

Google地图出现大bug！墨尔本Collins Street被定位在非洲专家：不稀奇错误率为1%！

厉害了我的澳!7年级数学题难倒商科学生考验自己是学霸还是学渣的时候到了!(图)

在Google开发者大会上学踢球，我跟AI都挺累

Google也推出了“AI付费套餐”，和ChatGPT比哪个值？

今日评论网友评论仅供其表达个人看法，并不表明网站立场。

最新评论(0)

暂无评论

热评新闻

震惊！中国留学生在澳劫杀中韩妓女，一天内作案两起！不满口交额外收费将人勒毙（组图）

澳洲Costco宣布新规，华人炸锅！“去亚超更香”（组图）

震撼！澳洲地标挤满数千裸体男女，全员一丝不挂，只为...（组图）

网传移民局突袭澳洲中餐馆！两员工被带走，恐面临遣返（组图）

千万网友泪目！一个上海女孩远赴瑞士安乐死，坦然结束这一生（组图）

“等着爆雷吗？”澳洲楼市“跌跌不休”，新政被批“隔靴搔痒”！华人买家：“又把自己套进去？”（组图）

【独家】“没感到很突然！”澳洲被抓华人面点师受访，“请以我为戒！”网友：“还我‘妈生’拉面师傅！”（视频/组图）

“哭成一片！”29岁澳洲华人药剂师家中遇害，友人痛忆生平！“原本前途无量，希望还他公道！”（组图）

视频疯传！悉尼海滩上演活春宫，情侣当众啪啪啪，网友：战况似乎很激烈（组图）

汽车失控冲进澳洲小学，造成1死4伤！涉事女司机被捕，死者身份公布（组图/视频）

相关搜索

调降被救疫情现场直播新签证新法案找工作所致性致开辟工作签证宝活墨尔本一串

评论

收藏

Copyright Media Today Group Pty Ltd.隐私条款联系我们商务合作加入我们网站地图

法律顾问：AHL法律 – 澳洲最大华人律师行新闻爆料：news@sydneytoday.com

电话: （03）9448 8479

联系邮箱: info@meltoday.com

友情链接：华人找房到家今日支付 Umall今日优选