焊接设备
谷歌、OpenAI学者谈AI:语言模型正在努力“攻克”数学
2024-06-07

  AI究竟擅没有善于数学,还得具体问题具体分析。

  若是问较量争论机善于什么,正在所有的谜底里,数学必需榜上有名。正在履历了冗长的研讨以后,顶尖学者们正在研讨较量争论机关于数学较量争论方面的成长,取得了使人惊奇的成果。

  就拿客岁而言,来源于加州大学伯克利分校、OpenAI和Google的研究人员正在言语模子层面取得了长足的提高,GPT-3、DALL·E 2等被开辟出来。然而,直到现正在,言语模子还没法处理一些简朴的、用言语描写的数学题目,比方「Alice比Bob多五个球,Bob正在给Charlie四个球后有两个球。问Alice有一些球?」这对言语模子而言,想要给出准确谜底,大概就有点「费劲」了。

  「当我们说计算机异常善于数学时,意义是它们异常善于特定的、详细的事情,」来源于谷歌的机械进修专家Guy Gur-Ari示意。计算机善于算术是不假,但在特定的形式以外,计算机就敬谢不敏了,简朴的文字描述题皆答复免不了。

谷歌、OpenAI学者谈AI:语言模型正在努力“攻克”数学

  谷歌研讨员Ethan Dyer曾暗示:干数学研讨的人有一套僵化的推理体系,关于他们熟知的和不了解的内容,这两者之间拥有较着的鸿沟。

  办理文字题目或定量推理题目很辣手,由于不同于其他题目,这两者须要鲁棒性和严谨性。若是过程中的任何一步涌现毛病,将会招致毛病的谜底。DALL·E正在绘画层面使人印象深刻,尽管它生成的图象有时会很奇异,大概漏掉人的手指、眼睛长得奇异……这一些我们都能接受,可是它正在数学层面涌现了毛病,我们的容忍度就会十分小。来源于OpenAI的机械进修专家Vineet Kosaraju还曾表达过这类设法主意,「我们对言语模子所犯的数学毛病(好比将10误会为1和0,而不管是10)容忍性照样比较小的。」

  「我们研讨数学仅仅是因为我们发觉它自力且异常风趣,」OpenAI机械进修专家Karl Cobbe说。

  伴随着机械进修模子正在更大的数据样本上锻炼而成,它们的鲁棒性更好、犯错还更少。但扩大模子范围好像只会根据定量推理举行。研究人员意想到,关于言语模子所犯的毛病好像需求更有针对性的方法来处理。

  客岁,加州大学伯克利分校和OpenAI的两个研讨团队分离公布了数据集MATH和GSM8K,这两个数据集包罗多少、代数、初等数学等数千个数学题目。「我们想看看这是没有是是数据集的题目,」处置数学事情的AI平安中间研讨员Steven Basart说。家喻户晓,言语模子没有善于单词题目,正在这个题目上它们施展阐发的有多糟糕,是没有是能够根据引入花样更好、更大的数据集来处理?

  正在MATH数据集上,顶级言语模子的准确度为7%,而人类研究生的准确度为40%,奥林匹克冠军的准确度为90%。正在GSM8K数据集上(小学级此外题目),模子达到了20%的准确度。实验中OpenAI使用了微折衷考证这两种技能,结果表明模子能够看到许多本身毛病的例子,这一发明很有价值。

  那时,OpenAI的模子需要在100倍以上的数据上开展锻炼,才能在GSM8K上到达80%的准确度。但在本年6月,谷歌宣布了Minerva,到达78%的准确度。这一后果超出了预期,研究者表现,比料想的时候来的更快。

  论文地点:

  Minerva基于谷歌自研的Pathways言语模子(PaLM),具有更多的数学数据集,包罗arXiv、LaTeX等数学花样。Minerva还采用了其他战略,正在思想链提醒(chain-of-thought prompting)中,Minerva将更大的题目分解成小块。别的,Minerva还运用大都投票(majority voting),不全是请求模子给出一个谜底,反而是请求它提出100种谜底。正在这一些谜底中,Minerva挑选最普遍的一种谜底。

  这一些新策略的收益是伟大的,Minerva正在MATH上的准确度高达50%,正在GSM8K和MMLU(包孕化学和生物学正在内的一组更通用的STEM题目)上的准确度靠近80%。当Minerva被请求重做略微调整过的题目时,它的显露一样很好,这表明它的才能不仅是来源于影象。

  Minerva大概有奇异、紊乱的推理,但仍然得出准确的谜底。只管像Minerva如许的模子大概会得出取人类不异的谜底,但它们所遵照的现实历程大概大不不异。

  谷歌机械进修专家Ethan Dyer透露表现,「我以为存正在如许一种看法,即数学相干人士有一些严厉的推理体系,领会某事和不领会某事之间存正在显明的区分。」但人们给出的谜底不一致,会犯错误,还没法使用焦点观点。正在机械进修前沿中,鸿沟是含糊的。

  原文链接: