surfshark app , , , , , , ,

Google:Bard 的数学和程式设计能力正在提升

相比 OpenAI 的 ChatGPT,Google 的聊天机器人 Bard 无论是在名声或者能力表现上一直相形见绌。Google 最近声称,Bard 在数学以及程式设计上的能力,因为一项名为「隐式程式码执行」(implicit code execution)的技术而有所改进,这项技术让 Bard 检测电脑提示(prompts)并在後台运算程式码,因此在数学以及推理任务上的能力获得了改善。

Google 指出,这方面能力的改善将让 Bard 在回答以下类似问题时有更好的表现,例如:

  • 15683615 的质因数是什麽?
  • 计算我的储蓄增长率
  • 帮我把「Lollipop」这个词倒过来

新功能灵感来自《快思慢想》一书:Google 让 Bard 「自己生成并执行程式码」来提高数学与推理能力

Google 指出,大型语言模型(LLM)就像是预测引擎,当使用者给出提示时,LLM 会透过预测接下来可能出现的单词来生成答案,因此在语言、创造性任务方面的能力非常强,但在数学以及推理方面等领域表现较弱,因此若要用高阶的推理和逻辑能力来解决更复杂的问题,不能光靠 LLM。

Google 的新方法是让 Bard 自己生成和执行程式码来提高推理和数学能力,这种新方法的灵感来自将人类智能进行深入研究的二分法,尤其是由 Daniel Kahneman 所写的《快思慢想》(Thinking, Fast and Slow)中,将人的思考模式分为系统 1(直觉式思考)和系统 2(逻辑式思考)。

可以说,LLM 善於在系统 1 下运行,例如,它可以快速生成文本但没有经过深入的思考,比如问它一些算数问题,若是单单使用系统 1,虽然它可以快速给出答案, 但却因为不能停下来算数,所以只能给出第一个想到的答案,所以常常出现计算错误的问题。而传统计算和系统 2 的思维非常相似,公式化且不灵活,不过只要依循正确的步骤顺序就能产生对的结果。

Google 透过结合了 LLM(系统 1)和传统计算(系统 2)的功能,协助 Bard 给出更精准与正确的答案,在内部进行的测验当中,用这种方法可以将基於计算和数学相关的问题答案准确性提高 30%。

虽然市面上也有 GitHub 的 Copilot 以及亚马逊的 CodeWhisper 这样的程式码生成模型,但它们不像是 ChatGPT 或者 Bard 一样是「通用」的模型,而是原本就被设计为专门用途,用来训练的资料也完全不同。不过 Google 也在官方部落格重申,即便有此次功能上的改进,也不代表 Bard 总是正确的。

Bard 身世坎坷:灾难性发表会、不被内部员工看好

在 ChatGPT 横空出世後,微软+OpenAI 阵营几乎掌握了生成式 AI 技术的绝大多数话语权,而 Google 推出自家的 AI 聊天机器人 Bard 时的表现,更只能以「一场灾难」来形容,在各国语言的推出速度上亦不够快速,进而影响了全球知名度。

并且,Bard 也不被 Google 自家员工看好,被员工批评为「比没用还糟糕」、「太急躁推出的产品」等等。

在 Google 仍在解释 Bard 已经慢慢在进步时,微软则已经开始透过结合各类 AI 外挂功能与微软整体生态系,来持续强化其地位。

核稿编辑:Jocelyn

怎么取消surfshark续订