生成式AI背後的推手「LLM大型语言模型」 - 产业供应 - TechNice科技岛-掌握科技与行销最新动态

生成式AI背後的推手「LLM大型语言模型」 – 产业供应 – TechNice科技岛-掌握科技与行销最新动态

2023 年 9 月 28 日

记者／周子宁

AI浪潮席卷全球，一时间，讲坛节目、社群平台甚至人们茶余饭後的谈资都充满AI相关的话题。随着大众目光放向人工智慧的区块，更多相关的专业词语出现在大家视野中，而频繁被提起的「LLM」就是其中一员，究竟「LLM」是甚麽?又与AI有甚麽样的关联呢?

LLM大型语言模型受到AI浪潮影响，进入大众视野。示意图：取自RF123

LLM是甚麽?

LLM（Large Language Model,大型语言模型）是一种深度学习模型，可以透过记忆文本数据学习大量的知识。LLM大型语言模型内建超过一千亿个参数的自然语言处理系统（natural language processing，简称NLP），帮助LLM吸收巨量资料数据并学习字句逻辑，包含文章、影音、图片和书籍等都在学习范围，学习完成後可应用在问答、翻译和生成文本上。

而LLM大型语言模型之所以被冠以「大型」，是因为该模型在学习时可以自主更改的参数量极高，而这也代表LLM的知识库存远比一般学习模型丰富、应用范围更广，因此被称为「大型」语言模型。

更多新闻:Bard还是不够真实？捏造使用者不曾寄出的mail

LLM跟AI有甚麽关系?

如上段所言，LLM（Large Language Model,大型语言模型）是一种深度学习模型，而其工作原理就是通过获取的文本数据来分析文字逻辑，从而由大量的数据库中生成新文本。这样的功能描述是不是让人顿感熟悉?没错，最近大放异彩的ChatGPT功能也相近於此，而ChatGPT就是其中一种LLM的应用。

说到这里或许有些人感到混淆:ChatGPT是生成式AI?但ChatGPT又是其中一种LLM?那LLM跟AI是甚麽关系?其实AI并不是特定「某一种机器或程式」，AI是一种泛称。简单来说，AI(Artificial intelligence)是泛指所有人工智慧，而LLM（Large Language Model,大型语言模型）就是其中一种类型的AI。

更生活化一些的说明:AI就像是「面」这种统称，而里面分支出来的义大利面、油面、鸡蛋面，就是LLM一类的功能性程式模型。

LLM 的实际应用

LLM如何运算与应用?普遍而言，LLM都是在未经过标记的大型数据库上经过预先训练，再根据个别需求微调，同时加入少量的、已经标记(赋予上下文含意)的数据集。训练的步骤为:

1.文字数据转换为数位形式

2.随机分配模型参数

3.传送文本数据的数位形式传到模型中

4.使用损失函数来测量模型的输出与句子中实际的下一个单词之间的差异

5.优化模型的参数以最大程度地减少损失

6.最後重复该过程，直到最终成果达到可接受的精确度。

在训练完成後，LLM的应用范围极广，适用但不限於各种产业与相关软体，例如:智能客服、生物语言处理、医疗谘询、智慧机器人和各类代码与文本生成等等。

LLM两面观

LLM大型语言模型可以快速生成文本跟消化大量资料，有着可应对客制化、节省时间与人力、全理性判断等等优点，但LLM也有短版。大型语言模型的建构通常需要长达数月的时间，以及极度高昂的费用。而完成後的持续研发与维护同样需要丰厚的投资，同时如何获得足够丰富与正确的学习数据也是研发LLM的一大难处。

除此之外，尽管LLM学习速度高、吸收范围广，但LLM对於世界的理解只限於使用者给予的资料，因此很容易在数计集编写有漏洞或是错误的状况下，造成LLM被使用者或是吸收的资料误导，从而生成出错误资讯、不当发言甚至是被诱导出违法言论。

总体来说，LLM大型语言模型是一种强大精密的工具，能够理解和生成各种语言，但同时不论是LLM或是其他AI，本身都没有主观意识跟善恶之分，因此在使用上仍需对它们的能力和限制先做了解。