什么是大型语言模型(LLM)?原理解析、优势与局限全解读

ChemiCloud - Excellent Web Hosting Services

你可能经常听说“生成式 AI”时,伴随着“大语言模型”(Large Language Models,简称 LLM)这个词。但它和 ChatGPT、Google Gemini、微软 Copilot、Meta AI 和 Anthropic 的 Claude 等品牌聊天机器人并不完全是同一回事。

这些 AI 聊天机器人确实能产生令人印象深刻的结果,但它们并不真正理解我们所说的词语的含义。它们只是我们与 LLM 交互的界面。这些底层技术是通过识别词语的使用方式及它们之间的频繁组合,从而预测接下来的词语、句子甚至段落来工作的。理解 LLM 的工作原理是理解 AI 的关键。随着 AI 越来越常见地出现在我们日常的网络体验中,这是你应该了解的事情。

什么是语言模型?

你可以把语言模型想象成一个“语言占卜者”。

“语言模型是尝试预测人类所产生语言外观的一种东西,”乔治亚理工学院交互计算学院教授兼乔治亚理工机器学习中心副主任 Mark Riedl 说。“某样东西是否是语言模型,关键在于它能否根据之前的词语预测接下来的词语。”

这也是你发短信时自动补全功能的原理,也是 AI 聊天机器人的基础。

什么是“大语言模型”?

大语言模型包含了来自广泛来源的大量词汇。我们通过“参数”来衡量这些模型的大小。

那么,什么是参数呢?

LLM 使用的是神经网络,也就是一种机器学习模型,它接受输入并执行数学计算来生成输出。参数就是这些计算中的变量。一个大语言模型可能拥有十亿个甚至更多的参数。

“当模型能产生整段连贯流畅的文字时,我们就知道它足够‘大’了,”Riedl 说。

大语言模型是如何学习的?

LLM 通过一种称为“深度学习”的核心 AI 过程进行学习。

“这很像你教孩子一样——你展示大量示例,”广告公司 Momentum Worldwide 全球首席技术官 Jason Alan Snyder 说。

换句话说,你向 LLM 提供一整套训练数据,比如书籍、文章、代码和社交媒体帖子,帮助它理解词语在不同语境中的使用方式,甚至语言中更微妙的细节。这些数据收集和训练行为引发了不少争议和诉讼。比如,《纽约时报》、艺术家及其他内容版权所有者就指控科技公司在未经授权的情况下使用其受版权保护的材料。

AI 模型处理的信息量远远超出人类一生能阅读的内容——达到数万亿个“标记”(token)级别。Tokens 是 AI 模型分析文本时使用的最小单位。你可以把 AI 模型看作一个需要帮助的读者。它会把一个句子拆分成更小的部分,也就是 token——一个 token 大约相当于 4 个英文字符或 3/4 个英文单词——然后逐一理解每个部分及其整体含义。

从那里开始,LLM 可以分析词语之间的联系,并确定哪些词语经常一起出现。

“就像是在建立一个巨大的词语关系图谱,”Snyder 说,“然后它开始能做出很有趣的事,比如预测下一个词……并将预测与实际数据进行对比,根据准确性来调整其内部图谱。”

这种预测与调整的过程会发生数十亿次,因此 LLM 不断优化其语言理解能力,并提升识别模式与预测词语的能力。它甚至能从数据中学习概念和事实,以回答问题、生成创意内容或翻译语言。但它并不像人类那样真正“理解”词语的含义——它所掌握的只是统计上的关系。

LLM 还会通过人类反馈强化学习(Reinforcement Learning with Human Feedback,RLHF)来进一步提升回应质量。

“你会得到来自人类的判断或偏好——哪个回答在给定输入下更好,”卡耐基梅隆大学语言技术研究所助理教授 Maarten Sap 说,“然后你可以教模型改进它的回应方式。”

大语言模型能做什么?

给定一系列输入词语,LLM 会预测接下来的词语。

例如,考虑这个短语:“我在深蓝的……上航行。”

大多数人可能会猜“海洋”(sea),因为“航行”、“深”和“蓝”都让我们联想到海。换句话说,每个词都为下一个词提供上下文。

“这些大语言模型由于拥有大量参数,能存储大量语言模式,”Riedl 说,“它们非常擅长根据这些线索来准确预测下一个词。”

语言模型的类型有哪些?

你可能听说过“小模型”、“推理模型”或“开源模型”等子分类。有些模型是多模态的(multimodal),意味着它们不仅仅在文本上训练,也包括图像、视频和音频。虽然它们都是语言模型,但它们之间还是有一些关键区别。

是否存在“小语言模型”?

是的。像微软这样的公司就推出了小型模型,可以在设备本地运行,而无需像 LLM 那样消耗大量计算资源,但仍然能提供生成式 AI 的部分功能。

什么是推理模型?

推理模型也是一种 LLM。它们会向你展示聊天机器人在回答问题时的“思维过程”。如果你用过中国的 AI 聊天机器人 DeepSeek,就可能见过这种模式。

开源模型和开权重模型又是什么?

它们也是 LLM。这些模型更强调透明性。开源模型允许任何人查看其构建方式,通常也允许自定义和二次开发。开权重模型则公开部分参数权重,帮助我们了解模型在做出判断时是如何加权特征的。

这里要讲下 Open-weights model(开放/开源权重模型)意思:模型的参数(也就是“权重”)是对外公开的,别人可以下载、使用、研究、微调这个模型;但结构/代码可能不是完全开源的。

LLM 在哪些方面表现优秀?

LLM 在理解词语之间的关系以及生成自然语言方面表现非常好。

“它们接收一段输入,比如‘帮我做这个’、‘告诉我这个是什么’、‘总结一下这个’,然后能够从中提取模式,并输出一整段流畅的回应,”Riedl 说。

LLM 的弱点在哪?

首先,它们并不擅长讲真话。事实上,它们有时会编造听起来可信但完全错误的信息,比如 ChatGPT 曾在一份法律文书中引用了六个虚假的判例,又如 Google 的 Bard(Gemini 的前身)错误地宣称詹姆斯·韦布太空望远镜是首个拍摄系外行星图像的望远镜。这种现象被称为“幻觉”。

“它们非常不可靠,经常编造内容,”Sap 说,“它们并不是为了输出真实信息而设计的。”

它们也难以处理从未见过的全新问题,因为其本质是寻找并响应模式。

一个典型例子就是包含特殊数字的数学题。

“它可能算不对,因为它并不是在真正‘解题’,而是在尝试把你的问题关联到之前见过的类似问题,”Riedl 说。

虽然它们擅长预测词语,但它们并不擅长预测未来,比如计划和决策制定。

“就像人类那样思考各种可能性并做出选择,目前的大语言模型在这方面仍然遇到了巨大瓶颈,”Riedl 补充道。

最后,它们在处理时事新闻方面也存在问题,因为训练数据通常只能覆盖到某个时间点,此后发生的任何事都不在它们的知识范围之内。因为它们无法区分事实与可能性,所以很可能会自信地提供错误的新闻信息。

它们也不会像人类那样与现实世界互动。

“这使得它们难以理解事件中的上下文、社会动态和实际后果,”Snyder 说。

LLM 如何整合到搜索引擎中?

我们看到 LLM 的检索能力正在进化,不再仅限于训练数据。例如,LLM 可以与 Google 等搜索引擎连接,在生成回应前检索网页内容,从而提升时效性和准确性。

“这可以帮助我们的链接模型保持最新,因为它们能实时检索网络上的新信息,”Riedl 说。

例如,微软曾在 Bing 搜索中整合 AI,不是让 AI 使用搜索引擎辅助自己,而是让 AI 来改进搜索引擎本身,更好理解用户意图,并优化搜索结果排名。去年 11 月,OpenAI 推出了 ChatGPT Search,它可以访问部分新闻发布商的内容。

但这也存在风险。网络搜索如果没有良好的事实核查机制,反而可能加剧幻觉现象。而且 LLM 也必须学会判断哪些网站信息是可信的。Google 的 AI 搜索摘要初次推出时就因错误频出而饱受批评,之后进行了改进,但近期仍有报告指出它无法准确地告诉用户当前是哪一年。

来源:LLMs and AI Aren't the Same. Everything You Should Know About What's Behind Chatbots

未经允许不得转载:主机格调 » 什么是大型语言模型(LLM)?原理解析、优势与局限全解读

ChemiCloud - Excellent Web Hosting Services