基础知识篇:大语言模型核心原理解析

1️⃣人工智能基础概念全景图 💡

🧠人工智能与机器学习

人工智能(AI)是计算机科学的一个分支,旨在模拟人类的智能来解决问题。而机器学习(ML)是AI的一个子集,它的魅力在于不需要显式编程。也就是说,我们不需要手动编写函数来告诉计算机如何执行任务,而是让计算机自行学习和迭代,从数据中识别模式,并做出预测和决策。

🌱机器学习(ML)

机器学习领域下有多个分支,包括监督学习无监督学习强化学习

  • 监督学习 👨‍🏫:学习带有标签的原始数据。目标是发现原始数据与标签之间的映射关系,从而预测新数据。
  • 无监督学习 🧭:处理没有标签的数据,让计算机自主发现数据中的模式。
  • 强化学习 🎮:让模型在环境中采取行动,并根据奖励或惩罚来调整策略,以找到最佳行动方案。
🌀深度学习 (DL)
🤔思考:深度学习属于监督学习、无监督学习还是强化学习嘞? 

深度学习是机器学习的一个方法,它使用神经网络来模拟人脑处理信息的方式。神经网络由许多计算和存储单元(神经元)组成,这些神经元通过连接来处理数据。深度学习模型的“深度”指的是其层次化的结构,通过多层提取和表示数据的特征。

重要的是,神经网络可以用于监督学习、无监督学习和强化学习,因此深度学习并不属于这三者中的任何一个子集。相反,它们都是深度学习的应用领域。

🗨️生成式AI与大语言模型(LLM)
🤔思考:生成式AI与大语言模型是啥关系?谁包含谁?还是互相有交集?🧐 
  • 生成式AI 🎨:能够生成新的数据,如图像、文本等。它不仅限于文本生成,还包括其他媒体形式。
  • 大语言模型 📚:处理大量文本数据,具备深度理解和生成文本的能力。但并非所有大语言模型都擅长文本生成,有些更侧重于文本理解和分析。

例如,BERT模型是一个典型的大语言模型,它擅长理解上下文,因此被广泛应用于搜索、情感分析和文本分类等任务。然而,BERT并不擅长生成连贯的长文本

2️⃣大语言模型与Transformer基础🗨️

📅 2022年11月30日,OpenAi发布了ChaGPT,这一产品迅速成为史上最快达到100万用户的线上产品之一。继下围棋的alphago后,它成为又一轮人工智能热潮的引爆者。如今,AI聊天助手如雨后春笋般出现在我们的视野里。

🌟 大语言模型(LLM, Large Language Model) 是用于执行自然语言相关任务的深度学习模型。简单来说,给模型输入一些文本内容,它就能返回相应的输出。这些任务可以是续写、分类、总结、改写、翻译等等。

🔑大语言模型的“大”体现在哪里?

  • 训练数据巨大📚:大语言模型首先需要通过大量文本进行无监督学习。以GPT3为例,它的训练数据来自广泛的互联网文本语料,如电子书、新闻文章、博文、论文、百科、社交媒体帖子等。这些文本数据没有人工标签,模型主要学习单词与上下文之间的关系,以更好地理解文本并生成准确预测。
  • 参数量巨大🔬:参数在模型中用于刻画从庞大训练数据集中学习到的规律,决定模型如何响应输入数据。随着参数增加,模型能力增强,甚至能创造出全新的内容。例如,GPT系列的参数从GPT1的1.17亿增长到GPT3的1750亿。

🔑为什么Transformer是关键?

在Transformer架构出现之前,语言模型主要使用循环神经网络(RNN)。但RNN存在顺序处理、无法并行计算和难以处理长序列的问题。

💨RNN的劣势

  • 📏**顺序处理:**无法并行计算。

  • 🎯**难以处理长序列的文本:**容易造成遗忘。

Transformer通过自注意力机制和位置编码解决了这些问题,实现了对所有输入词的同时关注和理解,以及长距离依赖性的捕获。

🎉 Transformer的优势

  • 📏位置编码:通过位置编码理解词之间的顺序关系,允许并行计算,提高训练效率。
  • 🎯自注意力机制:能够学习输入序列中所有词的相关性,赋予每个词不同的注意力权重,专注于真正重要的部分。
🤔思考:Transformer的下一代,是怎样的技术呢?和Transformer较之RNN的劣势,Transformer有哪些劣势呢?大家可以大胆思考!

3️⃣Transformer实现过程剖析🔍

大语言模型,本质上通过预测概率最高的下一个词来实现惊艳的文本生成。这背后的功臣就是强大的Transformer架构。那么,Transformer是如何做到的呢?让我们一起轻松愉快地走进它的内部世界!📖

🔍Transformer心组件之: 编码器(Encoder)工作流程

  1. 🔢 输入TOKEN化
    • 将输入的文本拆分成计算机能处理的TOKEN,每个TOKEN被转换为一串整数,作为其在词汇表中的索引。
  2. 🖼️ 嵌入层(Embedding Layer)
    • 将TOKEN化的整数序列转换为向量表示,这些向量(通常称为词嵌入)捕获词汇之间的语法和语义关系。
  3. 📍 位置编码(Positional Encoding)
    • 向嵌入向量中添加位置信息,以确保模型能够理解词在句子中的顺序。位置编码是与嵌入向量具有相同维度的向量,并通过特定的数学函数生成。
  4. 💡 自注意力机制(Self-Attention Mechanism)
    • 编码器中的核心部分,用于捕捉输入序列中的关键特征。通过计算每个词与其他所有词之间的相关性来确定注意力权重。
  5. 👓 多头自注意力(Multi-Head Self-Attention)
    • 将自注意力机制应用于多个不同的“头”或子空间。每个头关注输入数据的不同方面,从而增强模型的表达能力。
  6. 🧠 前馈神经网络(Feed Forward Neural Network)
    • 对多头自注意力的输出进行进一步的数值变换,这有助于模型捕捉更复杂的模式和关系。
  7. 🏗️ 堆叠编码器(Stacked Encoders)
    • 通过将多个编码器堆叠在一起,模型能够在不同层级上理解输入数据。每个编码器都处理前一个编码器的输出,从而逐步提炼和抽象化信息。
🤔古人云“横看成岭侧成峰”,正是因为多头自注意力与堆叠编码器的作用,让模型可以多角度地全面捕捉信息各种特征,从而构建了对数据全貌的深度理解! 

🗣️ Transformer心组件之:解码器(Decoder)工作流程

  1. 🔔 接收特殊起始符号
    • 解码器接收一个表示输出序列开头的特殊符号作为初始输入。
  2. 🖼️ 嵌入层和位置编码
    • 与编码器类似,解码器也使用嵌入层将输入TOKEN转换为向量表示,并添加位置编码。
  3. 🎭 带掩码的自注意力机制(Masked Self-Attention Mechanism)
    • 解码器中的自注意力机制被修改为只关注当前位置之前的词,这是通过掩码实现的,确保模型在生成下一个词时只考虑已经生成的词。
  4. 🤝 编码器-解码器注意力(Encoder-Decoder Attention)
    • 解码器中的另一个注意力层用于捕捉编码器的输出和解码器当前状态之间的关系。这允许模型将输入序列的信息融合到输出序列的生成过程中。
  5. 🧠 前馈神经网络和堆叠解码器
    • 与编码器类似,解码器也使用前馈神经网络对注意力机制的输出进行进一步处理。通过堆叠多个解码器,模型能够更深入地理解输入与输出之间的关系,并生成更复杂的输出序列。
  6. 🎯 线性层和Softmax层
    • 解码器的最后阶段是将输出向量转换为词汇表的概率分布。线性层将输出向量的维度转换为词汇表的大小,而Softmax层则将这些数值转换为概率分布。
  7. 🎁 选择概率最高的TOKEN作为输出
    • 在大多数情况下,模型会选择概率最高的TOKEN作为下一个输出。这个过程会重复进行,直到生成一个表示输出序列结束的特殊TOKEN为止。
🤔思考:看上去,编码器和解码器结构有很大的相似啊,那能不能只保留一样呢?是否可以仅编码器或者仅解码器?答案是肯定的! 

🔧Transformer的变种与应用

  • 仅编码器模型(自编码器模型):适用于理解语言的任务,如BERT用于遮蔽词预测和情感分析。
  • 仅解码器模型(自回归模型):擅长文本生成,如GPT系列通过预测下一个词实现文本生成。
  • 编码器-解码器模型(序列到序列模型):适用于将一个序列转换成另一个序列的任务,如T5和BART用于翻译和总结等。
🤔思考:从这里也能看出,你是否已经看到生成式AI与大语言模型的关系哦!

  大语言模型不都是生成式AI,因为有的大模型,如BERT模型,仅有编码器,不做生成任务!

4️⃣ 大语言模型诞生过程剖析🤖

想要得到一个功能强大的大语言模型?跟着下面的步骤,一起走一遍!📖

📚 第一步:海量文本的无监督学习 得到基座大模型🎉

🔍 原料:首先,我们需要海量的文本数据,这些数据可以来自互联网上的各种语料库,包括书籍、新闻、科学论文、社交媒体帖子等等。这些文本将作为模型的“原料”,供模型学习。

🎯 目标:通过无监督学习,让模型能够基于上下文预测下一个token。这里用到了Transformer技术,它可以根据上下文预测被掩码的token。

💡 技术过程:无监督学习让模型在没有标签的数据上进行训练,通过比较正确答案和模型的预测结果,计算交叉熵损失,并使用优化算法更新模型的权重。随着见过的文本越来越多,模型生成的能力也会越来越好。

🔧 第二步:有监督微调➡️得到可以对话的大模型🎉

🔍 原料:虽然基座模型已经能够根据上下文生成文本,但它并不擅长对话。为了解决这个问题,我们需要使用人类撰写的高质量对话数据对基座模型进行有监督微调。

🎯 目标:通过微调,让模型更加适应对话任务,具备更好的对话能力。

💡 过程:微调的成本相对较低,因为需要的训练数据规模更小,训练时长更短。在这一阶段,模型从人类高质量的对话中学习如何回答问题,这个过程被称为监督微调(supervised fine tuning)。

🤔思考:为啥是“微调”而不叫“中调”或者“大调”?

  因为相比于基座模型所用到的巨量数据,这个过程里的大部分有监督学习,其所用到的数据,都像是冰山之一角,九牛之一毛!

💡点击查看提示

🏆 第三步:奖励模型的训练➡️得到可以评价回答的模型🎉

🔍 原料:为了让模型的回答更加优质且符合人类道德与价值观,我们需要让模型一次性给出多个回答结果,并由人工对这些回答结果进行打分和排序。

🎯 目标:基于这些以评分作为标签的训练数据,训练出一个能对回答进行评分预测的奖励模型。

💡 过程:奖励模型能够对模型的回答进行评分,从而引导模型生成更符合人类期望的回答。这个过程也常被称为对齐(alignment)。

🎈 第四步:强化学习训练➡️得到更符合人类价值观的优秀模型🎉

🔍 原料:使用第二步得到的模型和第三步的奖励模型进行强化学习训练。

🎯 目标:让模型的回答不断被奖励模型评价,并通过优化策略获取更高的评分,从而改进自身的结构。

💡 过程:强化学习训练利用奖励模型的评分作为反馈信号,引导模型生成更高质量的回答。同时,C端用户的点赞或倒赞也为模型的升级提供了宝贵的评价数据。

🤔思考:能不能让普通用户也为模型打分?

  看看文心一言的输出结果里,右下就有一个点赞或者倒赞!有更多用户对结果的反馈,大模型能力就会持续增强哦!模型能力增强➡️用户变多➡️反馈变多➡️模型能力增强➡️……这,就是数据飞轮的奇妙!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/633901.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Orcle查询组合字段重复的数据

oracle拼接字符串 在Oracle中,可以使用||运算符或CONCAT函数来拼接字符串。 使用||运算符: SELECT Hello, || World! AS concatenated_string FROM dual;使用CONCAT函数: SELECT CONCAT(Hello, , World!) AS concatenated_string FROM d…

智慧医疗时代:探索互联网医院开发的新篇章

在智慧医疗时代,互联网医院开发正引领着医疗服务的创新浪潮。通过将先进的技术与医疗服务相结合,互联网医院为患者和医生提供了全新的互动方式,极大地提升了医疗服务的便捷性和效率。本文将深入探讨互联网医院的开发,介绍其技术实…

如何彻底搞懂迭代器(Iterator)设计模式?

说起迭代器(Iterator),相信你并不会陌生,因为我们几乎每天都在使用JDK中自带的各种迭代器。那么,这些迭代器是如何构建出来的呢?就需要用到了今天内容要介绍的迭代器设计模式。在日常开发过程中&#xff0c…

多尺度注意力机制突破性成果!低成本、高性能兼备

与传统的注意力机制相比,多尺度注意力机制引入了多个尺度的注意力权重,让模型能够更好地理解和处理复杂数据。 这种机制通过在不同尺度上捕捉输入数据的特征,让模型同时关注局部细节和全局结构,以提高对细节和上下文信息的理解&a…

开源大模型与闭源大模型:技术哲学的较量

目录 前言一、 开源大模型的优势1. 社区支持与合作1.1 全球协作网络1.2 快速迭代与创新1.3 共享最佳实践 2. 透明性与可信赖性2.1 审计与验证2.2 减少偏见与错误2.3 安全性提升 3. 低成本与易访问性3.1 降低研发成本3.2 易于定制化3.3 教育资源丰富 4. 促进标准化5. 推动技术进…

3d选择模型后不能旋转什么原因?怎么解决?---模大狮模型网

在3D建模和渲染的过程中,旋转模型是常见的操作。然而,有时在选择了模型后,却发现无法进行旋转,这可能会让许多用户感到困扰。本文将探讨3D选择模型后不能旋转的可能原因,并提供相应的解决方法。 一、3D选择模型后不能旋…

Zynq-Linux移植学习笔记之68- 国产ZYNQ添加用户自定义版本信息

1、背景介绍 在使用复旦微zynq时,有时候虽然针对uboot源码进行了改动,但由于uboot基线版本只有一个(2018-07-fmsh),导致无法区分版本信息,虽然可以通过编译时间来区分,但没有版本号直观。内核也…

快速搭建 WordPress 外贸电商网站指南

本指南全面解析了在 Hostinger 平台上部署 WordPress 外贸电商网站的详细步骤,涵盖托管方案选择、WordPress 一键安装、主题挑选与演示数据导入、主题个性化定制、SEO插件插件 AIOSEO 安装、通过 GTranslate 实现多语言自动翻译、地区访问控制插件,助力用…

高中数学:平面向量-数量积(向量与向量的乘积)与投影

一、引题 物理上的力做功 二、数量积与投影 1、数量积 θ的范围是[0,π] 2、投影 向量的投影,依然是一个向量! 3、运算法则 易错点: 4、重要性质 这里对性质(2)要注意一下:如果 a → \mathop{a}\limits ^{\rightarrow…

30.包名的修改和新建后端模块

权限和第三方登录确实令人头疼,我们来学一点简单一点的。 另外,如果各位有属于自己的域名和ICP/IP备案,布置一个作业,自行实现第三方QQ登录。 我们所说的包名修改,是一次性修改ruoyi的全部包名,因为发现很多人有这样的需求,下载别人的代码,想要改成自己公司的包名,结…

当代家庭教育杂志社《当代家庭教育》杂志社24年第6期目录

家庭教育资讯 《家庭教育蓝皮书2024:中国家庭养育环境报告》出炉 4 2024年4月至7月北京市将开展“双减”专项行动 5 小学生玩“烟卡”到底该不该禁? 5 家庭教育理论探索 新时代家长家庭教育素养:意涵、关键要素及其培育 周起煌; 6-10 …

海外仓WMS系统多少钱?家庭海外仓怎么选合适的系统

作为海外仓管理的核心工具,WMS系统能够帮助企业实现仓库的可视化管理,流程自动化以及决策的数据化支持,进而提升海外仓的整体竞争力。 然而,许多海外仓企业在选择wms系统的时候,往往对价格的疑虑比较大,不…

微服务远程调用 RestTemplate

Spring给我们提供了一个RestTemplate的API,可以方便的实现Http请求的发送。 同步客户端执行HTTP请求,在底层HTTP客户端库(如JDK HttpURLConnection、Apache HttpComponents等)上公开一个简单的模板方法API。RestTemplate通过HTTP方法为常见场景提供了模…

Xinstall全渠道统计服务,洞悉App推广效果

在当今数字化时代,App已经成为企业和个人进行业务推广和服务提供的重要渠道。然而,随着App市场的日益饱和,如何有效地推广和运营App成为了众多广告主和开发者面临的难题。而App渠道统计作为衡量推广效果、优化运营策略的重要手段,…

大数据运维学习笔记之Ambari——筑梦之路

原则:分布式存储和分布式计算分开 今天就到这里啦。

Github上传时报错The file path is empty的解决办法

问题截图 文件夹明明不是空的,却怎么都上传不上去。 解决方案: 打开隐藏文件的开关,删除原作者的.git文件 如图所示: 上传成功!

JS片段:如何将文本复制到剪贴板

在构建网站时,一个非常普遍的需求是能够通过单击按钮将文本复制到剪贴板。在现代浏览器中,使用navigator.clipboardAPI 访问系统剪切板,利用clipboard.writeText复制到剪贴板,再通过clipboard.readText获取剪贴板内容即可实现。 …

APH-Archives of Public Health

文章目录 一、期刊简介二、征稿信息三、期刊表现四、投稿须知五、投稿咨询 一、期刊简介 Archives of Public Health是一份范围广泛的公共卫生杂志,致力于出版公共卫生领域所有可靠的科学。该杂志旨在更好地了解人群的健康。该杂志有助于公共卫生知识,加…

Debug-010-git stash的用法及使用场景

问题原因: 其实也不是最近,就是之前就碰到过这个问题,那就是我正在新分支开发新功能,开发程度还没有到可以commit的程度,我不想提交(因为有些功能没有完全实现,而且没有自测的话很容易有问题,提…

智能车竞赛指南:从零到一,驶向自动驾驶的未来

智能车竞赛指南:从零到一,驶向自动驾驶的未来 一、智能车竞赛概览1.1 竞赛介绍1.2 竞赛分类 二、智能车开发技术基础2.1 硬件平台2.2 软件开发 三、实战案例:循线小车开发3.1 系统架构3.2 代码示例 四、技术项目:基于ROS的视觉导航…