相关动态
《大模型时代-ChatGPT开启通用人工智能浪潮》精华摘抄
2024-12-25 13:53

原书很长,有19.3w字,本文尝试浓缩一下其中的精华。

谷歌发布LaMDA、BERT和PaLM-E,PaLM 2

Facebook的母公司meta推出LLaMA,并在博客上免费公开LLM:OPT-175B。

在GPT中,P代表经过预训练(pre-trained),T代表Transformer,G代表生成性的(generative)。

基于大模型提供法律咨询服务的Casetext,利用私域文本嵌入和摘要技术来应对GPT的错误信息风险。

ChatPDF:基于大模型的文档工具,解析PDF,识别内容,理解用户意图和需求,提供文本对话、知识问答等服务。

ShareGPT:浏览器插件产品,用户可以通过ShareGPT保存并分享自己跟ChatGPT的对话记录。

:神经语言模型聊天机器人网络应用程序。

ELIZA:1960s年代在麻省理工学院开发的聊天机器人,支持好几种对话脚本,可以模拟人本主义的心理治疗师,跟用户文本交流。

GPT系列模型用过的数据集:

临界点:《大语言模型的涌现能力》(Emergent Abilities of Large Language Models)论文说,许多新的能力在中小模型上线性放大规模都得不到线性的增长,模型规模必须要指数级增长超过某个临界点,新技能才会突飞猛进。量变引发质变。

大模型强调规模定律(Scaling Law),要指数级地加大模型来获得性能突增和能力涌现

Hallucination:幻觉,指的是生成式AI的胡诌,杜撰,Confabulation。封闭域幻觉是指人类用户要求大模型仅使用给定背景中提供的信息,但大模型却创造背景中没有的额外信息。开放域幻觉是指大模型在没有参考任何特定输入背景的情况下,提供关于世界的错误信息。

未来人类学习的知识,会有很大一部分源于生成式大模型;大模型生成的内容,存在胡诌和虚假,会对传统人类知识造成污染。OpenAI曾考虑对人工智能生成内容进行水印标记,但并未找到可行的实施方法。因此,这个关于信任的挑战必须由人类自己来面对。

英伟达公司推出针对大模型推理的H100 NVL GPU和DGX CLOUD计算集群。

Anyscale:开发Ray并为OpenAI公司提供框架支持的创业公司,提供SkyPilot,基于多个云服务商的模型训练推理计算资源的代理。给定一项计算任务及资源需求(CPU、GPU或TPU),SkyPilot会自动找出哪些位置(区域和云服务商)具有合适的计算能力,然后将其发送到成本最低的位置执行。

,Tensor Processing Unit,张量处理单元,张量处理器,Google开发的专用集成电路,专门用于加速机器学习。

NPU:神经网络处理器,Neural Network Processing Unit,用电路模拟人类的神经元和突触结构。典型代表有国内的寒武纪芯片和IBM的TrueNorth。

PUGC:Professional User Generated Content

PUGM:Professional User Generated Model

,谷歌的一个研究项目,包括有207个测试任务,涵盖语言学、数学、常识推理、生物学、物理学、软件开发等领域。

卢德运动:英格兰中部莱斯特市,织布学徒工内德·卢德(Ned Ludham)在被雇主责骂后失控,拿起锤子砸毁一台纺织机。此后,他被追随者们称作“卢德王”或“卢德将军”,卢德运动由此得名。

恩格斯式停顿:Engels’ pause,技术进步初期,收益分配不均;虽然全社会的生产率在不断上升,但许多人的生活水平仍然停滞不前,甚至不断恶化。

自动驾驶里的分级标准,涉及生命安全,对驾驶动作的容错性极低,分级也非常细致:

智能客服领域,可以简化为3级:

数字游民通常是指那些通过互联网和移动设备追寻自由、独立和灵活的新型职业人群,他们可以在任何地点和时间进行自己的工作。

个人IP则是指个人在社交媒体等平台上,通过内容输出和品牌塑造来建立自己的个人品牌。

:在线模型库和社区平台。用户分为两大类,即模型托管者和模型使用者。托管者通常是模型的研究开发方,可以在平台上托管并共享预训练模型和数据集;模型使用者可以通过平台选择合适的模型,在社区中进行协作和模型评价,然后将选定的模型投入生产应用,而训练和推理均可在平台上完成。

Hugging Face是人工智能领域的GitHub。国内类似的有阿里的ModelScope魔搭社区。

DeepMind:2010年创业公司,2014年被Google收购。发布的AlphaGo Zero,不采用任何人类棋谱作为训练数据,仅通过自我对弈完成强化学习,且比之前的所有版本都要强大。DeepMind和Google自家的Brain合并为Google DeepMind。

Watson Health:IBM投资医疗领域的产物。

Alphabet:谷歌母公司,Waymo也隶属于Alphabet下,研发自动驾驶汽车。

MaaS:Model as a Service,模型即服务。

聚焦生成式预训练大模型领域,主要需要关注大模型在以下几个方面的表现:

Transformer核心是基于注意力机制的技术,可以建立起输入和输出数据的不同组成部分之间的依赖关系,具有质量更优、更强的并行性和训练时间显著减少的优势。

Transformer的基本特征:

在Transformer之前,有RNN,Recurrent Neural Network,循环神经网络,或CNN,Convolutional Neural Networks,卷积神经网络。

大模型的训练包括三个阶段:

RLHF:Reinforcement Learning from Human Feedback,

监督学习:一种经典的机器学习方法,其目标是使用有标签数据集来训练一个模型,以使其能够对新的未标记数据进行预测。训练数据的标签是已知的,模型的目标是最小化预测输出与真实标签之间的差异,以学习如何进行准确的预测。

微调(Fine-Tuning)的起源可以追溯到早期计算机视觉领域,当时在大型图像数据集上训练的CNN被证明能够捕捉图像中的高级特征,这些特征在许多视觉任务中都是有用的。

SFT,Supervised Fine-Tuning,监督微调是一种特定的迁移学习方法,不同于传统从零开始训练的监督学习。基于一个通用的预训练模型,使用少量有标签的数据集对模型进行微调,以适应特定任务的要求。微调方法通常需要更少的标签数据来实现良好的性能,因为预先训练的模型已经学习一些通用的语言表示,可以更好地适应新的任务。微调需要的训练时间和算力也更少,在微调过程中,预训练模型的一部分可能会被固定,以避免过度调整和过拟合,只会改变模型的一小部分层。

自回归(auto-regressive),在生成每个token时,都会考虑前面已经生成的token,可以保证生成文本的连贯性和语义一致性。

束搜索(beam search),计算多个概率较高的token候选集,生成多个候选响应,并选择其中概率最高的响应作为最终的输出。

使用温度(temperature)参数来引入一定程度的随机性,以使生成的响应更加丰富多样。较大的temperature值会有更多机会选择非最高概率token,可产生更多样的响应,但也可能会导致生成的响应过于随机和不合理;较小的temperature值可以产生更保守和合理的响应,但也可能会导致生成的响应缺乏多样性。

大模型标注样本数据的获取主要有以下4种手段:

RDMA远程直接内存访问(Remote Direct Memory Access),跟传统以太网和TCP/IP协议相比,RDMA将数据直接从一个GPU节点的内存快速转移到另一个节点的内存中,绕开双方操作系统内核和CPU的处理,实现高吞吐、低时延和低资源占用率。

RDMA有两种典型的技术方案:无限宽带技术(IB)、基于融合以太网的RDMA(RoCE)。IB方案的链路层流控技术可以获得更高的带宽利用率,因此能支撑更大规模的训练集群;但IB方案无法兼容现有以太网,需要更换IB网卡和交换机,部署和运维成本不菲。RoCE,将IB的报文封装成以太网包进行收发,相比IB在性能上有一些损失。

分布式的深度学习框架便成为大模型最重要的软件基础设施,需要重点解决以下问题:

如果大模型的需求超过<GPU每年性能提升一倍>(英伟达黄仁勋提出),只能靠更大的分布式计算集群来实现,有两个瓶颈或突破口:

分布式深度学习框架能力的实现方式有两种:

变体:BioBERT、RoBERTa和ALBERT

不同:

传统的分析型AI是通过训练数据来学习预测新数据的标签或值;生成式AI则是通过学习数据的概率分布来生成新的数据。生成式AI的技术:GPT,生成式对抗网络(GAN)。

GAN,基本思想是同时训练两个神经网络:一个生成器网络和一个判别器网络。生成器网络用于生成假数据,判别器网络用于区分真实数据和生成的假数据。两个网络不断交替训练,直到生成器网络生成的假数据无法被判别器网络区分真假为止。已被广泛应用于图像、音频、视频生成等领域,如图像生成应用Midjourney就采用GAN技术。

提示(prompt)工程有3个主要作用:

在<算力、数据、算法>的人工智能三要素当中,大模型产业通过硬件基础设施层加上分布式框架,重点解决算力要素的问题。

LLaMA,一种基于开放数据集进行自监督预训练的大模型。主打两个特色:

21世纪以来,摩尔定律面临新的生态:功耗、内存、开关功耗极限,以及算力瓶颈等技术节点。摩尔定律逼近物理极限,无法回避量子力学的限制。在摩尔定律之困下,只有三项选择:延缓摩尔,扩展摩尔,超越摩尔。

凯文·凯利1994年所著的《失控:机器、社会与经济的新生物学》,提出群集系统理论:群集系统存在明显的冗余问题,且效率相对较低,有不可预测、不可知、不可控的缺点;但也有可适应、可进化、无限性和新颖性的优势。如蚁群,粒子群,神经网络等系统,个体随机混乱但是彼此关联协同形成一个有迹可循的整体。个体的进化,推动整体能力的涌现。

达特茅斯学院的人工引申出人工智能的三个基本派别:

罗伯特·赖克(Robert Reich)于1991年出版的《国家的工作》(The Work of Nations)一书中,把这个时代的工作分成三类:

根据布鲁姆教育目标分类法(Bloom’s taxonomy of educational objectives),人类对知识的处理(Knowledge Processing)有六个层次:记忆、理解、应用、分析、评价和创造。

《创造力手册》,法国数学家庞加莱(Poincaré)指出:创造的一种形式,是对有用的关联元素进行新组合。

《ChatGPT预示着一场智力革命》,大模型将重新定义人类的知识:

搜商:借助于搜索引擎在互联网上快速精确搜索想要的信息及获取知识的能力。

搜索语言:利用双引号、加号、减号、文件类型、站点范围等各种限定符,对搜索结果进行更精准的筛选。

阿尔伯特·爱因斯坦说:提出一个问题往往比解决一个问题更重要。

提问题的问题,即所谓问商。在大模型时代,问商更凸显其价值。

根据人类与大模型之间协作的过程,把问商分为两部分:

3R:

史蒂芬·R.柯维(Stephen R.Covey)在《高效能人士的七个习惯》一书中,提出任务授权的两种类型——指令型授权和责任型授权,重点描述和推荐责任型授权的方法。这种授权类型要求双方就以下五个方面达成清晰、坦诚的共识,并做出承诺:

理查德·保罗(Richard Paul)在《像苏格拉底一样提问》(The art of Socratic questioning)一书中给苏格拉底提问法下的定义:提出问题并引导出答案的方法,有如下的一个或多个目的:

苏格拉底式的问题,可以分为4大类:证据类、视角类、理由类、影响类:

GPT大模型满足通用技术的三个核心标准:随着时间推移,技术不断改进,贯穿整个经济体系,能够催生互补性的创新。

    以上就是本篇文章【《大模型时代-ChatGPT开启通用人工智能浪潮》精华摘抄】的全部内容了,欢迎阅览 ! 文章地址:http://yejunbin01.xhstdz.com/quote/85543.html 
     栏目首页      相关文章      动态      同类文章      热门文章      网站地图      返回首页 物流园资讯移动站 http://yejunbin01.xhstdz.com/mobile/ , 查看更多   
发表评论
0评