2023年人工智能技术进展与挑战全面分析
一、《AI指数》技术性能
今年的《AI指数》报告中的技术性能部分,为我们提供了2023年人工智能进展的全面回顾。该部分从对AI技术性能的宏观概述入手,详细追溯了其随时间的广泛演变历程。章节进一步细致审视了当前多种AI能力的发展现状,涵盖了语言处理、编程、计算机视觉(图像与视频分析)、推理、音频处理、自主代理、机器人技术及强化学习等领域。报告特别强调了过去一年中AI研究的重大突破,并探讨了如何通过提示、优化和微调等方法,进一步提升大型语言模型(LLMs)的性能。
二、 语言处理
2.1. 语言理解
2.1.1. HELM
近年来,大型语言模型(LLMs)在传统英语语言基准测试中的表现已超过人类,例如SQuAD(问题回答)和SuperGLUE(语言理解)。这一迅速的进展促使研究人员感到需要更全面的基准测试来评估这些模型。为此,2022年斯坦福大学的研究人员推出了HELM(Holistic Evaluation of Language Models),这是一种旨在评估大型语言模型在多种场景下的性能的全面评估方法,包括阅读理解、语言理解和数学推理等。
2.1.2. MMLU
Massive Multitask Language Understanding (MMLU) 是一个综合性的基准测试,用于评估大型语言模型(LLM)在零次或少次学习场景下对57个学科领域(包括人文、STEM和社会科学)的理解能力。MMLU已成为评估LLM能力的主要基准之一。
2.2. 语言生成
在生成任务中,人工智能模型被测试其产生流畅和实用语言回应的能力。随着功能强大的大型语言模型(LLM)的崛起,了解普通公众更偏好哪些模型变得日益重要。为此,2023年推出了Chatbot Arena Leaderboard,这是首个综合评估公众对LLM偏好的平台之一。该排行榜允许用户查询两个匿名模型,并为其偏好的生成内容进行投票。
2.3. 事实与真实
尽管取得了显著成就,大型语言模型(LLM)仍容易出现事实不准确和内容幻觉——即创造看似真实但实际上是错误的信息。
2.3.1. TruthfulQA
2022年在ACL会议上引入了TruthfulQA基准,这是一个旨在评估LLM在回答问题时的真实性的基准。该基准包含约800个问题,涵盖38个类别,包括健康、政治和金融等领域。
2.3.2. HaluEval
HaluEval是在2023年引入的一个新的基准测试,专门设计用来评估大型语言模型(LLM)中的幻觉现象。这一基准包含超过35,000个样本,包括幻觉性和正常的,供LLM分析和评估。研究显示,ChatGPT在其回答中大约有19.5%的比例会产生无法验证的信息,这些虚构信息涉及语言、气候和技术等多个主题。此外,该研究还检验了当前LLM在检测幻觉方面的能力。结果表明,许多LLM在执行任务如问答、知识基对话和文本总结等方面存在困难,突显出幻觉是一个重大且持续存在的问题。
三、代码
3.1. 代码生成
在许多编码任务中,人工智能模型面临着生成可用代码或解决计算机科学问题的挑战。
3.1.1. HumanEval
HumanEval是评估人工智能系统编码能力的基准,由OpenAl研究人员于2021年推出。它包含164个具有挑战性的手写编程问题。
3.1.2. SWE-bench
随着人工智能系统的编码能力不断提高,对模型进行更具挑战性任务的基准测试变得越来越重要。2023年10月,研究人员推出了SWE-bench,这是一个包含来自真实GitHub问题和流行的Python仓库的2,294个软件工程问题的数据集。SWE-bench为AI编码能力提供了更为严峻的测试,要求系统在多个函数之间协调更改,与各种执行环境互动,并进行复杂的推理。
四、计算机视觉与图像生成
4.1. 生成
图像生成任务旨在生成与真实图像无法区分的图片。当今的图像生成器已经非常先进,以至于大多数人难以区分由AI生成的图像和真实的人类面孔图像。
4.1.1. HEIM
2023年,斯坦福大学的研究人员引入了“全面评估文本到图像模型”(HEIM)基准,这是一个旨在全面评估图像生成器的基准,涵盖12个关键方面,这些方面对于实际部署至关重要,例如图像与文本的对齐、图像质量和美学等。由于许多自动化指标难以准确评估图像的各个方面,因此采用人类评估员来评价模型,这一点非常关键。
4.2. 指令跟随
在计算机视觉领域,指令跟随是指视觉-语言模型解释与图像相关的基于文本的指令的能力。例如,可以给AI系统一个包含各种食材的图像,并指派它建议如何使用这些食材准备健康餐点。
4.2.1. VisIT-Bench
2023年,一个由产业界和学术界研究人员组成的团队引入了VisIT-Bench,这是一个包含大约70个指令类别的592个挑战性视觉-语言指令的基准测试,如剧情分析、艺术知识和位置理解。
4.3. 图像编辑
EditVal是一个新的基准测试工具,专门用于评估AI在根据文本提示进行图像编辑方面的准确性。该基准涵盖了13种不同的编辑类型,并覆盖了19个对象类别。通过EditVal,研究人员能够对八种主要的文本引导图像编辑方法进行评估,包括SINE和Null-text。
4.3.1. ControlNet
ControlNet 是一种由斯坦福大学的研究人员在2023年引入的新型模型,旨在提高大型文本到图像扩散模型中的条件控制编辑能力。这个模型通过改善对各种条件输入的处理能力,使得生成的图像更好地符合特定的布局、形状和姿态要求。与2022年发布的其他模型相比,ControlNet在图像质量和条件保真度方面都得到了人类评估者的更高评价。
4.3.2. Instruct-NeRF2NeRF
Instruct-NeRF2NeRF 是由伯克利研究人员开发的一种模型,它使用基于图像的扩散模型通过文本指令迭代编辑3D几何形状。该方法能够高效地生成符合文本指示的新编辑图像,并且在保持一致性方面超过了当前的主要方法。
4.4. 图像分割
分割涉及到将单个图像像素分配到特定的类别(例如:人、自行车或街道)。
4.4.1. Segment Anything
在2023年,Meta的研究人员推出了名为“Segment Anything”的项目,该项目特色是Segment Anything Model(SAM)和广泛的SA1B图像分割数据集。SAM模型是首批能够广泛泛化并在新任务和分布上表现出色的零样本学习分割模型之一。在23个分割数据集中,它在16个上超过了当前领先的分割方法,如RITM。评估该模型的指标是平均交并比(IoU)。此外,Segment Anything模型与人类标注者共同用来创建包含超过10亿个分割掩码和1100万张图像的SA-1B数据集。这样一个庞大的新数据集将加速未来图像分割器的训练。
4.5. 图像三维重建
3D图像重建是指从二维图像创建三维数字几何形状的过程。这种类型的重建技术可以应用于医学成像、机器人技术和虚拟现实等领域。
4.5.1. Skoltech3D
数据稀缺常常限制了针对特定任务的人工智能系统的发展。2023年,一个国际研究团队推出了一个名为Skoltech3D的新型大型数据集,用于多视角三维表面重建。该数据集包含了1.4百万张图像,涵盖了107个场景,这些场景从100个不同视点在14种不同照明条件下拍摄,相较于现有的3D重建数据集,这一新数据集代表了一个重大进步。
4.5.2. RealFusion
由牛津大学的研究者开发的RealFusion是一种新方法,能够从单张图片生成完整的3D物体模型,克服了单张图片信息不足以进行全360度重建的挑战。RealFusion利用现有的2D图像生成器产生物体的多个视角,然后将这些视角组合成一个全面的360度模型。与2021年的先进方法(自监督学习)相比,这种技术在广泛的物体范围内提供了更精确的3D重建效果。
五、计算机视觉与视频生成
5.1. 视频生成
视频生成涉及使用人工智能从文本或图像生成视频。
5.1.1. UCF101
UCF101是一个动作识别数据集,包含101种现实动作视频类别。近期,UCF101已被用来作为视频生成器的基准测试。今年的顶尖模型W.A.L.T-XL在FVD16评分上达到了36分,比去年最先进模型的评分降低了一半以上。
5.1.2. Align Your Latents
为了克服现有方法只能创造短时低分辨率视频的限制,一个国际研究团队采用了传统用于生成高质量图像的潜在扩散模型,用以生产高分辨率视频。他们的潜在扩散模型(LDM)在分辨率质量上显著超过了2022年发布的先进方法如长视频生成对抗网络(Long Video GAN,LVG)。将文本到图像的架构调整为创建LDM,这一高效的文本到视频模型,体现了先进AI技术可以跨越不同的计算机视觉领域重新利用的可能性。LDM强大的视频生成能力在现实世界中有许多应用,例如创造逼真的驾驶模拟。
5.1.3. Emu Video
传统上,视频生成的进展因其更高的复杂性和较小的可用训练数据集而落后于图像生成。Meta研究人员创建的新型基于变换器的视频生成模型Emu Video代表了一个重要的进步。Emu Video首先从文本生成图像,然后基于文本和图像创建视频。在比较不同视频生成方法时,Emu Video模型的优越性表现在人类评估者更倾向于选择Emu Video生成的图像质量或对文本指令的忠实度。Emu Video简化了视频生成过程,并标志着高质量视频生成新时代的到来。
六、推理
6.1. 通用推理
通用推理是指人工智能系统能够跨广泛而非特定领域进行推理。例如,作为通用推理挑战的一部分,可能会要求人工智能系统跨多个主题进行推理,而不是执行一个狭窄的任务。
6.1.1. MMMU
近年来,AI系统的推理能力有了显著提升,以至于传统的基准测试如SQuAD(文本推理)和VQA(视觉推理)已经变得饱和,这表明需要更具挑战性的推理测试。为此,美国和加拿大的研究人员最近开发了MMMU,即大规模多学科多模态理解与推理基准测试,用于评估专家级的通用人工智能(AGI)。MMMU包括约11,500个大学级别的问题,涵盖六个核心学科:艺术与设计、商业、科学、健康与医学、人文与社会科学以及技术与工程。问题格式包括图表、地图、表格、化学结构等。MMMU是迄今为止对AI在感知、知识和推理方面最具挑战性的测试之一。
6.1.2. GPQA
GPQA(研究生级别的谷歌防护问答基准)是由纽约大学、Anthropic和Meta的研究人员在去年推出的,用于测试AI的跨学科通用推理能力。这个数据集包含448个难度较大的多项选择题,这些问题无法通过简单的谷歌搜索轻易得到答案。问题由各领域如生物学、物理学和化学的专家精心制作。在GPQA测试中,具有博士学位的专家在各自的领域中的准确率达到了65%,而非专家人类的得分约为34%。表现最好的AI模型,GPT-4,在主测试集上的得分仅为41.0%。这些数据显示了该基准对评估AI在高级推理任务中的性能具有挑战性。
6.1.3. 比较人类、GPT-4和GPT-4V在抽象和推理任务上的表现
抽象推理是使用已知信息来解决不熟悉和新颖问题的能力,这是人类认知的关键方面,即使在幼儿中也很明显。尽管最近的大型语言模型如GPT-4显示了令人印象深刻的性能,但它们进行真正抽象推理的能力仍然是一个热议的话题。为了进一步探讨这个主题,圣达菲研究所的研究人员在ConceptARC基准测试中测试了GPT-4,这是一个收集类比难题的集合,旨在评估一般抽象推理技能。研究显示,GPT-4在抽象推理能力方面明显落后于人类:人类在该基准测试中的得分为95%,而最佳的GPT-4系统仅得分69%。因此,发展真正的通用人工智能需要抽象推理能力,持续追踪这一领域的进展将是重要的。
6.2. 数学推理
数学问题解决基准测试评估人工智能系统进行数学推理的能力。人工智能模型可以通过一系列从小学级别到竞赛标准的数学问题进行测试。
6.2.1. GSM8K
GSM8K是一个包含大约8000个不同的小学数学文字题的数据集,要求人工智能模型使用算术运算开发多步解决方案。GSM8K很快成为评估先进大型语言模型的首选基准。在GSM8K上表现最佳的模型是GPT-4的一个变体(GPT-4代码解释器),其准确率为97%,比上一年的最先进得分提高了4.4%,比2022年该基准首次引入时提高了30.4%。
6.2.2. MATH
MATH是一个由加州大学伯克利分校研究人员在2021年引入的包含12,500个挑战性竞赛级数学问题的数据集。当这个数据集首次发布时,人工智能系统在解决这些问题上表现挣扎,仅能解决6.9%的问题。然而,性能已显著提高。到2023年,基于GPT-4的模型在这个数据集上取得了最好的结果,成功解决了84.3%的问题。
6.2.3. PlanBench
计划系统需要根据给定的目标、初始状态和一系列行动来构建计划。每个行动都由前提条件定义,只有满足这些条件,行动才能执行,并产生相应的效果。系统通过一系列行动来实现从初始状态到达目标。有观点认为,大型语言模型(LLMs)能够解决规划问题。亚利桑那州立大学的一个团队提出了一个名为PlanBench的基准测试套件,包含自动规划社区特别是国际规划竞赛中使用的问题。
6.3. 视觉推理
视觉常识推理(Visual Commonsense Reasoning, VCR)挑战是在2019年引入的,旨在测试AI系统在视觉和文字数据上的常识性视觉推理能力。在这一挑战中,AI系统不仅基于图像回答问题,还需对其答案背后的逻辑进行推理。VCR的表现通过Q->AR分数来衡量,该分数评估机器选择问题正确答案(Q->A)和选择适当答案背后的理由(Q->R)的能力。虽然AI系统在这一任务上尚未超过人类,但它们的能力正在稳步提升。
6.4. 道德推理
随着人工智能(AI)在需要重视伦理考量的领域如医疗和司法系统中的应用日益增加,AI系统具备健全的道德推理能力变得至关重要,这使得它们能够有效地导航并推理关于伦理原则和道德考虑的问题。
6.4.1. MoCa
为了进一步探索这个主题,斯坦福大学的一个研究团队创建了一个新的数据集(MoCa),包含了具有道德元素的人类故事。研究人员随后向这些模型展示了人类行为的故事,并引导模型作出回应,通过离散一致性度量来测量道德一致性:得分越高表明与人类道德判断的一致性越高。研究结果引人深思。虽然没有任何模型能完美匹配人类道德系统,但像GPT-4和Claude这样的更新、更大型的模型与人类的道德情感的一致性更高,而像GPT-3这样的较小模型则相对较低,这表明随着AI模型的扩展,它们与人类的道德一致性正在逐渐增强。
6.5. 因果推理
随着因果推理日益普及,评估人工智能(AI)模型是否不仅能解释其输出,还能更新其结论——因果推理的关键方面,变得十分重要。
6.5.1. BigToM
因果推理评估AI系统理解因果关系的能力。为解决这个问题,2023年研究人员开发了一个名为BigToM的新基准,旨在评估大型语言模型(LLMs)的社会和因果推理能力。BigToM包括25个控制组和5000个模型生成的评估,已被传统的AI研究人员评为优于现有的心理理论(ToM)基准。
6.5.2. Tübingen Cause-Effect Pairs
微软和芝加哥大学的研究人员已经证明,大型语言模型(LLMs)是有效的因果推理者。该团队使用图宾根因果对数据集评估了几种LLMs,包括GPT-4。这一基准包括超过100个因果对,涵盖37个子学科,测试AI系统识别因果关系的能力。GPT-4的表现达到了96%的准确率,比前一年最好的成绩高出13个百分点。值得注意的是,GPT-4的表现超过了以前那些专门为因果推理任务训练的基于协方差的AI模型。此外,研究人员发现某些提示,特别是那些旨在鼓励有益帮助的提示,可以显著增强LLM的因果推理能力。
七、音频
2023年是音频生成领域意义重大的一年,音频生成涉及创建从人类语音到音乐文件的合成音频内容。几个著名的音频生成器(如Uniaudio、MusicGen和MusicLM)的发布突出了这一进步。
7.1. UniAudio
UniAudio是一种高级语言建模技术,用于创建音频内容。UniAudio将所有类型的音频统一标记化,并且像现代大型语言模型(LLMs)一样,采用下一个标记预测来生成高质量的音频。UniAudio能够生成高质量的语音、声音和音乐。在包括文本转语音、语音增强和声音转换等任务中,UniAudio超越了领先的方法。UniAudio拥有10亿参数,训练了165,000小时的音频数据,展示了大数据和自我监督在音乐生成方面的有效性。
7.2. MusicGEN和MusicLM
Meta的MusicGen是一种新型音频生成模型,也利用了在语言模型中常见的变换器架构来生成音频。MusicGen允许用户指定文本来定义期望的音频结果,并可以使用特定的旋律进行微调。在比较研究中,MusicGen在多种生成音乐指标上胜过了其他流行的文本转音乐模型,如Riffusion、Moûsai和MusicLM。它拥有更低的FAD得分,表明音乐生成更具可信度;更低的KL得分,说明与参考音乐的一致性更好;以及更高的CLAP得分,反映了对参考音乐文本描述的更高遵循度。人类评估者也因其整体质量而偏爱MusicGen。
尽管MusicGen在某些指标上超过了年初发布的其他文本到音乐模型,但值得强调的是MusicLM的发布,因为它伴随着MusicCaps的推出,这是一个包含5.5千个音乐-文本对的最先进数据集。MusicGen的研究人员使用MusicCaps来基准测试他们的模型家族的性能。像MusicGen这样的新模型和MusicCaps这样的新音乐到文本基准的出现,突显了生成性AI从语言和图像扩展到音频生成等更多样化的技能模式。
八、Agents
8.1. 通用Agents
8.1.1. AgentBench
AgentBench是一个为评估基于LLM的代理设计的新基准,包括八种不同的交互设置,如网页浏览、在线购物、家庭管理、谜题和数字卡牌游戏。该研究评估了超过25个基于LLM的代理,包括基于OpenAI的GPT-4、Anthropic的Claude 2和Meta的Llama 2等。GPT-4表现为最佳,总体得分为4.01,显著高于Claude 2的2.49分。
8.1.2. Voyageur
最近由Nvidia、加州理工学院、德克萨斯大学奥斯汀分校、斯坦福大学和威斯康星大学麦迪逊分校共同进行的研究表明,现有的大型语言模型如GPT-4可以用来开发能够持续学习的灵活代理。该团队创建了名为Voyager的基于GPT-4的代理,用于Minecraft——这是一个没有固定终点的复杂视频游戏,本质上是一个无边界的虚拟游乐场。Voyager在这个环境中表现出色,能够熟练地记住计划、适应新环境,并转移知识。
8.2. 特定任务Agents
8.2.1. MLAgentBench
MLAgentBench是一个新的基准测试,用于评估人工智能研究代理的性能,特别是测试这些AI代理是否能够从事科学实验。更具体地说,MLAgentBench评估AI系统作为计算机科学研究助理的潜力,跨越15种不同的研究任务评估它们的表现。
九、机器人技术
9.1. PaLM-E
PaLM-E是谷歌开发的一种新型AI模型,结合了机器人技术和语言建模技术,用于处理机器人操作和各类知识任务,如问答和图像描述。该模型使用基于变换器的架构,并在多样化的视觉语言和机器人数据上进行训练,因此在多种机器人基准测试和视觉任务如OK-VQA中表现出色。PaLM-E能进行高级推理和思维链任务,即便在未特别训练的领域也表现突出。它在机器人操作和任务及动作规划(TAMP)方面的表现超过了现有先进模型,显示了语言建模技术在增强非语言领域AI性能的潜力。此外,PaLM-E的开发标志着向创建能在现实世界中互动并协助家务的多功能机器人助手迈出了关键一步。
9.2. RT-2
RT-2是DeepMind发布的一款新型机器人,代表了创建具有某些LLM能力的泛化机器人模型的雄心勃勃的尝试。RT-2采用基于transformer的架构,并在机器人轨迹数据(被标记化为文本)和广泛的视觉语言数据上进行训练。RT-2在调节机器人策略方面表现出色,尤其是在涉及未见过的物体的任务中,其表现超越了如操作开放世界物体(MOO)等最先进模型。在这类任务上,RT-2/PaLM-E变体的成功率达到80%,显著高于MOO的53%。在未见物体任务中,RT-2比去年的最先进模型RT-1提高了43个百分点,显示出机器人在新环境中性能随时间改善的趋势。
十、强化学习
10.1. Reinforcement Learning from Human Feedback (RLHF)
从人类反馈的强化学习(RLHF)自2017年引入以来,在改善像GPT-4和Llama 2等先进语言模型中获得了普及。RLHF将人类反馈融入奖励函数中,使模型能够针对有益性和无害性等特性进行训练。今年,AI指数追踪了使用RLHF作为训练部分的基础模型数量。具体来说,指数团队查阅了CRFM生态系统图中包含的所有模型的技术报告和其他文档,这是最全面的基础模型生态系统仓库之一。从数据来看,2021年没有新发布的基础模型使用RLHF,而到2022年有7个模型报告使用了RLHF,2023年则增至16个。RLHF日益受欢迎的趋势也体现在许多领先的LLMs报告他们通过RLHF改进了模型。
10.2. Reinforcement Learning from AI Feedback (RLAIF)
从人工智能反馈的强化学习(RLAIF)是一个替代方法,它使用基于大型语言模型(LLMs)偏好的强化学习来调整其他AI模型,以克服从人类反馈的强化学习(RLHF)在生成人类偏好数据集以对齐模型时所需的时间和劳动力的限制。最近谷歌的一项研究将RLAIF与传统的黄金标准RLHF进行了比较,以评估RLAIF是否可以作为一种可靠的替代方案。研究发现,在总结和帮助性任务中,RLAIF和RLHF都优于监督式微调(SFT),且两者之间在偏好程度上没有统计学显著差异。值得注意的是,在关注产生最少有害输出的无害对话生成任务中,RLAIF(88%)在有效性上超过了RLHF(76%)。这项研究表明,RLAIF可能是一种更节省资源和成本效益更高的AI模型对齐方法。
10.3. Direct Preference Optimization
虽然RLHF是一种有用的方法,用于将大型语言模型(LLMs)与人类偏好对齐,但它需要大量计算资源,并涉及多个语言模型的训练及在训练循环中整合语言模型政策采样,这种复杂性可能阻碍其更广泛的应用。作为回应,斯坦福大学和CZ Biohub的研究人员开发了一种名为直接偏好优化(DPO)的新的强化学习算法,用于模型对齐。DPO比RLHF简单,但同样有效。研究表明,在诸如总结等任务上,DPO与现有的其他对齐方法,如近端策略优化(PPO)和监督式微调(SFT)一样有效。DPO等技术的出现表明,模型对齐方法正在变得更加直接和易于访问。
十一、LLM改进技术
11.1. Prompting
提示(Prompting)是AI处理流程中的一个重要环节,它涉及向模型提供描述模型应执行任务的自然语言指令。掌握制定有效提示的技巧可以显著提升大型语言模型(LLMs)的性能,而无需对模型本身进行底层改进。
11.1.1. Graph of Thoughts Prompting
思维链(CoT)和思维树(ToT)是可以提升大型语言模型(LLMs)在推理任务上表现的提示方法。2023年,欧洲研究人员引入了另一种提示方法,思维图(GoT),该方法也显示出了潜力。GoT允许LLMs以更灵活的图形结构来模拟其思维过程,这种结构更接近实际人类的推理方式。研究人员随后设计了一种模型架构来实施GoT,并发现与ToT相比,在排序任务上GoT提高了输出质量62%,同时降低了成本约31%。
11.1.2. Optimization by PROmpting (OPRO)
DeepMind的一篇论文介绍了通过提示优化(OPRO)的方法,该方法使用大型语言模型(LLMs)迭代生成提示,以提高算法性能。OPRO利用自然语言指导LLMs基于问题描述和先前的解决方案创建新的提示。这些生成的提示旨在提升AI系统在特定基准测试上的表现。与其他提示方法如“让我们一步步思考”或空白起点相比,OPRO在几乎所有23个BIG-bench Hard任务上都显著提高了准确性。
11.2. Fine-Tuning
微调作为提高大型语言模型(LLMs)性能的方法日益受到欢迎,它涉及在更小的数据集上进一步训练或调整模型。微调不仅提升了模型的整体性能,还增强了模型在特定任务上的能力,并允许对模型行为进行更精确的控制。
11.2.1. QLoRA
QLoRA是华盛顿大学的研究人员在2023年开发的一种新型模型微调方法,显著降低了内存使用率。它能够在单个48 GB GPU上维持完整的16位精度性能,同时微调一个650亿参数的模型。以往,微调一个650亿参数的Llama模型(一个领先的开源大型语言模型)通常需要约780 GB的GPU内存,因此QLoRA的效率提高了近16倍。QLoRA通过采用4位NormalFloat(NF4)、双重量化和页面优化器等技术提升了效率。QLoRA用于训练名为Guanaco的模型,该模型在Vicuna基准测试(一个评估LLM输出的基准)上的表现匹敌甚至超过了如ChatGPT等模型。值得注意的是,Guanaco模型仅在单GPU上微调了24小时便完成。QLoRA突显了优化和进一步改进模型的方法变得更加高效,意味着制造越来越强大的模型所需的资源将会减少。
11.3. Attention
大型语言模型(LLMs)能够灵活处理各种任务,但通常需要大量计算资源进行训练。如前所述,高昂的训练成本可能会阻碍AI的广泛应用。优化方法旨在通过改进内存使用等方式提高AI的效率,从而使LLMs变得更加易于获取和实用。
11.3.1. Flash-Decoding
由斯坦福大学的研究人员开发的Flash-Decoding通过加速注意力机制,特别是在需要处理长序列的任务中,解决了传统大型语言模型(LLMs)的效率问题。它通过并行加载键和值,然后分别重新缩放和组合它们以维持正确的注意力输出来实现这一目标。在各种测试中,Flash-Decoding的表现超过了其他领先方法如PyTorch Eager和FlashAttention-2,显示出更快的推理速度:例如,在256批大小和256序列长度的条件下,Flash-Decoding比PyTorch Eager快48倍,比FlashAttention-2快6倍。在像ChatGPT这样的模型上进行推理每次响应的成本可能为0.01美元,当向数百万用户部署此类模型时,成本可能非常高昂。像Flash-Decoding这样的创新对于降低AI的推理成本至关重要。