本章主要是学习《大规模语言模型——从理论到实战》第八章内容的一个总结。
模型评估(Model Evaluation),也称模型评价,目标是评估模型在未见过的数据(Unseen Data) 上的泛化能力和预测准确性,以便更好地了解模型在真实场景中的表现。
目前,针对单一任务的自然语言处理算法,通常需要构造于训练数据的评估数据集,使用合适的评估函数对模型在实际应用中的效果进行预测。由于并不能完整了解数据的真实分布,因此简单地采用与训练数据同分布的方法构造的评估数据集,在很多情况下并不能完整地反映模型的真实情况。
常用的评估指标:
对于文本生成类任务(比如机器翻译、文本摘要等),自动评估方法仍然是亟待解决的问题。文本生成类任务的评价难点主要来源于语言的灵活性和多样性,同样一句话可以有非常多种 的表述方法。对文本生成类任务进行评测可以采用人工评测和半自动评测方法。
模型评估还需要选择合适的评估数据集,针对单一任务评测,可以将数据集划分为训练集、验 证集和测试集。
对于评估数据集的选取:
对于大语言模型来说,对于不同阶段的大语言模型也需 要采用不同的评估体系和方法,并且对于不同阶段模型应该进行评测。
大语言模型用单一模型,却能够执行多种复杂的自然语言处理任务。从整体上可以将大语言模型评估分为三个大的方面:知识与能力、伦理与安全以及垂直领域评估。
大语言模型具有丰富的知识和解决多种任务的能力,知识与能力评测体系的构建主要可以分为两大类:一类是以任务为核心;另一类是以人为核心。
HELM 评估[211] 构造了42 类评估场景(Scenario),将场景进行分类,基于以下三个方面:
进一步可将领域细分为文本属性(What)、人口属性(Who)和时间属性(When)。基于以上方式,HELM 评估主要根据三个原则选择场景:
HELM 还定义了16 个核心场景,在这些场景中针对所有指标进行评估。、
(1)任务
自然语言处理领域涵盖了许多与不同语言功能相对应的任务,但是却很难从第一性原则推导出针对大语言模型应该评估的任务空间。因此HELM 根据ACL 2022 会议的专题选择了经典任务。此外,尽管自然语言处理有着非常长的研究历史,但是OpenAI 等公司将GPT-3 等语言模型作为基础服务推向公众时,有非常多的任务超出了传统自然语言处理的研究范围。这些任务也与自然语言处理和人工智能传统模型有很大的不同。这给任务选择带来了更大的挑战,甚至很难覆盖已知的长尾现象。
(2)领域
领域是区分文本内容的重要维度,HELM 根据以下三个方面对领域进行进一步细分:
领域还包含创建地点(如国家)、创建方式(如手写、打字、从语音或手语转录)、创建目的(如汇报、纪要等),为简单起见,HELM 中没有将这些属性加入领域属性,并假设数据集都属于单一的领域。
(3)语言
对大语言模型的评测应该尽可能覆盖各种语言,但是需要花费巨大的成本。HELM 没有对全球的语言进行广泛的分类,而是将重点主要放在评估仅支持英语的 模型,或者将英语作为主要语言的多语言模型上。
AGIEval 评估方法则是采用以人为核心的标准化考试来评估大语言模型能力的。AGIEval 评估方法在以人为核心的评估体系设计中遵循两个基本原则:
AGIEval的目标是选择与人类认知和问题解决密切相关的任务,从而可以更有意义、更全面地评估基础模型的通用能力。AGIEval 融合了各种官方、公开、高标准的入学和资格考试,这些考试面向普通的考生群体,评估数据从公开数据中抽取。
研究人员利用AGIEval 评估方法,对GPT-4、ChatGPT、Text-Davinci-003 等模型进行了评估。结果表明,GPT-4 在SAT、LSAT 和数学竞赛中的表现超过了人类平均水平。
通过选择来自高标准的入学和资格考试的任务,能够确保评估能够反映各个领域和情境中,经常需要面临的具有挑战的复杂任务。这种方法不仅能够评估模型在与人类认知能力相关的方面的表现,还能更好地了解大语言模型在真实场景中的适用性和有效性。
AGIEval 评估 最终选择的任务和基本信息如表8.1所示:
大语言模型在训练时通常遵循 3H 原则:
帮助性和真实性可以结合知识与能力评估体系,构造评估指标进行评估。
无害性则是希望大语言模型的回答能与人类价值观对齐,因此,如何评估大语言模型能否在伦理价值方面与人类对齐也是需要研究的内容。
文献Towards reasoning in large language models: A survey针对大语言模型的伦理与安全问题,试图从典型安全场景和指令攻击两个方面对模型进行评估。整体评估架构如图8.4 所示:
包含 8 种常见的伦理与安全评估场景和 6 种指令攻击方法。 针对不同的伦理与安全评估场景构造了 6000 余条评测数据,针对指令攻击方法构造了约 2800 条 指令。并构建使用 GPT-4 进行自动评测方法以及人工评测方法结果。
典型的伦理与安全评估场景如下:
针对上述典型的安全场景下,模型通常会针对用户的输入进行处理,以避免出现伦理与安全问题。
用户还可能通过指令攻击的方式,绕开模型对明显具有安全问题的用户输入的处理, 引诱模型产生回答违反安全和伦理的回答。有6 种指令攻击方法:
此外,也有一些针对偏见的评估数据集可以用于评估模型在社会偏见方面的安全性:
LLaMA 2 在构建过程中也特别重视伦理和安全,在构建中考虑的风险类别可以大概分为以下三类:
红队(Red Teaming)大语言模型方法:通过训练可以产生大量安全伦理相关测试样本的大语言模型生成大量不同的测试样例。“红队”测试整体框架如图8.5所示,通过“红队”大语言模型产生的测试样例,之后目标大语言模型进行回答,最后利用分类器进行有害性判断。
将上述三阶段方法形式化定义如下:
为了能够生成通顺的测试样本 x,提出了如下 4 种方法:
对垂直领域和重点 能力的细粒度评估开展介绍,主要包括:复杂推理、环境交互、特定领域。
复杂推理(Complex Reasoning)是指理解和利用支持性证据或逻辑来得出结论或做出决策的能 力。根据推理过程中涉及的逻辑和证据类型,可以将现有的评估任务分为三个类别:知识推理、符号推理和数学推理。
知识推理(Knowledge Reasoning)任务目标是根据事实知识的逻辑关系和证据回答给定的问题。现有工作主要使用特定的数据集来评估相应类型知识的推理能力。COMMONSENSEQA(CSQA)、StrategyQA及ScienceQA常用于评估知识推理任务。
CSQA 是专注于常识问答的数据集,基于CONCEPTNET中所描述的概念之间的关系,利用众包方法收集常识相关问答题目。
CSQA 数据集的构造步骤如图8.6 所示。首先根据规则从CONCEPTNET 中过滤边并抽取子图,包括源概念(Source Concept)及三个目标概念。接下来要求众包人员为每个子图编写三个问题(每个目标概念一个问题),为每个问题添加两个额外的干扰概念,并根据质量过滤问题。最后通过搜索引擎为每个问题添加文本上下文。
StrategyQA也是针对常识知识问答的评估数据集,与 CSQA 使用了非常类似的构造策略。但是为了能够让众包人员构造更具创造性的问题,开发人员采用了如下策略。
此外,还对每个问题标注了回答该问题所需的推理步骤,以及每个步骤的答案所对应的维基百科段落。StrategyQA 包括2780 个评估数据,每个数据包含问题、推理步骤及相关证据段落。
符号推理(Symbolic Reasoning)使用形式化的符号表示问题和规则,并通过逻辑关系进行推理和计算以实现特定目标。这些操作和规则在大语言模型预训练阶段没有相关实现。目前符号推理的评估质量通常使用最后一个字母连接(Last Letter Concatenation)和抛硬币(Coin Flip)等任务来评价。
每个任务,构造了域内(In-Domain,ID)测试集,其中示例的评估步骤与训练/少样本示例相同,同时还有一个域外(Out-Of-Domain,OOD)测试集,其中评估数据的步骤比示例中的多。
例如:对于最后一个字母连接任务,模型在训练时只能看到包含两个单词的姓名,但是在测试时需要将包含 3 个或 4 个单词的姓名的最后一个字母连接起来。对于抛硬币任务,也会对硬币抛掷的次数进行类似的处理。
由于在域外测试集中大语言模型需要处理尚未见过的符号和规则的复杂组合。因此,解决这些问题需要大语言模型理解符号操作之间的语义关系及其在复杂场景中的组合。通常采用生成的符号的准确性来评估大语言模型在这些任务上的性能。
(3) 数学推理(Mathematical Reasoning)
数学推理任务需要综合运用数学知识、逻辑和计算来解决问题或生成证明。现有的数学推理任务主要可以分为数学问题求解和自动定理证明两类。
在数学问题求解任务中,常用的评估数据集包括 SVAMP、GSM8K和MATH,大语言模型需要生成准确的具体数字或方程来回答数学问题。
自动定理证明(Automated Theorem Proving,ATP),要求推理模型严格遵循推理逻辑和数学技巧。LISA和miniF2F两个数据集经常用于ATP 任务评估,其评估指标是证明成功率。
大语言模型还具有从外部环境接收反馈并根据行为指令执行操作的能力。例如生成自然语言 描述的详细而高度逼真的行动计划,并用来操作智能体。为了测试这种能力,研究人员们提 出了多个具身人工智能(Embodied AI)环境和标准评测集合,包括 VirtualHome[211]、ALFRED[212]、 BEHAVIOR[213]、Voyager[214]、GITM[215] 等。
VirtualHome[211] 构建了一个三维模拟器,用于家庭任务(如清洁、烹饪等),智能体程序可以执行由大语言模型生成的自然语言动作。评测数据收集过程如图8.7所示:
先通过众包的方式收集了一个大型的家庭任务知识库。每个任务都有一个名称和一个自然语言指令。然后为这些任务收集“程序”,其中标注者将指令“翻译”成简单的代码。在三维模拟器 VirtualHouse 中实现了最频繁的(交互)动作,使智能体程序执行由程序定义的任务。
一系列研究工作探究了基于大语言模型的智能体程序在探索开放世界环境方面的能力,例如 Minecraft和互联网。
GITM通过任务分解、规划和接口调用,基于大语言模型解决 Minecraft 中的各种挑战。根据生成的行动计划或任务完成情况, 可以采用生成的行动计划的可执行性和正确性进行基准测试,也可以直接进行实际世界实验并测量成功率以评估这种能力。GITM 的整体框架如图8.8所示:
在解决复杂问题时,大语言模型还可以在确定必要时使用外部工具。现有工作已经涉及了各种外部工具,例如搜索引擎、计算器及编译器等。这些工作可以增强大语言模型在特定任务上的性能。
为了检验大语言模型使用工具的能力,一些研究采用复杂的推理任务进行评估,例如数学问题求解或知识问答。在这些任务中,如果能够有效利用工具,将对增强大语言模型所不擅长的必要技能(例如数值计算)非常重要。
API-Bank[242] 则直接针对53 种常见的API 工具,标记了2 个对话,共包含568 个API 调用。针对模型使用外部工具的能力直接进行评估。
目前大语言模型研究除了在通用领域之外,也有一些工作针对特定领域开展,例如医疗、法 律、财经等。针对特定领域,通常是利用大语言模型完成有针对性的任务。例如,在法律人工智能(Legal Artificial Intelligence, LegalAI)领域,包括:合同审查、判决预测、案例检索、法律文书阅读理解等任务。针对不同的 领域任务,需要构建不同的评估集合和方法。
Contract Understanding Atticus Dataset(CUAD)是用于合同审查的数据集。合同通常包含 少量重要条款,需要律师进行审查或分析,特别是要识别包含重要义务或警示条款的条款。对于法律专业人员来说,手动筛选长合同以找到这些少数关键条款可能既费时又昂贵,尤其是考虑到合同可能有数十甚至超过 100 页。CUAD 数据集包括 500 多份合同,每份合同都经过 The Atticus Project 法律专家的精心标记,以识别 41 种不同类型的重要条款,总共超过 13,000 个标注。
判决预测目标是根据事实描述预测法律判决结果。
CAIL2018是针对该任务构建的大规模刑事判决预测数据集,包含 260 万个刑事案件,涉及 183 个刑法条文,202 个不同判决和监禁期限。(数据相对较短, 并且只涉及刑事案件)
CAIL-Long 数据集,其中包含与现实世界中相同长度分布的民事和刑事案件。民事案件的平均长度达到了 1286.88 个汉字,刑事案件的平均长度也达到 了 916.57 个汉字。整个数据集包括 1,129,053 个刑事案件和 1,099,605 个民事案件。每个刑事案件 都注释了指控、相关法律和判决结果。每个民事案件都注释了诉因和相关法律条文。
案例检索任务目标是根据查询中的关键词或事实描述,从大量的案例中检索出与查询相关的类似案例。
中国法律案例检索数据集(LeCaRD),针对法律案例检索任务,构建了包含 107 个查询案例和超过 43,000 个候选案例的数据集合。查询和结果来自中国最高人民发布的刑事案件。为了解决案例相关性定义的困难,LeCaRD 还提出了一系列根据法律团队设计的相关性判断标准,并由法律专家进行了相应的候选案例注释。
医学考试题评估集MedQA和MedMCQA
医学研究问题评估集PubMedQA,以及面向普通用户的医学信息需求评估集LiveQA 等。
MultiMedQA 数据集,集成了6 种已有医疗问答数据集,题型涵盖多项选择、长篇问答等,包括MedQA、MedMCQA、PubMedQA、MMLU、LiveQA 和MedicationQA。MultiMedQA评测集合中所包含的数据集合、题目类型、数据量等信息如表8.2所示
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- 517ttc.cn 版权所有 赣ICP备2024042791号-8
违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务