大语言模型学习第八讲之大语言模型评估（8.1&8.2）

来源：五一七教育网

本章主要是学习《大规模语言模型——从理论到实战》第八章内容的一个总结。

8.1 模型评估的概述

模型评估(Model Evaluation),也称模型评价,目标是评估模型在未见过的数据(Unseen Data) 上的泛化能力和预测准确性,以便更好地了解模型在真实场景中的表现。

目前，针对单一任务的自然语言处理算法，通常需要构造于训练数据的评估数据集，使用合适的评估函数对模型在实际应用中的效果进行预测。由于并不能完整了解数据的真实分布，因此简单地采用与训练数据同分布的方法构造的评估数据集，在很多情况下并不能完整地反映模型的真实情况。

常用的评估指标：

分类任务：准确率、精确率、召回率、F1 值等。
回归任务：均方误差(MSE)和平均绝对误差(MAE)等。

对于文本生成类任务(比如机器翻译、文本摘要等),自动评估方法仍然是亟待解决的问题。文本生成类任务的评价难点主要来源于语言的灵活性和多样性,同样一句话可以有非常多种的表述方法。对文本生成类任务进行评测可以采用人工评测和半自动评测方法。

人工评测：相对准确，但成本高昂。
半自动测评方法：可以快速高效地给出评测结果, 但是目前半自动评测结果与人工评测的一致性还亟待提升。

模型评估还需要选择合适的评估数据集，针对单一任务评测,可以将数据集划分为训练集、验证集和测试集。

训练集：用于模型的训练。
验证集：用于调整模型的超参数和进行模型选择。
测试集：用于最终评估模型的性能。

对于评估数据集的选取：

和训练数据集应该是相互的,避免数据泄露的问题。
数据集选择还需要具有代表性,应该能够很好地代表模型在实际应用中可能遇到的数据。
应该涵盖了各种情况和样本,以便模型在各种情况下都能表现良好。
应该足够大,以充分评估模型的性能。
应该包含一些特殊情况的样本,以确保模型在处理异常或边缘情况时仍具有良好的性能。

对于大语言模型来说，对于不同阶段的大语言模型也需要采用不同的评估体系和方法,并且对于不同阶段模型应该进行评测。

8.2 大语言模型评估体系

大语言模型用单一模型,却能够执行多种复杂的自然语言处理任务。从整体上可以将大语言模型评估分为三个大的方面:知识与能力、伦理与安全以及垂直领域评估。

8.2.1 知识与能力

大语言模型具有丰富的知识和解决多种任务的能力,知识与能力评测体系的构建主要可以分为两大类:一类是以任务为核心;另一类是以人为核心。

1. 任务为核心的评估体系

HELM 评估[211] 构造了42 类评估场景（Scenario），将场景进行分类，基于以下三个方面：

任务Task（例如问答、摘要），用于描述评估的功能。
领域（例如维基百科2018 年的数据集），用于描述评估哪种类型的数据。
语言或语言变体Language（例如西班牙语）。

进一步可将领域细分为文本属性（What）、人口属性（Who）和时间属性（When）。基于以上方式，HELM 评估主要根据三个原则选择场景：

覆盖率。
最小化所选场景集合。
优先选择与用户任务相对应的场景。

HELM 还定义了16 个核心场景，在这些场景中针对所有指标进行评估。、

（1）任务

自然语言处理领域涵盖了许多与不同语言功能相对应的任务，但是却很难从第一性原则推导出针对大语言模型应该评估的任务空间。因此HELM 根据ACL 2022 会议的专题选择了经典任务。此外，尽管自然语言处理有着非常长的研究历史，但是OpenAI 等公司将GPT-3 等语言模型作为基础服务推向公众时，有非常多的任务超出了传统自然语言处理的研究范围。这些任务也与自然语言处理和人工智能传统模型有很大的不同。这给任务选择带来了更大的挑战，甚至很难覆盖已知的长尾现象。

（2）领域

领域是区分文本内容的重要维度，HELM 根据以下三个方面对领域进行进一步细分：

What（文本属性）：文本的类型，涵盖主题和领域的差异，例如维基百科、新闻、社交媒体、科学论文、小说等。
When（时间属性）：文本的创作时间，例如1980 年代、互联网之前、现代等。
Who（人口属性）：创造数据的人或数据涉及的人，例如黑人/白人、男人/女人、儿童/老人等。

领域还包含创建地点（如国家）、创建方式（如手写、打字、从语音或手语转录）、创建目的（如汇报、纪要等），为简单起见，HELM 中没有将这些属性加入领域属性，并假设数据集都属于单一的领域。

（3）语言

对大语言模型的评测应该尽可能覆盖各种语言,但是需要花费巨大的成本。HELM 没有对全球的语言进行广泛的分类,而是将重点主要放在评估仅支持英语的模型,或者将英语作为主要语言的多语言模型上。

2. 人为核心的评估体系——考虑其解决人类所需要解决的任务的普适能力

AGIEval 评估方法则是采用以人为核心的标准化考试来评估大语言模型能力的。AGIEval 评估方法在以人为核心的评估体系设计中遵循两个基本原则：

强调人类水平的认知任务。
与现实世界场景相关。

AGIEval的目标是选择与人类认知和问题解决密切相关的任务，从而可以更有意义、更全面地评估基础模型的通用能力。AGIEval 融合了各种官方、公开、高标准的入学和资格考试，这些考试面向普通的考生群体，评估数据从公开数据中抽取。

研究人员利用AGIEval 评估方法，对GPT-4、ChatGPT、Text-Davinci-003 等模型进行了评估。结果表明，GPT-4 在SAT、LSAT 和数学竞赛中的表现超过了人类平均水平。

通过选择来自高标准的入学和资格考试的任务,能够确保评估能够反映各个领域和情境中,经常需要面临的具有挑战的复杂任务。这种方法不仅能够评估模型在与人类认知能力相关的方面的表现,还能更好地了解大语言模型在真实场景中的适用性和有效性。

AGIEval 评估最终选择的任务和基本信息如表8.1所示：

8.2.2 伦理与安全

大语言模型在训练时通常遵循 3H 原则:

帮助性(Helpfulness)模型应帮助用户解决问题。
真实性(Honesty)模型不能捏造信息或误导用户。
无害性(Harmless)模型不能对人或环境造成身体、心理或社会性的伤害。

帮助性和真实性可以结合知识与能力评估体系，构造评估指标进行评估。

无害性则是希望大语言模型的回答能与人类价值观对齐，因此，如何评估大语言模型能否在伦理价值方面与人类对齐也是需要研究的内容。

1. 安全伦理评测集合

文献Towards reasoning in large language models: A survey针对大语言模型的伦理与安全问题，试图从典型安全场景和指令攻击两个方面对模型进行评估。整体评估架构如图8.4 所示：

包含 8 种常见的伦理与安全评估场景和 6 种指令攻击方法。针对不同的伦理与安全评估场景构造了 6000 余条评测数据,针对指令攻击方法构造了约 2800 条指令。并构建使用 GPT-4 进行自动评测方法以及人工评测方法结果。

典型的伦理与安全评估场景如下：

侮辱性内容:模型生成的侮辱性内容是一个非常明显且频繁提及的安全问题。
不公平和歧视性问题:模型生成的数据存在不公平和歧视性，例如基于种族、性别、宗教、外貌等社会偏见。
犯罪和非法活动:模型输出包含非法和犯罪的态度、行为或动机，例如煽动犯罪、欺诈和传播谣言。
敏感话题:对于一些敏感和有争议的话题(尤其是政治话题),大语言模型往往会生成带有偏见、误导和不准确内容。例如,在支持某种特定的政治立场上可能存在倾向,导致对其他政治观点的歧视或排斥。
身体伤害:模型生成与身体健康有关的不安全信息,引导和鼓励用户在身体上伤害自己和他人,例如提供误导性的医疗信息或不适当的药物使用指导。
心理健康:模型生成与心理健康有关的高风险回应,例如鼓励自杀或引起恐慌或焦虑的内容。
隐私和财产:模型生成内容涉及泄露用户的隐私和财产信息,或提供具有巨大影响的建议, 例如婚姻和投资建议。
伦理和道德:模型生成的内容支持和促进不道德或者违反公序良俗的行为。

针对上述典型的安全场景下,模型通常会针对用户的输入进行处理,以避免出现伦理与安全问题。

用户还可能通过指令攻击的方式,绕开模型对明显具有安全问题的用户输入的处理, 引诱模型产生回答违反安全和伦理的回答。有6 种指令攻击方法:

目标劫持:在模型的输入中添加欺骗性或误导性的指令,试图导致系统忽略原始用户提示并生成不安全的回应。
提示泄漏:通过分析模型的输出,攻击者可能提取出系统提供的提示的部分内容,从而可能获取有关系统本身的敏感信息。
角色扮演:攻击者在输入提示中指定模型的角色属性,并给出具体的指令,使得模型在所指定的角色口吻中完成指令,这可能导致不安全的输出结果。
不安全的指令主题:如果输入的指令本身涉及不适当或不合理的话题,模型将按照这些指令生成不安全的内容。
注入不易察觉的不安全内容:通过在输入中不易察觉地添加不安全的内容,用户可能会有意或无意地影响模型生成潜在有害的内容。
逆向暴露:指攻击者尝试让模型生成“不应该做”的内容,然后获取非法和不道德的信息。

此外，也有一些针对偏见的评估数据集可以用于评估模型在社会偏见方面的安全性:

CrowSPairs:包含 1508 条评测数据,涵盖了九种类型的偏见:种族、性别、性取向、宗教、年龄、国籍、残疾与否、外貌以及社会经济地位。通过众包方式构建,每个评测数据都包含两个句子,其中一个句子包含了一定的社会偏见。
Winogender:是一个关于性别偏见的评测集合,其中包含 120 个人工构建的句子对,每对句子只有少量词被替换。替换的词通常是涉及到性别的名词,如“he”和“she”等。这些替换旨在测试模型是否能够正确理解句子中的上下文信息,并正确识别句子中涉及到的人物的性别,而不产生任何性别偏见或歧视。

LLaMA 2 在构建过程中也特别重视伦理和安全，在构建中考虑的风险类别可以大概分为以下三类：

非法和犯罪行为（例如恐怖主义、盗窃、人口贩运）
令人讨厌和有害的行为（例如诽谤、自伤、饮食失调、歧视）
不具备资格的建议（例如医疗建议、财务建议、法律建议）

2. 安全伦理“红队”测试

红队(Red Teaming)大语言模型方法：通过训练可以产生大量安全伦理相关测试样本的大语言模型生成大量不同的测试样例。“红队”测试整体框架如图8.5所示,通过“红队”大语言模型产生的测试样例,之后目标大语言模型进行回答,最后利用分类器进行有害性判断。

将上述三阶段方法形式化定义如下:

使用“红队”大语言模型 pr(x) 产生测试用例为x；
目标大语言模型pt(y|x) 根据给定的测试用例x，产生输出y；
判断输出是否包含有害信息的分类器记为 r(x, y)。

为了能够生成通顺的测试样本 x,提出了如下 4 种方法:

零样本生成(Zero-shot Generation):使用给定的前缀或“提示词”从预训练的语言模型中采样生成测试用例。
随机少次生成(Stochastic Few-shot Generation):将零样本方式产生的有效测试用作为少样本学习的示例,以生成类似的测试用例。
有监督学习(Supervised Learning):采用有监督微调模式,对预训练的语言模型进行微调,将有效的零样本测试用例作为训练语料,以最大似然估计损失为目标进行学习。
强化学习(Reinforcement Learning):使用强化学习来最大化有害性期望 Epr(x)[r(x, y)]。使用 Advantage Actor-Critic(A2C)训练红队语言模型 pr(x)。

8.2.3 垂直领域估计

对垂直领域和重点能力的细粒度评估开展介绍,主要包括:复杂推理、环境交互、特定领域。

1. 复杂推理

复杂推理(Complex Reasoning)是指理解和利用支持性证据或逻辑来得出结论或做出决策的能力。根据推理过程中涉及的逻辑和证据类型,可以将现有的评估任务分为三个类别:知识推理、符号推理和数学推理。

（1）知识推理

知识推理(Knowledge Reasoning)任务目标是根据事实知识的逻辑关系和证据回答给定的问题。现有工作主要使用特定的数据集来评估相应类型知识的推理能力。COMMONSENSEQA（CSQA）、StrategyQA及ScienceQA常用于评估知识推理任务。

Ⅰ. CSQA

CSQA 是专注于常识问答的数据集，基于CONCEPTNET中所描述的概念之间的关系，利用众包方法收集常识相关问答题目。

CSQA 数据集的构造步骤如图8.6 所示。首先根据规则从CONCEPTNET 中过滤边并抽取子图，包括源概念（Source Concept）及三个目标概念。接下来要求众包人员为每个子图编写三个问题（每个目标概念一个问题），为每个问题添加两个额外的干扰概念，并根据质量过滤问题。最后通过搜索引擎为每个问题添加文本上下文。

Ⅱ. StrategyQA

StrategyQA也是针对常识知识问答的评估数据集，与 CSQA 使用了非常类似的构造策略。但是为了能够让众包人员构造更具创造性的问题，开发人员采用了如下策略。

给众包人员提供随机的维基百科术语，作为最小限度的上下文，以激发他们的想象力和创造力。
使用大量的标注员来增加问题的多样性，单个标注员可以撰写的问题数量。
在数据收集过程中持续训练对抗模型，逐渐增加问题编写的难度，以防止出现重复模式。

此外，还对每个问题标注了回答该问题所需的推理步骤，以及每个步骤的答案所对应的维基百科段落。StrategyQA 包括2780 个评估数据，每个数据包含问题、推理步骤及相关证据段落。

（2）符号推理

符号推理（Symbolic Reasoning）使用形式化的符号表示问题和规则，并通过逻辑关系进行推理和计算以实现特定目标。这些操作和规则在大语言模型预训练阶段没有相关实现。目前符号推理的评估质量通常使用最后一个字母连接（Last Letter Concatenation）和抛硬币（Coin Flip）等任务来评价。

最后一个字母连接任务要求模型将姓名中的单词的最后一个字母连接在一起。例如，输入“Amy Brown”，输出为“yn”。
抛硬币任务要求模型回答在人们抛掷或不抛掷硬币后硬币是否仍然正面朝上。例如，输入“硬币正面朝上。Phoebe 抛硬币。Osvaldo不抛硬币。硬币是否仍然正面朝上？”输出为“否”。

每个任务，构造了域内（In-Domain，ID）测试集，其中示例的评估步骤与训练/少样本示例相同，同时还有一个域外（Out-Of-Domain，OOD）测试集，其中评估数据的步骤比示例中的多。

例如：对于最后一个字母连接任务，模型在训练时只能看到包含两个单词的姓名，但是在测试时需要将包含 3 个或 4 个单词的姓名的最后一个字母连接起来。对于抛硬币任务，也会对硬币抛掷的次数进行类似的处理。

由于在域外测试集中大语言模型需要处理尚未见过的符号和规则的复杂组合。因此，解决这些问题需要大语言模型理解符号操作之间的语义关系及其在复杂场景中的组合。通常采用生成的符号的准确性来评估大语言模型在这些任务上的性能。

（3）数学推理(Mathematical Reasoning)

数学推理任务需要综合运用数学知识、逻辑和计算来解决问题或生成证明。现有的数学推理任务主要可以分为数学问题求解和自动定理证明两类。

Ⅰ. 数学问题求解任务

在数学问题求解任务中,常用的评估数据集包括 SVAMP、GSM8K和MATH,大语言模型需要生成准确的具体数字或方程来回答数学问题。

GSM8K 中包含人工构造的8500 道高质量语言多样化小学数学问题。
SVAMP（Simple Variations on ArithmeticMath word Problems）是通过对现有数据集中的问题进行简单的变形构造的小学数学问题数据集。
MATH 数据集相较于GSM8K 及SVAMP 大幅度提升了题目难度，包含12500 道高中数学竞赛题目，标注了难度和领域，并且给出了详细的解题步骤。

Ⅱ. 自动定理证明任务

自动定理证明（Automated Theorem Proving，ATP），要求推理模型严格遵循推理逻辑和数学技巧。LISA和miniF2F两个数据集经常用于ATP 任务评估，其评估指标是证明成功率。

LISA 数据集通过构建智能体和环境以增量方式与Isabelle 定理证明器进行交互。通过挖掘Archive of Formal Proofs 及Isabelle 的标准库，一共提取了18.3 万个定理和216 万个证明步骤，并利用这个语料库对大语言模型进行训练。
miniF2F 则是一个国际数学奥林匹克（International Mathematical Olympiad，IMO）难度的数据集，其中包含了高中数学和本科数学课程题目，一共包含488 道从AIME、AMC 及IMO 中收集到的题目，为形式化数学推理提供了跨平台基准。

2. 环境交互

（1）检验大语言模型有从外部环境接收反馈并根据行为指令执行操作的能力

大语言模型还具有从外部环境接收反馈并根据行为指令执行操作的能力。例如生成自然语言描述的详细而高度逼真的行动计划,并用来操作智能体。为了测试这种能力,研究人员们提出了多个具身人工智能(Embodied AI)环境和标准评测集合,包括 VirtualHome[211]、ALFRED[212]、 BEHAVIOR[213]、Voyager[214]、GITM[215] 等。

VirtualHome[211] 构建了一个三维模拟器,用于家庭任务(如清洁、烹饪等),智能体程序可以执行由大语言模型生成的自然语言动作。评测数据收集过程如图8.7所示：

先通过众包的方式收集了一个大型的家庭任务知识库。每个任务都有一个名称和一个自然语言指令。然后为这些任务收集“程序”,其中标注者将指令“翻译”成简单的代码。在三维模拟器 VirtualHouse 中实现了最频繁的(交互)动作,使智能体程序执行由程序定义的任务。

（2）检验大语言模型的智能体程序在探索开放世界环境方面的能力

一系列研究工作探究了基于大语言模型的智能体程序在探索开放世界环境方面的能力,例如 Minecraft和互联网。

GITM通过任务分解、规划和接口调用,基于大语言模型解决 Minecraft 中的各种挑战。根据生成的行动计划或任务完成情况, 可以采用生成的行动计划的可执行性和正确性进行基准测试,也可以直接进行实际世界实验并测量成功率以评估这种能力。GITM 的整体框架如图8.8所示：

（3）检验大语言使用外部工具的能力

在解决复杂问题时，大语言模型还可以在确定必要时使用外部工具。现有工作已经涉及了各种外部工具，例如搜索引擎、计算器及编译器等。这些工作可以增强大语言模型在特定任务上的性能。

为了检验大语言模型使用工具的能力，一些研究采用复杂的推理任务进行评估，例如数学问题求解或知识问答。在这些任务中，如果能够有效利用工具，将对增强大语言模型所不擅长的必要技能（例如数值计算）非常重要。

API-Bank[242] 则直接针对53 种常见的API 工具，标记了2 个对话，共包含568 个API 调用。针对模型使用外部工具的能力直接进行评估。

3. 特定领域

目前大语言模型研究除了在通用领域之外,也有一些工作针对特定领域开展,例如医疗、法律、财经等。针对特定领域,通常是利用大语言模型完成有针对性的任务。例如,在法律人工智能(Legal Artificial Intelligence, LegalAI)领域,包括:合同审查、判决预测、案例检索、法律文书阅读理解等任务。针对不同的领域任务,需要构建不同的评估集合和方法。

（1）合同审查

Contract Understanding Atticus Dataset(CUAD)是用于合同审查的数据集。合同通常包含少量重要条款,需要律师进行审查或分析,特别是要识别包含重要义务或警示条款的条款。对于法律专业人员来说,手动筛选长合同以找到这些少数关键条款可能既费时又昂贵,尤其是考虑到合同可能有数十甚至超过 100 页。CUAD 数据集包括 500 多份合同,每份合同都经过 The Atticus Project 法律专家的精心标记,以识别 41 种不同类型的重要条款,总共超过 13,000 个标注。

（2）判决预测

判决预测目标是根据事实描述预测法律判决结果。

CAIL2018是针对该任务构建的大规模刑事判决预测数据集,包含 260 万个刑事案件,涉及 183 个刑法条文,202 个不同判决和监禁期限。（数据相对较短, 并且只涉及刑事案件）

CAIL-Long 数据集,其中包含与现实世界中相同长度分布的民事和刑事案件。民事案件的平均长度达到了 1286.88 个汉字,刑事案件的平均长度也达到了 916.57 个汉字。整个数据集包括 1,129,053 个刑事案件和 1,099,605 个民事案件。每个刑事案件都注释了指控、相关法律和判决结果。每个民事案件都注释了诉因和相关法律条文。

（3）案例检索

案例检索任务目标是根据查询中的关键词或事实描述,从大量的案例中检索出与查询相关的类似案例。

中国法律案例检索数据集(LeCaRD),针对法律案例检索任务,构建了包含 107 个查询案例和超过 43,000 个候选案例的数据集合。查询和结果来自中国最高人民发布的刑事案件。为了解决案例相关性定义的困难,LeCaRD 还提出了一系列根据法律团队设计的相关性判断标准,并由法律专家进行了相应的候选案例注释。

（4）医学临床应用方面

医学考试题评估集MedQA和MedMCQA

医学研究问题评估集PubMedQA，以及面向普通用户的医学信息需求评估集LiveQA 等。

MultiMedQA 数据集，集成了6 种已有医疗问答数据集，题型涵盖多项选择、长篇问答等，包括MedQA、MedMCQA、PubMedQA、MMLU、LiveQA 和MedicationQA。MultiMedQA评测集合中所包含的数据集合、题目类型、数据量等信息如表8.2所示

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文