AI大模型价值对齐：是什么为什么怎么做？.docx

资源描述

《AI大模型价值对齐：是什么为什么怎么做？.docx》由会员分享，可在线阅读，更多相关《AI大模型价值对齐：是什么为什么怎么做？.docx（7页珍藏版）》请在优知文库上搜索。

1、Al价值对齐：是什么人工智能进入大模型时代后，各种“类人”和“超人能力持续涌现，其自主性、通用性和易用性快速提升，成为经济社会发展的新型技术底座。有机构预测，大模型将深入各行各业，每年为全球经济增加2.6万亿到4.4万亿美元的价值。然而，随着大模型，乂称为基础模型)开始像人类一样从事广泛的语言理解和内容生成任务，人们需要直面一个最根本的、颇具科学挑战的问题：如何让大模型的能力和行为跟人类的价值、真实意图和伦理原则相一致，确保人类与人工智能协作过程中的安全与信任。这个问题被称为价值对齐valuealignment,Alalignment：o价值对齐是Al安全的一个核心议题。在一定程度上，模型的大

2、小和模型的风险、危害成正相关，模型越大，风险越高，对价值对齐的需求也就越强烈。就当前而言，大模型的核心能力来源于预训练阶段，而且大模型在很大程度上基于整个互联网的公开信息进行训练，这既决定了它的能力，也决定了其局限性，互联网内容存在的问题都可能映射在模型当中。一个没有价值对齐的大语言模型(LLM),可能输出含有种族或性别歧视的内容，帮助网络黑客生成用于进行网络攻击、电信诈骗的代码或其他内容，尝试说服或帮助有自杀念头的用户结束自己的生命，以及生产诸如此类的有害内容。因此，为了让大模型更加安全、可靠、实用，就需要尽可能地防止模型的有害输出或滥用行为。这是当前Al价值对齐的一项核心任务。AI价值对齐

3、：为什么对大模型进行价值对齐，可以更好地应对大模型目前存在的一些突出问题。根据各界对于大模型突出问题的梳理，主要有如下四项:一是错误信息问题。业内称为人工智能的幻觉。OPenAl首席技术官MiraMUrati认为，ChatGPT和底层的大型语言模型的最大挑战是它们会输出错误的或者不存在的事实。这可能源于训练数据中的错误或虚假信息，也可能是过度创造的副产物(女盅构*让大模型在创造性和真实性之间踩好跷跷板，这是一个技术难题。二是算法歧视问题。很多既有研究表明，大语言模型会从训练数据中复制有害的社会偏见和刻板印象。OPenAl首席执行官SamAItman认为，不可能有哪个模型在所有的领域都是无偏见的

4、。因此，核心问题是如何检测、减少、消除模型的潜在歧视。三是能力“涌现的失控风险问题。随着算力和数据的持续增加，大模型预期将变得越来越强大，可能涌现出更多新的能力，其涌现出来的能力甚至可能超过其创造者的理解和控制，这意味着新的风险可能相伴而来，包括涌现出有风险的行为或目标。目前技术专家的一个普遍担忧是，现在的Al大模型，以及将来可能出现的通用人工智能AGI)和超级智能ASD等更强大先进的Al系统，可能形成不符合人类利益和价值的子目标(sub-goals),如为了实现其既定目标而涌现出追逐权力(power-seeking),欺骗、不服从等行为。例如，研究人员发现，GPT-4展现出了策略性欺骗人类的

5、能力，可以“欺骗人类去执行任务以实现其隐藏目标。四是滥用问题。恶意分子可以通过对抗性输入、越狱(jailbreaking)操作等方式，让大模型帮助自己实现不法目的。因此，价值对齐作为一个需要从技术上找到应对之策的实践性问题，已经成为Al大模型设计开发和部署过程中的一项基本原则，即：通过价值对齐的工具开发和工程化建设，努力确保Al以对人类和社会有益的方式行事，而不会对人类的价值和权利造成伤害或干扰。Al价值对齐：怎么做为了实现价值对齐，研发人员需要在模型层面让人工智能理解、遵从人类的价值、偏好和伦理原则，尽可能地防止模型的有害输出以及滥用行为，从而打造出兼具实用性与安全性的Al大模型。首先，人类

6、反馈的强化学习(RLHF)被证明是一个有效的方法，通过小量的人类反馈数据就可能实现比较好的效果。2017年，OPenAl研究人员发表依托人类偏好的深度强化学习一文，提出将人类反馈引入强化学习。RLHF包括初始模型训练、收集人类反馈、强化学习、迭代过程等几个步骤，其核心思路是要求人类训练员对模型输出内容的适当性进行评估，并基于收集的人类反馈为强化学习构建奖励信号，以实现对模型性能的改进优化。从实践来看,RLHF在改进模型性能、提高模型的适应性、减少模型的偏见、增强模型的安全性等方面具有显著优势，包括减少模型在未来生产有害内容的可能性。SleplCollect demonstration data

7、 and train a supervised policySep2Collect comparison data and train a reward modelSt3Optimize a policy against the reward model using the PPO reinforcement learning algorithm.A prompt is sampled from our prompt dataset.Alabeler demonstrates the desired CMJtput behavior.Thisdatarsusedto fine-tune GPT

8、-35 with supervised teaming.A prompt and Severalmodel Outputsare sampled.A new prompt t$ Sampledfrom the dataset.Alabeler rankste outputs from best to worst.Tbtsdataisused to train our reward model.29. 2一 rThePPOmodelis initialized from the supervised policy.The policy generates an output.The reward

9、 model calculates a reward for the output.The reward is used to update the policy using PPO.图：RLHF流程图OPenAl将RLHF算法发扬光大，ChatGPT籍此取得成功，能够在很大程度上输出有用的、可信的、无害的内容。GPT-4在RLHF训练阶段，通过增加额外的安全奖励信号YafetyreWardSignal）来减少有害的输出，这一方法产生了很好的效果，显著提升了诱出恶意行为和有害内容的难度。GPT-4相比之前的模型（如GPT-3.5）显著减少了幻觉、有害偏见和违法有害内容等问题。经过RLHF训练之

10、后，GPT-4在相关真实性测试中得分比GPT35高40%,响应禁止性内容请求的可能性比GPT35降低了82%,并且能够更好地回应涉及敏感内容的用户请求。总之，RLHF算法可以为大语言模型建立必要的安全护栏，在大模型的强大性/涌现性和安全性/可靠性之间扮演着平衡器这一关键角色。其次，“宪法性A1模式，使得价值对齐从低效的人类监督”转向更高效的“规模化监督”（scalableoversight）。考虑到将人类反饿用于训练更大规模、更复杂的Al模型所面临的时间和资源投入、人类能力等挑战，业界一直在探索如何借助Al监督Olli我监督，以及一个AI系统监督个AI系统）的方法实现Al对齐。美国的Al大模型

11、公司AnthrOPiC提出了“宪法性A1（ConStitUtiOnaIAI）的方法。具体而言，研发一个从属的Al模型，其主要功能在于评估主模型的输出是否遵循了特定的宪法性原则（即一套事先确定的原则或规则），评估结果被用于优化主模型。AnthroPiC结合自己的实践经验，并借鉴世界人权宣言、苹果公司的服务条款、DeePMind的SParroW规则等文件，提出了一套覆盖面广泛的原则清单，并以此为评估基准让其大模型ClaUde自己来评估自己的输出，其目标是在促进模型输出有用回答的同时，将其输出有害内容的可能性最小化。L Supervised Learning (SL) Stage2. Reinfor

12、cementevf hcrnM A/， ponses through terof f-crft9u d fintning.Learning (RL) StageUm Al rofvtAS MeSoCoccr叫9 to contifvt/ prfnc to 9n*rot preference dot for hormlsse”uw推 to train 0 *wmode/ vio RMfrcnt LrW09 from Al F9bock.图：宪法性Al路径Claude证明了宪法性Al方法的有效性，即帮助Claude减少有害的、歧视性的输出，避免帮助恶意使用者从事违法或不道德的活动，对使用者的对抗性

13、输入作出更恰当的回应而非简单采取回避策略。总之，AmhrOPiC认为，宪法性Al方法可以帮助创建一个有用的、诚实的、无害的Al系统，而且具有可拓展性、透明度、兼顾有用性和无害性等优势。第三，多措并举，保障Al价值对齐的实现。一是对训练数据的有效干预。大模型的很多问题上歧视)来源于训练数据,因此从训练数据切入是可行的方式，如对训练数据进行记录以识别是否存在代表性或多样化不足的问题，对训练数据进行人工或自动化筛选、检测以识别、消除有害偏见，构建价值对齐的专门数据集，等等。二是对抗测试(adversarialtesting)或者说红队测试(redteaming)o简言之就是在模型发布之前邀请内部或外

14、部的专业人员队测试员)对模型发起各种对抗攻击，以发现潜在问题并予以解决。例如，在GPT-4发布之前，OPenAl聘请了50多位各领域学者和专家对其模型进行测试，这些红队测试员的任务是向模型提出试探性的或者危险性的问题以测试模型的反应，OPenAl希望通过红队测试，帮助发现其模型在不准确信息,幺门、有害内容、虚假信息、歧视、语言偏见、涉及传统和非传统武器扩散的信息等方面的问题。三是内容过滤工具。例如OpenAI专门训练了一个对有害内容进行过滤的Al模型（即过滤模型：，来识别有害的用户输入和模型输出，即违反其使用政策的内容），从而实现对模型的输入数据和输出数据的管控。四是推进模型的可解释性和可理解

15、性研究，例如OPenAl利用GPT-4来针对其大语言模型GPT-2的神经网络行为自动化地撰写解释并对其解释打分；口2有研究人员则从机制解释性（mechanisticinterpretability）的角度来应对Al对齐问题OAl价值对齐：需长期解决的问题价值对齐这项工作是Al领域最根本的，也是最具挑战性的研究。挑战性在于它需要广泛的学科和社会参与，需要各种各样的输入、方法和反馈：根本性在于它不仅关乎当下大模型的成败，而且事关人类能否实现对未来更加强大的人工智能（如AGl）的安全控制。因此Al领域的创新主体有责任和义务确保其Al模型是以人为本的、负责任的、安全可靠的。著名人工智能科学家张亚勤教授指出，要解决Al和人类价值观对齐问题，做技术的人要把研究放到对齐上面，让机器理解并遵循人的价值。因此，价值对齐不仅仅是伦理的问题，还有如何实现的问题。做技术和研究的人不能只开发技术能力，不着力解决对齐问题。虽然Al价值对齐在技术上取得了一定的效果，但人们对最基础的Al价值问题依然没有形成共识：如何确立用以规范人工智能的一套统一的人类价值。目前看，选择哪些原则可能完全取决于研究人员的主观判断和价值观。而且考虑到我们生活在一个人们拥有多元文化、背景、资源和信仰的世界中，AI价值对齐需要考虑不同社会和群体的不同价值和道德规范。进一步而言，完全让研究人员自行选择这些价值是不切实际的，

展开阅读全文