2024先进人工智能安全国际科学报告.docx

资源描述

《2024先进人工智能安全国际科学报告.docx》由会员分享，可在线阅读，更多相关《2024先进人工智能安全国际科学报告.docx（80页珍藏版）》请在优知文库上搜索。

1、前言7执行摘要91 导言152 的能力1821 通用AI如何获得其能力？1822 当前的通用Al系统能够实现19221能力按方式20222能力和限制技能2123 最近的趋势能力及其驱动因素2223.1 最近的趋势在计算，数据和算法22232最近的趋势能力2524 能力进步在未来292A1,如果资源继续快速扩展，这是否会导致快速发展？30242将迅速扩大资源规模？30243算法的进步会带来快速的进步？323方法评估和理解通用人工智能系统34il通用Al评估用于评估模型功能和影响。3432 模型性能分析方法35321案例研究35322基准35323红色团队和对抗性攻击36324审计3733 模型透

2、明度、解释和解释383.4挑战与研究通用Al系统394风险414.1 恶意使用风险414.1.1 伤害个人通过虚假内容414.1.2 虚假信息和操纵舆论424.13 网络犯罪444.14 4双重用途科学风险454.2故障风险474.2.1 风险来自产品功能问题474.2.2 偏见和代表性不足的风险494.2.3 失控5143系统性风险544.3.1 劳动力市场风险544.3.2 全球Al鸿沟574.3.3 市场集中风险和单点故障58InternationalScientificReportontheSafetyofAdvancedAI:InterimReport4.3.4 危害环境594.3.

3、5 隐私风险604.3.6 版权侵权614.4交叉风险因素634.4.1 交叉技术风险因素634.4.2 跨领域的社会风险因素665的技术方法来减轻风险685.1 风险管理与安全工程685.1.1 风险评估695.1.2 风险管理705.2 培训更多值得信赖的模型725.2.1 使通用Al系统与开发人员的意图保持致725.2.2 减少幻觉的谎言745.2.3 提高对故障的鲁棒性745.2.4 消除危险能力755.2.5 分析和编辑内部工作的模型755.3 监测和干预765.3.1 检测通用Al生成的内容765.3.2 检测异常和攻击7753.3 解释模型动作7753.4 4将保障措施纳入Al系

4、统775.4 技术方法公平和表示在通用人工智能系统785.4.1 减轻偏见和歧视的工作贯穿于通用人工智能的开发和部署阶段795.4.2 通用人工智能系统的公平性是实现的？805.4.3 挑战实现公平的通用Al系统815.5 隐私方法的通用Al系统816结论83主席关于中期报告的说明84不同观点86词汇表87参考文献91这份报告是人工智能安全之旅的开始,我很荣幸主持发布首届高级人工智能安全国际科学报告。我很自发地发布这份中期报告，这是自2023年【1月布莱奇利公园人工智能安全峰会委托这项工作以来的六个月里，许多专家付出了巨大努力的结果。我们知道先进的人工智能正在迅速发展，而且这些先进的人工智能系

5、统如何影响我们未来的生活和工作方式存在很大的不确定性。人工智能有巨大的潜力让我们的生活变得更好，但它也带来了伤害的风险。这就是为什么要进行彻底的分析家意见至关重要。我们知道的越多，我们就越有能力塑造我们的集体命运。我们的使命很明确:推动对高级人工智能安全性的共享、基于科学的、最新的理解，并随着时间的推移继续发展这种理解。该报告正确地强调了专家之间存在共识的领域，以及对高级人工智能的能力和风险的分歧，特别是那些预计在未来开发的。为了有效地履行我们的使命，我们的目标是解决知识分子诚实的专家社区之间的分歧。通过剖析这些差异，我们为明智的决策铺平了道路，并刺激了有助于消除迷雾和减轻风险所需的研究。我感

6、谢我们的国际专家咨询小组的宝贵意见，这些意见最初确定了报告的范围，后来又对整个草案提供了反馈。他们的不同观点和认真审查扩大并加强了这份临时报告。同样值得认可的是我敬业的作家和高级顾问团队。他们在过去几个月的承诺创造了一个超出我预期的临时产品。我还要感谢英国政府启动这一进程并提供出色的运营支持。对我来说，同样重要的是，英国政府同意撰写这份报告的科学家应该拥有完全的独立性。这份中期报告只是旅程的开始。亳无疑问，这份报告在第一次尝试中未能捕捉到的观点和证据。在这样的科学过程中，反馈是宝贵的。我们将纳入更多的证据和科学的观点，因为我们对最终版本的工作。YoshuaBCngio教授蒙特利尔大学/Mila

7、-魁北克人工智能研究所和主席Al安全是一个共同的全球问题我很高兴向您介绍有关高级Al安全性的第份国际科学报告的临时更新，这是2023年11月在布莱奇利公园举行的开创性Al安全峰会的重要成果。这份具有里程碑意义的报告代表了全球前所未有的努力，以建立对人工智能快速发展所带来的机遇和风险的共同的，基于科学的理解，并证明了“布莱奇利效应”-召集才华横溢的头脑来应对人类最大的挑战之一。I工智能造福人类的巨大潜力，需要积极努力，以确保安全、负责任地开发和部署这些强大的技术。没有一个国家能够独自应对这一挑战。这就是为什么我如此热衷于将一群世界领先的专家聚集在一起，贡献他们的知识和观点。我要特别感谢YOShU

8、aBengio教授作为主席在巧妙地指导这一更杂的国际努力方面发挥的领导作用。至关重要的是，该报告还揭示了我们当前知识中的重大差距以及迫切需要进一步研究和讨论的关键不确定性和辩论。我真诚地希望，这份报告及其背后的合作进程能够成为缩小关键知识差距所需的研究和政策努力的傕化剂，并为未来具有挑战性的政策选择提供宝贵的投入。我们还有很多东西要学，但这份报告标志着一个重要的开始。英国期待继续与国际伙伴合作，促进负责任的、以人为本的人工智能发展方法-利用这些强大的工具来改善生活和生计，同时警惕地防范下行风险和伤害。我们可以共同努力，建设一个全人类都能从人工智能的奇迹中受益的未来。,RtHonMiChelie

9、Donelan议员，科学，创新和技术部国务卿向前迈出的关键一步，呼吁Al安全采取行动人工智能的快速发展将以深刻和不可预见的方式重塑我们的世界。从革命性的医疗保健和运输到自动化复杂任务和解锁科学突破，人工智能的积极影响潜力是不可否认的。然而，除了这些显著的可能性之外，还存在着重大的挑战，需要采取前瞻性的方法。关注的范围从嵌入算法中的意外偏见到自治系统超过靠风险凸显了迫切褥要进行全球对话，以确保人工智能的安全和负责任的发展。在这种情况下，国际人工智能安全报告将为全球合作提供重要的基础。该报告汇集了来自30个国家、欧盟和联合国的专家的知识，提供了对人工智能安全性的全面分析。通过关注对通用人工智能能力

10、和风险的早期科学理解，并评估评估和缓解这些风险的技术方法，该报告将引发多方利益相关者之间的持续对话和合作。我希望基于这份报告，来自30个国家、欧盟和联合国的专家继续进行平衡的讨论，实现可接受的、适合发达国家和发展中国家具体情况的人工智能风险缓解，从而创造一个创新和负责任的人工智能和谐共存的未来。1.eejong-ho大韩民国MSIT部长执行摘要关于本报告.这是第一份“关于高级ai安全性的国际科学报告”的临时出版物。由75位人工智能（Al）专家组成的多元化小组为本报告做出了贡献，其中包括由30个国家，欧盟（EU）和联合国（UN）提名的国际专家咨询小组。.在本报告主席的领导下，撰写本报告的独立专家

11、集体对其内容拥有完全的酌处权。.在人工智能发展取得前所未有的进展之际，这份第一份出版物将其重点限制在近年来发展特别迅速的一种人工智能上:通用人工智能，即可以执行各种任务的人工智能。在快速发展的过程中，通用人工智能的研究目前正处于科学发现的时代，尚未成为科学定论。.世界各地的人们只有在风险得到适当管理的情况下，才能安全地享受通用人工智能的许多潜在好处。本报告着重于识别这些风险，并评估评估和减轻这些风险的技术方法。它的目的不是全面评估通用人工智能的所有可能的社会影响，包括其许多潜在的好处。.这份中期报告有史以来第一次汇集了30个国家、欧盟和联合国提名的专家以及其他世界领先的专家，为通用人工智能安全

12、的讨论和决策提供了一个共享的科学、循证基础。我们仍然在围绕通用人工智能能力、风险和风险缓解的几个问题上存在分歧，无论是次要的还是主要的。但我们认为这个项目对于提高我们对这项技术及其潜在风险的集体理解，以及更接近达成共识和有效的风险缓解至关重要，以确保人们能够安全地体验通用人工智能的潜在好处。赌注很高。我们期待着继续这一努力。执行摘要的要点.如果管理得当，通用人工智能可以用于促进公共利益，可能会带来更好的福祉，更多的繁荣和新的科学发现。然而，通用人工智能出现故障或被恶意使用也可能造成伤害，例如，在高风险环境中做出有偏见的决定，或者通过诈骗、虚假媒体或侵犯隐私。.随着通用人工智能能力的不断发展，可

13、能会出现诸如大规模劳动力市场影响，人工智能黑客攻击或生物攻击以及社会失去对通用人工智能的控制等风险，尽管研究人员对这些情况的可能性存在争议。对这些风险的不同看法往往源于对社会将采取的限制措施、这些措施的有效性以及通用人工智能能力的推进速度的不同期望。.通用人工智能能力的未来进展速度存在相当大的不确定性。一些专家认为，到目前为止，进展最有可能放缓，而另一些专家则认为，极快的进展是可能的或可能的。.开发人员可以采用各种技术方法来评估和降低通用人工智能的风险，监管机构也可以要求，但它们都有局限性。例如，用于解释为什么通用Al模型产生任何给定输出的当前技术受到严重限制。.通用人工智能技术的未来是不确定

14、的，即使在不久的将来，也可能出现各种各样的轨迹，包括非常积极和非常消极的结果。但关于Al的未来，没有什么是不可避免的。社会和政府的决定将决定人工智能的未来。这份临时报告旨在促进对这些决定的建设性讨论。这份报告综合了对通用人工智能的科学理解-人工智能可以执行各种各样的任务-重点是理解和管理其风险。使用人工智能的系统的能力一直在迅速发展。这凸显了人工智能为商业、研究、政府和私人生活创造的许多机会。它还提高了人们对与先进人工智能相关的当前危害和未来潜在风险的认识。关于高级人工智能安全的国际科学报告的目的是朝着对人工智能风险以及如何减轻风险的国际共识迈出一步。该报告的第一份临时出版物将其重点限制在一种

15、能力发展特别迅速的人工智能上:通用人工智能，即可以执行各种任务的人工智能。在快速发展的过程中，通用人工智能的研究目前正处于科学发现的时代，尚未成为科学定论。该报告概述了当前对通用人工智能及其风险的科学理解。这包括确定科学共识的领域以及存在不同观点或开放研究问题的领域。世界各地的人们只有在风险得到适当管理的情况下，才能安全地享受通用人工智能的潜在好处。本报告的重点是识别通用人工智能的风险，并评估评估和缓解这些风险的技术方法，包括使用通用人工智能来缓解风险。它的目的不是全面评估通用人工智能的所有可能的社会影响，包括它可能提供的好处。根据许多指标，通用AI能力近年来增长迅速，并且在如何预测未来进展方面没有达成共识，使得各种场景出现可能根据许多指标，通用Al能力正在迅速发展。五年前，领先的通用人工智能语言模型很少能产生连贯的文本段落。今天，一些通用的人工智能模型可以在广泛的主题上进行多轮对话，编写简短的计算机程序，或者从描述中生成视频。然而，通用人工智能的能力很难可能地估计和精确定义。通用人工智能的发展速度取决于技术进步的速度和监管环境。本报告侧重于技术方面，不讨论监管工作如何影响通用人工智能的开发和部署速度。近年来，人工智能开发人员迅速提高了通用人工智能功能，主要是通过不断增加用

展开阅读全文