Tiger
推荐活动
  • “驭风同行 畅享朱雀”
  • 2025-04-13
  • 宾客人数
  • 参加(31)可能(0)
  • 徽伍e族车友会二季度活动
  • 2025-04-12
  • 宾客人数
  • 参加(8)可能(0)
  • 驭风而行 共赴美好 轰趴主题活动
  • 2025-03-30
  • 宾客人数
  • 参加(12)可能(0)
  • 春韵沂蒙,长安同行
  • 2025-03-23
  • 宾客人数
  • 参加(33)可能(0)
兰德:确保AI模型权重
阅读 7084
2024年06月04日 11:10分

砺道智库 2024-06-04 09:00 北京

图片

据兰德智库5月30日发布报告称,广泛的人工智能系统安全生态系统涵盖了模型权重、架构设计、训练数据和运营基础设施等组件。考虑到这个生态系统的规模,兰德将重点缩小到一个关键子集:人工智能模型的可学习参数,通常称为模型权重。这包括在训练期间学习到的权重和偏差,这对于模型做出预测或决策的能力至关重要。

基于两个关键

该报告专注于模型权重,基于两个关键考虑:

• 风险评估:模型权重独特地代表了训练高级模型的各种具有挑战性的先决条件的顶峰,包括大量计算(即用于处理数据和运行计算的处理能力和资源,对于GPT-4来说,估计为数千个图形处理单元[GPU]年,据报道GPT-4和谷歌的Gemini Ultra的训练成本分别为7800万美元和近2亿美元)和训练数据(据传GPT-4超过10TB),训练期间使用的算法改进和优化等等。尽管即使攻击者无法直接窃取权重,也可以重现权重,但重现它们需要满足上述所有先决条件。另一方面,一旦攻击者可以访问模型的权重,就可以不受限制或监控地滥用模型。只有两个先决条件。第一个是推理所需的计算,估计成本大约每个单词0.0065美元。第二个是模型架构——训练开始前模型的预先存在的结构,并且可能从权重的结构中推断出来。

• 可行性:保护模型权重在技术上具有挑战性,但与其他组件(例如架构或训练数据)相比,它提供了更易于处理的干预点。模型架构是更小的信息块,因此更容易通过网络或在工程师的脑海中泄露。还有更多的人需要了解架构细节:确定模型改进的研究人员、优化模型效率的工程师等等。虽然模型权重经常使用,但大多数用例不需要灵活地读取完整权重——权重可以更容易地通过防复制接口进行保护。训练数据通常是从公共来源抓取或从商业聚合器购买的,因此不太受人工智能组织的独家控制。

分析重点是基础模型,特别是大型语言模型(LLM)和类似的多模态模型。我们对此类模型做出以下关键技术假设:

• 规模:Frontier模型规模很大(所需的权重存储达到TB级),预计未来还会大幅增长,这使得未经授权的复制或盗窃更容易监控或防止。

• 可用性:这些模型的常见用例需要在线高可用性,通常通过推理应用程序编程接口(API),这对隔离此类模型的方式引入了具有挑战性的限制(至少在商业环境中)。

报告排除了那些权重对安全并不重要的模型。模型权重视为对安全至关重要的一个原因是,其功能对公共安全构成风险。评估一个模型是否构成大规模社会风险是一个新兴领域,但未来可能会根据每个模型的评估风险应用本报告中提出的不同安全措施(或默认应用于尚未评估的潜在风险模型)。一旦模型公开可用(通常称为“开源”),就不再有必要保护它的特定副本。是否“开源”未来模型的决定应取决于它们的风险是否值得控制对它们的访问。

该报告关注的是模型权重,但我们也承认人工智能安全的其他方面也很重要。确保其他组件(如模型架构、训练数据和源代码)的机密性在人工智能系统的整体安全态势中起着至关重要的作用,但这超出了本报告的范围。同样,保护模型的完整性和可用性、防止合法API滥用以及在模型泄露的情况下规划减轻危害也发挥着重要作用。

研究问题

1. 在保护前沿人工智能模型时,人工智能组织应该防御哪些威胁模型?

2. 如何保护前沿人工智能模型的权重免受各种攻击者的攻击?

3. 前沿人工智能组织如何根据其安全态势评估自己可以防范哪些攻击者?

随着前沿人工智能(AI)模型(即在开发时能够匹敌或超越最先进模型能力的模型)变得越来越强大,保护它们免遭盗窃和滥用将变得更加重要。本报告的作者探讨了如何保护模型权重(编码AI核心智能的可学习参数)免受各种潜在攻击者的盗窃。

具体而言,作者(1)确定了38种截然不同的攻击媒介,(2)探索了各种潜在的攻击者的行动能力,从机会主义(通常受财务驱动)犯罪分子到资源丰富的国家行动,(3)估计每个攻击媒介由不同类别的攻击者执行的可行性,以及(4)定义五个安全级别并推荐大致达到安全级别的初步基准安全系统。

该报告可以帮助前沿人工智能组织的安全团队更新他们的威胁模型并告知他们的安全计划,并帮助与人工智能组织合作的政策制定者更好地了解如何参与与安全相关的主题。

主要发现

• 人工智能组织面临着多种威胁,涉及许多截然不同的攻击媒介和各种攻击者的能力。

• 网络安全和国家安全专家对于如何保护数字系统和信息免受能力较弱的行为者的攻击达成了大致的共识,但对于需要采取什么措施来防御能力较强的行为者(如网络能力最强的国家)的攻击,存在着广泛的分歧。

• 前沿AI模型权重的安全不能通过实施少数“银弹”安全措施来保证,需要采取综合措施,包括对基础设施进行大量投资,以及针对不同潜在风险采取多种安全措施。

• 短期内有很多机会可以显著提高前沿实验室模型权重的安全性。

• 在未来几年中,要确保模型权重能够与最有能力的参与者相抗衡将需要更多的投资。

建议

• 人工智能模型的开发者应该有一个明确的计划来保护那些视为具有危险功能的模型。

• 开发前沿模型的组织应使用报告中详述的威胁形势分析和安全级别基准来帮助评估他们已经正在解决的安全漏洞,并重点关注尚未解决的安全漏洞。

• 制定全面威胁模型的安全计划,重点防止未经授权的访问和模型权重的盗窃。

• 将所有权重副本集中到有限数量的访问控制和监控系统中。

• 减少有权接触重量的人数。

• 强化模型访问接口以防止权重泄露。

• 实施内部威胁计划。

• 投资纵深防御(多层安全控制,在某些控制失效时提供冗余)。

• 参与先进的第三方红队活动,合理模拟相关威胁行为者。

• 结合机密计算来确保使用过程中的权重并减少攻击面。

小结

人工智能能力的进步既带来了巨大的机遇,也带来了巨大的挑战。一旦恶意行为者掌握了模型的权重,那么无限制地滥用其相关能力的障碍就很低。鉴于此类能力的变化速度很快,需要制定强有力的前瞻性战略来确保人工智能系统的安全。我们的讨论强调了保护此类系统的复杂性,特别是在保护前沿人工智能系统的权重免遭盗窃,尤其是抵御高级威胁的背景下。

本报告提出了四大贡献,旨在帮助组织应对创建或改进安全策略的挑战:

1. 定义攻击者的作战能力类别;

2. 识别不同的攻击媒介;

3. 评估不同容量类别执行每种攻击媒介的可行性;

4. 定义安全级别,旨在防范日益强大的恶意行为者。

这些贡献使组织能够得出有意义的观察结果和决策,例如识别许多公司可能没有注意到的八种攻击媒介,因为在防御能力较弱的对手时不需要针对此类媒介的安全措施,但在防御能力较强的对手时则至关重要。此外,运营能力的分类,以及媒介的可行性和安全级别中包含的基准系统,使组织能够具体评估他们是否大致达到安全级别的阈值,并确定改善其安全态势的优先事项和后续步骤。

从基准测试系统中可以明显看出,实现更高的安全级别面临挑战,可能需要在运营效率方面做出妥协。例如,基准测试需要严格限制AI权重的访问方式,重新考虑数据中心的构建方式,在安全保障和冗余方面投入大量资金等等。其中一些工作可能需要数年才能实现。安全级别本身并不意味着需要什么样的安全结果。它们只是帮助校准实施的安全措施和可能实现的安全结果。


* 本内容及图片由会员自行发布,英客对其真实性、准确性及图片版权归属不承担任何责任!
  •  -  - 
  • 18
  • 8
  • 0
  • 举报
帖子
  • 发帖
  • 添加照片
发布
近期动态
  • 最新回复
  • 最多回复
  • 最多赞
正在加载...