美国商务部和国务院于2024年11月20日在旧金山联合举办人工智能安全研究机构国际网络(International Network of AI Safety Institutes)会议,正式宣告该网络的建立。该网络旨在通过全球合作推动人工智能(AI)安全的科学基础建设,促进安全、可靠的AI创新。该网络宣布了多项进展,包括联合使命声明、超过1100万美元的合成内容研究资金、多语言测试成果,以及关于AI系统风险评估的联合声明。以下是声明的核心内容:
一、成立背景与目标
1. 使命:构建全球技术协作平台,协调AI安全研究、测试标准及风险评估方法,避免碎片化治理阻碍创新。
2. 紧迫性:应对AI快速发展带来的风险(如合成内容滥用、模型失控等),需要国际社会共同应对。
二、成员与治理
1. 初始成员:包括美国、澳大利亚、加拿大、欧盟、法国、日本、肯尼亚、韩国、新加坡和英国。
2. 首届主席:美国暂任首届主席,由美国AI安全研究机构(US AISI)牵头,负责协调技术合作与研究议程。
三、关键成果与行动
1. 联合使命声明:
“国际人工智能安全研究机构网络旨在汇聚全球技术专长,通过跨文化协作推动对人工智能安全风险的共同理解,支持国际发展及互操作原则与佳实践的采纳,确保人工智能创新惠及所有发展阶段的国家。”此外,联合使命声明聚焦四个合作:推进人工智能安全研究,制定模型测试和评估的佳实践方案,促进协调一致的方法(例如解释先进人工智能系统的测试结果),以及推动全球包容性和信息共享。
2. 合成内容风险:承诺投入1100万美元,研究如何检测和防止有害合成内容(如儿童材料、欺诈性内容)。
3. 多语言测试:由美、英、新加坡的AI安全机构牵头,在Meta公司的Llama 3.1 405B模型框架下进行多语言测试,覆盖学术知识、封闭领域幻觉及多语言能力等维度。
4. 风险评估标准:提出6项原则(可操作性、透明性、性、利益相关方参与、迭代性、可复现性),旨在建立各国统一的、对先进人工智能系统进行风险评估的标准体系。
5. 协作:成立人工智能测试风险(TRAINS)工作组,整合美国商务部、国防部、能源部、国土安全部,以及局(NSA)和国家卫生研究院(NIH)等,聚焦网络安全、关键基础设施等领域的AI风险与应用研究。