AI大模型安全挑战和安全要求解读发表时间:2024-09-10 16:28 随着人工智能技术的飞速发展,大模型技术以其卓越的性能和广泛的应用前景, 正在重塑人工智能领域的新格局。然而,任何技术都有两面性,大模型在带来前所未有便利的同时,也引发了深刻的安全和伦理挑战,从个人隐私泄露到虚假信息生成,再到对抗样本攻击,大模型及其衍生的安全风险不容忽视。 一、大模型应用安全挑战和威胁 1. 数据安全与隐私问题 大模型在训练过程中需要大量的数据作为支撑,这些数据往往包含用户的敏感信息。一旦这些数据被恶意利用或泄露,将带来严重的后果。数据安全与隐私问题的挑战主要体现在以下几个方面: ★数据泄露:由于大模型通常需要在云端进行训练,数据在传输和存储过程中可能面临泄露的风险。攻击者可能通过窃取数据或利用漏洞来访问敏感信息。 ★数据滥用:即使数据没有被直接泄露,攻击者也可能通过分析大模型的输出结果来推断出原始数据的信息,进而滥用这些数据。 ★隐私侵犯:大模型在处理用户数据时,可能无意中侵犯了用户的隐私权。例如,通过分析用户的文本输入,大模型可能能够推断出用户的身份、兴趣、习惯等敏感信息。 2. 模型流转/部署过程中的安全问题 大模型在流转和部署过程中也面临着诸多安全问题。这些问题主要包括对抗攻击、后门攻击和prompt攻击等。 ★对抗攻击:对抗攻击是指攻击者通过精心构造的输入来欺骗大模型,使其产生错误的输出。这种攻击方式对于依赖大模型进行决策的系统来说具有极大的威胁。 ★后门攻击:后门攻击是指攻击者在训练大模型时嵌入特定的“后门”,使得攻击者能够在不破坏模型整体性能的情况下,通过特定的输入来操纵模型的输出结果。这种攻击方式具有隐蔽性和难以检测的特点。 ★prompt攻击:prompt攻击是一种新型的攻击方式,它利用大模型对prompt的敏感性来实施攻击。攻击者通过构造特定的prompt来诱导大模型产生错误的输出或泄露敏感信息。 3. AIGC的内容合规问题 AIGC(AIGeneratedContent)是指由人工智能生成的内容。随着大模型在内容生成领域的广泛应用,AIGC的内容合规问题也日益凸显。这些问题主要包括版权侵权、虚假信息、低俗内容等。 ★版权侵权:AIGC在生成内容时,可能会侵犯他人的版权。例如,未经授权使用他人的作品作为训练数据,或者生成的内容直接复制了他人的作品。 ★虚假信息:由于大模型在训练过程中可能接触到大量的虚假信息,因此AIGC在生成内容时也可能包含虚假信息。这些虚假信息可能会误导用户,甚至对社会造成不良影响。 ★低俗内容:AIGC在生成内容时,可能会产生低俗、不道德的内容。这些内容不仅可能违反社会公德,还可能对用户造成心理伤害。 4. 大模型运营过程中的业务安全问题 大模型在运营过程中也面临着业务安全问题的挑战。这些问题主要包括数据投毒、模型误用和滥用等。 ★数据投毒:数据投毒是指攻击者在训练数据中故意添加错误或有害的信息,以破坏大模型的性能或引导其产生错误的输出。这种攻击方式对于依赖大模型进行决策的系统来说具有极大的威胁。 ★模型误用和滥用:大模型在运营过程中可能会被误用或滥用。例如,攻击者可能利用大模型进行恶意攻击、传播虚假信息等。此外,一些不法分子还可能利用大模型进行非法活动,如诈骗、洗钱等。 二、大模型安全基本要求解读 大模型应用面临安全挑战和威胁,对个人隐私保护、社会伦理和系统安全产生巨大的挑战,因此对大模型的内容安全性进行评估和改进显得尤为重要。本文以国家网信办《生成式人工智能服务管理暂行办法》和网安标委《生成式人工智能服务安全基本要求》为指导基础进行安全分类,针对性的生成了对应的评估内容,供大模型进行内容安全评测评估,以达到帮助大模型内容风控系统升级,促进大模型生态健康发展的目的,《基本要求》解读如下: 1. 语料安全要求 ●语料来源安全 语料来源管理方面,要求使用合法来源的语料,并对语料内容质量提出了量化标准,如语料内容含违法不良信息超过5%的,不应采集或使用该来源语料。语料来源搭配方面,要求提高语料来源的多样性。如训练语料中的中文文本、英文文本、代码、图片、音频、视频及其他语料等。语料来源可追溯方面,要求服务提供者具备合法的处理依据。 ●语料内容安全 知识产权合规方面,要求建立知识产权管理策略、识别知识产权侵权风险、完善投诉举报渠道、公开摘要信息等。 个人信息保护方面,要求服务提供者应确保其个人信息处理行为具有合法性基础,即取得对应个人信息主体的同意或符合法律、行政法规规定的其他情形。当涉及敏感个人信息的使用时,还必须获得个人的单独同意。 ●语料标注安全 2. 模型安全要求 ●模型生成内容安全性:要求服务提供者应对每次使用者输入的信息进行安全性监测,引导模型生成积极正向内容,并建立常态化检测测评手段,对测评过程中发现的安全问题及时处置,通过指令微调、强化学习等方式优化模型。 ●模型生成内容准确性:要求服务提供者采用技术手段提高生成内容的实时性与精准度。 ●模型生成内容可靠性:要求服务提供者采取技术措施提高生成内容格式框架的合理性以及有效内容的含量,提高生成内容对使用者的帮助作用。 3. 安全措施要求 ●模型适用性 ●服务透明度 在网站首页等显著位置向社会公开服务适用的人群、场合、用途等信息,并公开基础模型使用情况。以可编程接口形式提供服务的,应在说明文档中公开上述信息。 ●用户数据处理 服务提供者应为用户提供便捷途径关闭输入信息用于模型训练的功能,如设置易懂选项或简洁语音控制指令。为确保便捷性,《要求》明确:通过选项关闭时,操作过程应控制在四次点击以内。同时,服务提供者应确保界面设计或用户交互中显著告知信息收集状态,并清晰展示关闭选项或指令,以符合“透明度”要求。 ●用户管理 1.实施监测机制:通过关键词筛查或分类模型等方式,对用户输入的信息进行实时监测,以便及时发现并处置不当行为; 2.拒绝回答机制:对于检测到的含有明显偏激或诱导生成违法不良信息的问题,服务提供者的系统应自动拒绝回答,防止传播潜在有害内容。 3.人工监看机制:配备专门的监看人员,及时根据监看情况提升生成内容的质量与安全性,并对第三方投诉进行收集和响应。 ●服务稳定性 为维护服务稳定性,《要求》建议服务提供者采取安全措施。例如隔离训练与推理环境,防止数据泄露和不当访问。持续监测模型输入内容,预防恶意攻击。定期安全审计,识别和修复安全漏洞。建立数据、模型备份和恢复策略。 4. 安全评估要求 为确保评估工作的可操作性,《要求》特别针对语料安全、生成内容安全、问题拒答等方面提出了量化的评估标准,具体要求请见下表。 OWASP大模型TOP10安全风险 OWASP组织在2023年10月16日发布了LLM(大型语言模型)十大安全风险1.1版本,概述了针对LLM的潜在攻击方式、预防措施和攻击场景,可以帮助读者更好的理解LLM所面临的安全风险以及应对策略。 总结 大模型应用正面临严峻的安全挑战和威胁,包括数据隐私泄露、网络攻击、注入漏洞等。全国网络安全标准化技术委员会发布的《生成式人工智能服务安全基本要求》为行业提供了明确的安全指引,要求服务提供者加强语料安全、模型安全等方面的管理。望安科技深耕于信息安全领域,致力于为国家重大项目、关键系统及行业企业提供安全保障,不断推动信息安全产业发展,助力泛安全领域及产业化建设。 |