咨询电话：18072798726

个人中心

我的门票

我的会刊

我的订阅

AI大模型，如何规避安全风险，有何防护策略？

208

来源：搜博网

2023-11-05 18:34

行业：安防

深圳安防展-深圳安博会

2025.10.25~10.28

4.72W

距离：544 天

[申请展位]

[预订门票]

[展商名录]

当前，ChatGPT 正在引领人类进入无缝人机交互的新时代。相关业内人士指出，大规模语言模型（以下简称大模型）在新一轮快速发展同时，场景应用也暴露出一些问题，如事实性错误、知识盲区和常识偏差等。此外，大模型还面临训练数据来源合规性、数据使用的偏见性、生成内容的安全性等风险。

9月1日，绿盟科技正式发布绿盟风云卫大模型(NSFGPT)，同期推出《安全行业大模型 SecLLM技术白皮书》，分享其在安全行业大模型研发过程中所积累的最佳实践与经验教训，以期为安全行业提供“量身定制”的大模型解决方案。

一、AI大模型的训练数据来源

AI大模型的实现需海量数据和强大算力来支撑训练和推理过程。随着数据量的不断增加，模型就可以学习到更多的特征和模式。例如，对于图像识别任务，更多的训练样本可以让模型学习到更多的形状、纹理、颜色等特征；对于自然语言处理任务，更多的训练样本可以让模型学习到更多的语法、语义、上下文等特征。此外，大规模数据还可以减少AI大模型过拟合，提高模型的泛化能力。例如，原始GPT模型有1.5亿个参数，GPT-3模型参数已达1750亿个，需要使用大约45TB文本数据进行训练；Chinchilla模型有700亿个参数，需要使用2.1TB的书籍数据库和3.1TB的Github数据进行训练。

现阶段，AI大模型数据来源主要分为三种类型，包括网络开放数据、服务商数据、自有数据等。

1. 网络开放数据是通用AI大模型训练的主力军

经过几十年的信息积累，互联网上存在大量的政府、机构及企业公开数据可以为AI大模型训练提供充足的“材料”。爬虫抓取、开放数据集、交换共享是目前获取网络公开数据的主要方式。

（1）爬虫抓取通过分析网页结构，使用相应的爬虫程序解析HTML、CSS和JavaScript等网页内容，获取需要的数据。

（2）开放数据集主要是组织和机构公开发布供研究者和开发者使用的数据，通常包括多个领域和类型的数据，例如图像、文本、音频等。常见的开放数据集包括ImageNet、COCO、OpenAI GPT等。该类数据集通常经过专业人员筛选、清洗、标注和预处理，具有较高的质量和可用性。

（3）交换共享是指利用数据交换服务的模式，与开放数据不同，交换共享通常提供更多的功能和服务，与数据提供者进行合作获取。例如Kaggle、UCI Machine Learning Repository等。此类平台可以让用户上传、分享、获取数据集，并提供相关的工具和资源，方便用户进行研究和开发。

2. 服务商数据为AI大模型提供定制化的数据服务

数据服务商通常会具有大量的数据资源和技术实力，能提供高质量、多样化的数据服务。通过与数据服务商合作，可以获得符合自身需求和标准的数据集，避免大模型去处理数据的复杂性和不确定性。数据服务商通常会经过专业的筛选、清洗、标注和预处理等操作，保证数据集的质量和可用性。根据需求快速提供符合要求的数据集，缩短获取数据的时间和成本，同时缓解数据处理的工作量。提供合规、安全的数据服务，避免违反相关法律法规和道德准则，保护数据隐私和权益。

3. 自有数据是打造垂直领域AI大模型的核心资源

自有数据指的是机构或企业拥有自己收集、积累和维护的数据集。现有企业会通过自身软件，利用多种途径对用户画像进行描述，实现用户数据的精准收集，该类数据具有很强的目标导向，侧重于某一属性，某一行业，某一特征的深层次收集。在我们生活过程中，几乎所有的互联网软件都需要用户开放数据权限，否则无法使用全部功能。用户的每一项操作行为、每一次数据的输入，都可能会被用于大模型学习，从而进一步优化自身参数。众多企业的推荐算法就是基于用户的每一个行为以及每一特征属性的分析，实现信息的精准投喂。

二、大模型安全总览

与传统的端到端模型不同，大模型采用预训练-微调的训练范式，首先在大量的未标注数据上进行预训练，继而在下游任务的标注数据上微调得到垂直领域模型。一般认为，模型的训练过程、结构越复杂，其面临安全风险系数就越高，但不能以此简单地判断大模型较传统模型面临的安全威胁更严重。同质化、多模态对齐等因素会导致大模型面临更多类型的安全威胁，但由于大模型具备海量参数、微调所需的敏感数据更少的特点，也一定程度上缓解了大模型遭受对抗样本、数据隐私泄露的风险。

大模型内外面临多重安全威胁。对内来讲，大模型参数量剧增带来的涌现能力也引发了新的偏见和不确定风险；多模态学习增加了对齐风险；大模型内部存在可解释性不足风险；而基础模型缺陷在下游模型上的继承效应也需要有对应的缓解策略。对外而言，大模型则面临着来自恶意攻击者的对抗攻击、后门攻击、成员推断攻击、模型窃取等影响模型性能、侵犯隐私数据的威胁。大模型在生命周期中面临的安全风险如下图所示：

① 针对大规模训练数据集的攻击，如投毒攻击。

相较于传统端到端的模型，该数据集中的数据类型众多，涵盖图像、文本、语音、代码等多种数据，且来源于网页、书籍、社交平台等未经验证的多种公开渠道，因此投毒攻击的风险更高。另外，多模态数据之间的对齐问题会影响到基础模型的预测准确率。

② 基础模型的安全性会影响到下游模型的安全性。

基础模型的脆弱性会被下游模型继承，基础模型鲁棒也会使下游模型更可靠；基础模型如果对部分训练数据进行了“记忆”，则下游模型也面临相同的风险。由于微调所需的敏感数据较传统端到端模型会更少，这一点能够降低数据隐私泄露风险。另外，基础模型同质化的特点会进一步扩大基础模型安全性的影响。

③ 微调使用的数据集存在安全风险。

同样地，数据来源的可靠性会影响到模型质量，数据集也存在隐私泄露风险。

④ 模型推理阶段存在的安全风险。

在推理阶段，攻击者一般通过API接口访问黑盒大模型，大模型面临着对抗样本、模型窃取、成员推断攻击、提示注入等多重威胁。

下文将从大模型安全风险和大模型防御策略两个角度进行介绍。

三、大模型安全防护策略

本节从鲁棒性、可靠性、隐私性、公平性和可解释性五个可信属性角度，介绍大模型安全性提升策略，包括对可信属性的评估策略、可信属性的保障和防护策略等。

鲁棒性

鲁棒性反映了模型抵抗外部扰动、输入噪声的能力。

大模型鲁棒性的评估旨在测试大模型在异常/有毒数据上的预测结果是否正确。主流策略是直接使用公开数据集(如 Real Toxicity Prompts)对大模型鲁棒性进行评估；或是通过直接执行攻击得到的攻击成功率反映大模型在某类攻击上的鲁棒性。

大模型鲁棒性的提升技术和思路有：

异常数据检测：利用异常样本和良性样本的分布差异或在隐藏空间上的特征差异，检测数据中的异常值。

数据增强：数据增强对于对抗攻击、后门攻击、投毒攻击来讲都是相当有效的防御机制，通过对图片、文本等数据实施各种变换，在丰富数据集多样性的同时，降低异常数据的有效性。

鲁棒训练：通过改进训练过程来降低恶意数据的影响，提高大模型面对对抗样本的预测准确率。

模型清洗：模型检测技术被用于判断模型是否被植入了后门，对于毒化模型，可以通过剪枝、微调等技术消除模型中的后门或缓解有目标投毒攻击对模型的影响。

可靠性

可靠性是描述模型在现实世界环境中一致工作、正确地完成目标任务的属性，确保模型面对未知数据应具备正确预测的能力。

可靠性评估框架和工具是有效的评估方案，如Shen等人[7]提出的可靠性评估框架覆盖多领域测试样本和多种问答类型，能够较为全面地评估大模型输出的可靠性。

大模型可靠性提升策略可以参考：

高质量的训练数据：确保大模型使用的训练数据是准确、全面、代表性的，以此保障高质量的数据对模型性能产生正面影响。提升数据集质量的方式有异常数据检测和清洗、数据转换、数据增强、数据质量持续监控和维护等。

多样化的评估策略：使用多种评估方法和指标来评估模型的性能，避免过于依赖单一的评估指标。

管理模型的不确定性：识别和管理模型输出结果中的不确定性，合理传达模型的置信度和范围。

提高模型可解释性：可解释性帮助用户理解模型的决策过程和预测原理，从而在提升可靠性时具备更强的目标性。

隐私性

隐私性是模型保护隐私数据的能力，确保未得到授权的用户无法接触到入模数据和大模型的隐私信息。

评估大模型隐私性的主流思路是从攻击视角反映大模型的隐私泄露情况，如成员推断攻击可以评估大模型训练数据的隐私泄露情况，模型窃取可用于评估大模型自身隐私风险和版权保护手段的有效性。

大模型隐私性保障技术包括：

加密存储：对大模型中的对话数据、用户账户隐私信息、模型信息进行加密存储，设置身份认证和访问控制策略，降低隐私数据被窃取和篡改风险。

差分隐私：差分隐私旨在通过对数据加噪，确保当训练集中某一数据存在和不存在时，模型预测结果受到的影响有限，从而阻止攻击者根据模型输出推断数据集中的具体数据信息。

同态加密：同态加密在明文和密文上进行计算得到的结果相同，因此可以直接在加密后的隐私数据上进行运算，保障数据隐私。但同态加密时间复杂度高，面对海量数据效率较低。

安全多方计算：安全多方计算允许各参与方输入对其他方保密的情况下，根据输入共同计算一个函数，确保了整个系统中个体敏感数据的隐私性。

模型水印和指纹：模型窃取攻击会威胁到模型拥有者的知识产权，模型水印和指纹是维护模型知识产权的重要技术。水印的嵌入通常发生在模型训练阶段，采取植入后门或权重正则化的方式为待保护模型嵌入特定水印。指纹则利用模型自身已有的内在特征，将模型在对抗样本或一些被错误分类样本上输出的相关性作为模型的“身份”依据。

公平性

公平性是模型在面对不同群体、个体时不受敏感属性影响的能力，公平性的缺失会导致模型出现性别歧视、种族歧视、基于宗教的偏见、文化偏见、地域政治偏差、刻板印象等有害的社会成见。

公平性的评估旨在考察大模型中存在哪些偏见，针对目标问题涉及的敏感属性，收集、设计具备代表性和多样化的问答对或数据集(如 BBQ 偏见问答数据集)，通过分组比较、敏感性分析等策略识别大模型面对不同群体的表现差异，并采用公平性相关指标(如平均预测差异、均衡误差率、公平性增益等)量化偏见程度及公平性改进效果。

纠偏技术和思路能够削减模型在敏感属性上的偏见，如：

人类反馈强化学习(RLHF)：OpenAI在GPT-3、InstructGPT中都采用了 RLHF，以校准大模型的输出与人类社会的伦理道德、价值观保持一致，确保回答的可靠和无害。

AI 反馈强化学习(RLAIF)：Anthropic 在 Claude 中使用的对齐方法，能够显著降低对人类反馈标注数据的依赖，成本低且有效。

上下文学习(ICL)：上下文学习是大模型的一个重要的涌现能力，可以用于校准大模型中的已知偏见。

可解释性

可解释性是模型使用者直观理解模型内部机制和决策逻辑、确保人工智能可问责的重要性质。

模型可解释方法采用的思路一般分为对数据的可视化和统计分析等事前可解释方法、对模型的可视化和静态分析技术、对模型预测结果的假设检验等事后可解释方法。这些方法对输入特征、模型神经元等因子的重要性提供局部或全局的可解释性。常见的可解释性方法包括：

可视化方法：可视化是最直观的可解释方法。对Transformer、BERT等语言模型的可视化信息有助于人们理解模型内部工作机制、定位模型决策的影响因素。可供使用的可视化工具有Tensorboard、Visdom、TorchSummary等。

基于扰动的可解释方法：根据扰动样本评估输入特征重要性，如 LIME、SHAP。

基于梯度的可解释方法: 以模型输出与输入特征之间的梯度作为考量特征重要性的标准，度量输入特征的重要程度，如Saliency Map。

注意力机制可解释方法: 对注意力矩阵的决策归因方法从基础模型内部信息流的角度提供可解释信息，如ATTATTR[8]。

四、如何应对大模型时代的AI安全风险？