2024云栖大会日前圆满落幕,作为全球最具影响力的科技盛会之一,本届大会全景式呈现展示ai时代云计算最新技术形态与产品进展,邀请全球顶尖的科技专家、学术精英、行业领袖以及创新先锋共聚一堂,共话技术、产业及社会可持续发展等议题。数美科技作为ai风控厂商,携aigc内容风控皇冠hg8868登陆入口的解决方案参与现场展览及论坛活动。
数美科技人工智能研究院院长齐路受邀出席并发表《大模型时代内容安全实践》的主题演讲,与行业伙伴共同探讨在ai发展背后带来的内容安全挑战,分享数美科技在aigc内容风控领域的实践探索 ,为aigc行业的安全健康发展提供参考。以下内容基于大会现场演讲整理,分为内容安全重要性、内容安全挑战及数美的内容安全实践三部分。
随着基础大模型技术的不断发展成熟,覆盖各类场景的创新应用加速落地,生成式内容在爆发式增长,背后的内容风险变得复杂多变,内容安全至关重要,内容风控能力也成为生成式大模型必备的基础能力:
1.监管合规性:企业在全球不同地区运营时,必须遵守当地的监管合规政策。无论是在中国、欧洲还是北美,每个国家和地区都有其特定的法规要求。企业必须确保其业务活动符合这些政策,以合法合规地进行运营。
针对生成式大模型,各国的监管正逐步加强,主要聚焦于内容安全、数据隐私、算法透明度和伦理问题等,以应对生成式ai技术带来的复杂挑战。
2.用户体验:良好的用户体验是企业成功的关键。内容生态良好的平台,用户使用过程中,不会被不适的内容干扰,能够获得优质的体验。
3.社会价值与责任:平台在运营中不仅要追求商业利益,还要承担起社会责任,尽量防止用户受到诈骗、歧视以及自我伤害,这是平台社会责任和价值凸显的一部分。
无论从平台生态发展角度,还是监管合规以及社会责任等方面的要求来看,内容安全是基础防线,但生成式大模型要做好内容风控,做到内容安全,面临的挑战是前所未有的。数美基于国内数十家大模型公司内容风控的实践经验,总结了用户与大模型问答、交互的过程中,内容安全面临的具体挑战:
1. 更高的时效性要求:当aigc广泛应用到各个领域,区别于其他应用以浏览为主,aigc频繁的生成内容,包括用户的提问和模型的输出,内容量非常庞大,交互式的体验,识别耗时要求在几十毫秒级别,中间几乎不可能有人工介入的余地;第二个时效性的问题在于,内容风控的本质是攻防竞争,新的攻击手段和风险内容会越来越多,也要求做内容风控要持续缩短应对不断新增的风险内容的能力迭代时效。
2. 更长的上下文理解:在大模型应用中,生成的文本通常较长,无论是输入还是输出,通常涉及多轮对话和复杂上下文,这与社交应用中的文本长度相比有显著增加。这种长文本处理需求对计算资源提出了更高的要求,尤其是在需要准确识别长内容的场景中,要求对长文本和对话进行深入理解,从而带来了巨大的挑战。
3. 更复杂的语义理解:需要从对象和主题的识别,升级到意图和观点的识别,以更准确地判断内容的风险。在大模型内容安全领域,与传统内容安全的区别在于,它不仅关注对象和主题的识别,还需要深入到意图和观点的识别。例如传统方法可能只需标记和拒绝涉及违禁品或敏感主题的内容,但这种方法不适用于大模型,因为它可能会损害用户体验。
例如在提及毒品时,不是所有提及都需要被拦截,而是要区分其意图是否在于教授制作、买卖、运输或诱导使用毒品等有害行为。如果内容是在客观描述、批判抵制或使用比喻手法,这些则不需要被拦截。这种对意图和观点的深入理解,使得大模型的内容安全管理更为复杂,需要更高级的语义分析技术。
4.更多样的内容风险:在大模型安全领域,风险类型更为多样和复杂。除了传统内容安全风险如政治歧视、仇恨言论、恐怖主义、违禁色情和辱骂广告等,还引入了以下新风险:
(1)生成内容识别:需要识别图片、视频和文本是否由ai模型生成,以应对伪造内容和欺诈行为;
(2)指令注入和攻击:包括角色扮演和间接注入;
(3)商业和个人隐私泄露、皇冠hg8868登陆入口的版权著作权以及不良价值观、世界观导向的风险等
面对生成式大模型内容安全风险呈现出的新特点与新挑战,数美科技以领先的 ai 风控技术率先为 aigc 行业提供覆盖全流程、全场景、全维度的内容风控皇冠hg8868登陆入口的解决方案,并在通用问答、ai搜索、社交智能体、图像处理、智能助手、ai创作等多场景的落地实践中不断迭代更新,以下是我们在内容安全领域的一些实践经验分享。
(1)覆盖模型训练、备案、应用全流程
1)模型训练阶段:尽可能不生成有害内容
样本清理与风险识别:对各种样本进行清理,识别风险,包括预训练样本和人工标注样本(sft)中潜在的敏感问题。
敏感问题处理:由于敏感问题的识别需要专业知识,如政治和历史知识,一旦识别出敏感问题,会交由专业人员进行进一步的标注。
安全对齐:在安全对齐阶段,尝试引入harmless,并通过奖励机制来判断内容是否有害,以确保模型训练与安全目标的一致性。
2)模型备案阶段:
在《生成式人工智能服务管理暂行办法》的监管框架下,形成了由算法备案制度和生成式人工智能备案构成的“双备案制”的实践机制。大模型上线前必须完成相应的备案流程,数美已为多家大模型厂商提供备案皇冠hg8868登陆入口的服务支持。
3)模型应用阶段:阻止有害内容传播,为敏感问题提供恰当的答案
prompt提示词审核:对prompt识别,分为有风险和无风险两类。对于无风险的输入,模型将进行正常的识别和回答;有风险的prompt根据内容进一步分类为:不可回答的问题、需要准确回答的问题、需要纠错回答的问题和需要正向引导的回答。
- 准确回答的问题:国内涉政问题;海外未成年人及种族问题
- 纠错回答的问题:不正确的知识或者不规范的表述,尤其涉及到敏感地区以及历史知识的问题
- 正向引导回答的问题:负向、极端或者是涉及人身伤害等问题
参考信息风险识别:大模型在回答用户问题的时候,它除了参考用户的输入,还会参考知识库或者来自网络的一些检索信息检索结果。所以还要对知识库和网络检索信息进行风险识别,以防止注入或诱导性内容导致模型输出不适当的信息。
模型输出内容识别:如果用户输入是有风险的,可以使用敏感问题知识库和安全代答模型,去给出一个安全的输出,另外即使用户输入是安全的,模型输出仍可能存在风险。因此,最后一步是对模型输出进行风险检测,确保内容的安全性。
(2)1800 风险标签体系,精准定义风险
定义风险是内容安全体系建设的核心部分。数美现在内部已经建立了四级内容标签体系,覆盖文本、视觉、音频多模态内容的1800 个细化内容标签,一级标签是风险大类别,二三级标签主要是对对象和主题的分类。最后一级标签是伴随着aigc的发展,在这2年新引入的,是对内容意图和观点的分类。
(1)上下文语义理解:基于上下文去做对象和主题的识别,尤其在识别敏感对象或主题时,必须基于上下文进行,以区分真实情况和虚构或历史情境。
(2)意图和观点的细化:从对象和主题的识别扩展到意图和观点的识别。对于违禁品类,需要进一步分析其背后的意图,如是否在教授制作、买卖、运输或诱导他人参与。对于人物类,还需识别如辱骂、诋毁、戏谑、轻浮、讽刺等不同态度和表达方式
(3)多模型策略:不依赖单一大模型识别所有风险,而是采用多个模型针对不同领域识别风险,如对象识别模型、观点识别模型等。
(1)文本:对于长文本采用滑动窗口技术进行分段处理,维护上下文信息提高识别效率和准确性,减少重复计算,提高处理速度和降低成本
(2)音频内容识别:在aigc的场景下,模型可能会模拟真实人物的声纹,带来伪造和滥用的风险。音频的识别分为语音识别和声纹识别两部分,区分声音内容和声源是否安全
(3)视觉内容识别:在aigc出现后,除了识别画面中的对象和主题,还需理解画面隐含的意图,如侮辱或诋毁行为。目前数美专注采用多模态方法,结合文本和视觉信息进行语义理解;使用对比学习等方法,将图像的语义特征与nlp模型对齐不同模态的语义空间,以提高识别的准确性。
在兼顾用户体验与内容安全的基础上,针对需要准确回答、正向引导和纠错回答的内容,数美建立了完备的敏感问题知识库,对知识库的管理采用标签加名字空间加作用域的管理方法,确保知识库内容的准确性和适用性。
随着生成式大模型在各行业的广泛落地应用,内容风险将更加复杂多变,深化内容安全治理的技术革新势在必行,数美将聚焦大模型内容生态层面,在持续的内容安全实践中,不断迭代对抗新风险突破新挑战的ai风控能力,护航aigc行业的安全健康发展。
关注数美科技微信公众号
每日精选文章推送