高中 自慰 视觉谈话模子易受报复?西安交大等提议基于扩散模子的叛逆样本生成新算作


发布日期:2024-12-29 01:18    点击次数:120

高中 自慰 视觉谈话模子易受报复?西安交大等提议基于扩散模子的叛逆样本生成新算作

叛逆报复高中 自慰,特别是基于迁徙的有标的报复,不错用于评估大型视觉谈话模子(VLMs)的叛逆鲁棒性,从而在部署前更全面地查抄潜在的安全随意。然则,现存的基于迁徙的叛逆报复由于需要多量迭代和复杂的算作结构,导致资本较高。此外,由于叛逆语义的不当然性,生成的叛逆样本的迁徙性较低。这些问题遗弃了现存算作在鲁棒性评估中的实用性。

为了处理这些问题,作家提议了 AdvDiffVLM,一种诳骗扩散模子通过得分匹配生成当然、无阻挡且具有针对性叛逆样本的算作。具体而言,AdvDiffVLM 使用自合适集成梯度预计(Adaptive Ensemble Gradient Estimation, AEGE),在扩散模子的反向生成进程中退换得分,确保生成的叛逆样本具备当然的针对性叛逆语义,从而提进步移性。

同期,为了提高叛逆样本的质料,他们引入 GradCAM 指挥的掩模生成(GradCAM-guided Mask Generation, GCMG),将叛逆语义分散到通盘图像中,而不是聚会在单一区域。终末,AdvDiffVLM 通过屡次迭代,将更多目口号义镶嵌到叛逆样本中。现实收尾标明,与最新的基于迁徙的叛逆报复算作比较,该算作生成叛逆样本的速率提高了 5 到 10 倍,同期保捏了更高质料的叛逆样本。

此外,与之前的基于迁徙的叛逆报复算作比较,该算作生成的叛逆样本具有更好的迁徙性。值得妥当的是,AdvDiffVLM 大要在黑箱环境中凯旋报复多种商用视觉谈话模子,包括 GPT-4V。

论文题目:Efficient Generation of Targeted and Transferable Adversarial Examples for Vision-Language Models Via Diffusion Models

论文聚会:https://arxiv.org/abs/2404.10335

av片

代码聚会:https://github.com/gq-max/AdvDiffVLM

商量布景

大型视觉谈话模子(VLMs)在图像生成文本和文本生成图像等任务中弘扬出色,等闲应用于自动驾驶、视觉援手和本色审核等范围。然则,VLMs 对叛逆报复高度明锐,可能引发安全隐患。因此,评估其叛逆鲁棒性至关进攻。

早期商量主要聚会于白盒和非针对性报复,但黑盒和针对性报复对模子组成更大要挟,因而更具商量价值。现存算作如 AttackVLM 在黑盒和针对性场景中具有首创性,但由于其高查询次数和复杂结构,着力较低,难以自满全面评估的需求。此外,基于迁徙的报复算作尽管适用于黑盒场景,但其生成叛逆样本速率慢慢,且叛逆语义不当然,遗弃了迁徙性。无遗弃叛逆样本的出现为处理这些问题提供了新想路,通过融入当然的叛逆语义,提升了叛逆样本的质料和迁徙性。然则,这些算作在针对 VLMs 时仍存在高资本和适用性问题。

本文提议了 AdvDiffVLM,一个高效框架,通过扩散模子和得分匹配生成当然、无阻挡且具有针对性的叛逆样本。得分匹配领先由 Hyvarinen 等东谈主提议,用于概率密度预计,并由 Song 等东谈主引入图像生成范围,线路注解了其通过修改得分函数率领生成目口号义图像的才智。基于这些进展,Song 等东谈主将得分匹配与扩散模子相连,大幅提升了图像质料。

受此启发,本文商量杰出分匹配在 VLM 报复中的应用,旨在镶嵌比现存算作(如 AdvDiffuser)更丰富的叛逆目口号义。

本文提议了特地针对 VLM 报复的得分生成表面,并在此基础上诞生了自合适集成梯度预计(AEGE)。为提高生成收尾的当然性,作家想象了 GradCAM 指挥的掩模生成模块(GMGC),灵验分散叛逆目口号义,幸免叛逆特征聚会在图像特定区域,从而提升全体图像质料。此外,通过屡次迭代进一步镶嵌目口号义,优化叛逆样本的视觉质料。与传统算作的对比如图 1 所示。

图 1:不同基于迁徙的报复算作与本文算作在 VLM 上的对比:(a) 报复性能对比。(b) 图像质料对比。

动机与表面分析

跟着视觉谈话模子(VLMs)在自动驾驶和本色审核等环节应用中的等闲部署,确保其在叛逆报复下的鲁棒性已成为珍视系统安全性和可靠性的必要条目。尽管现存算作在评估 VLM 鲁棒性方面取得了一定进展,但在着力和后果上仍濒临基本局限性。高蓄意资本和有限的迁徙性遗弃了对种种化 VLM 的全面鲁棒性评估才智。这一挑战激勉了本文的商量,旨在诞生一种高效、高质料且具有细致迁徙性的算作来生成叛逆样本,从而更灵验地评估 VLM 的鲁棒性。作家通过借助扩散模子和得分匹配技艺的洞见,完结了这一标的。

作家但愿在反向生成进程中得回自满以下条目的散播,即叛逆样本具有目口号义信息:

接下来,他们从 score matching 的角度动身,酌量该散播的 score。把柄贝叶斯定理:

其中第一项和第二项折柳暗意添加标的文本语义的噪声进程和不含目口号义的噪声进程。从直不雅的角度看,无论是否存在标的文本,前向噪声添加进程皆辞退高斯散播,何况添加的噪声保捏一致,这标明梯度仅依赖于 x_t。由于在生成叛逆样本时会施加阻挡以确保叛逆样本与原始图像的变化最小,故无标的文本的 x_t 与包含标的文本的 x_t 之间的各异很小。因此最终的 score 为:

因为 score matching 和去噪是等价进程,因此最终的 score 为:

算作

图 2:自合适集成梯度预计(AEGC)的框架

作家使用替代模子(CLIP)去预计梯度,进而去预计 score。由于单个替代模子预计的 score 并不准确,因此他们使用了集成的算作去预计 score:

由于不同的图像关于不同的替代模子的明锐进程不同,他们使用了自合适的状貌减少具有快速变化亏损的替代模子的权重,以确保不同替代模子的梯度预计同期更新:

基于上述状貌,作家提议了自合适集成梯度预计算作(AEGE),如图 2 所示,但不雅察到只是依赖它在特定区域产生彰着的叛逆特征,导致较差的视觉后果。为了均衡视觉质料和报复才智,他们进一步提议了 GradCAM 指挥的掩码生成(GCMG),它使用一个掩模将前向噪声图像和生成的图像相连起来。这种组合将叛逆性语义散播到通盘图像中,提高了叛逆性示例的当然视觉质料。

图 3:AdvDiffVLM 的主要框架

终末他们使用 AEGE 和 GCMG 来生成叛逆样本,如图 3 所示。

现实后果

开源 VLM 上的收尾

表 1:在开源 VLM 上几种算作生成的叛逆样本的灵验性比较。

表 1 展示了不同算作在开源 VLM 上报复的收尾。显着,本文的算作在报复才智,迁徙才智以及生成速率方面皆优于 baselines。作家也进一步展示了可视化收尾,如图 4 所示,不错看出本文的算作大要凯旋开发 VLM 输出标的反应。

图 4:开源 VLM 报复的可视化收尾

买卖大模子上的收尾

表 2:在买卖大模子上几种算作生成的叛逆样本的灵验性比较。

作家也在买卖大模子上进行了评估,如表 2 所示,他们的算作与 baseline 比较,开发买卖大模子输出标的反应的可能性更高。作家进一步可视化了买卖大模子的输出收尾,如图 5 所示,不错看出买卖大模子输出了他们想要的目口号义。

图 5:买卖大模子上报复的可视化收尾

预防才智比较

表 3:预防现实的比较收尾。

预防算作不错苟简分为叛逆熟练和数据预处理。由于叛逆性熟练的高时辰、资源资本和不褂讪性,尚未应用于 VLM 预防。比较之下,数据预处理是孤苦于模子和高度合适性的,使其成为跨种种模子的流行预防政策。

为了线路注解本文的算作在屈膝数据预处理报复方面的灵验性,作家对位缩减、STL、JPEG 压缩、DISCO、DISCO+JPEG 和 DiffPure 进行了等闲的现实。现实收尾如表 3 所示,本文的算作在整个的预防现实中皆优于 baseline。

图像质料比较

表 4:图像质料的比较收尾

图 6:图像质料比较。

叛逆样本的图像质料相似至关进攻,质料较差的叛逆样本容易被检测到。作家使用四个评估意见来进一步评估生成叛逆样本的图像质料:SSIM、FID、LPIPS 和 BRISQUE。

正如表 4 所示,与 baseline 比较,本文算作生成的叛逆样本具有更高的图像质料。具体来说,在 SSIM、LPIPS 和 FID 评估意见上,本文的算作权臣优于基准算作。而在 BRISQUE 意见上,AdvDiffuser 的弘扬优于本文的算作。这是因为 BRISQUE 是一种无需参考的图像质料评估算法,对磨蹭、噪声、颜色变化等特等明锐。正如图 6 所示,AdvDiffuser 生成的叛逆样本在这些元素上贫穷彰着特别,因此其收尾略优于本文的算作。然则,从图 6 不错看出,本文算作引入的扰动是语义性的,而 AdvDiffuser 权臣转变了非权臣区域,导致较差的视觉后果。这标明 AdvDiffuser 生成的叛逆样本不适用于更复杂的场景,举例报复 VLMs。此外,基于迁徙的算作生成的叛逆样本中存在权臣噪声,这进一步标明本文的算作在图像质料方面具有彰着上风。

结语

在本商量中,作家提议了 AdvDiffVLM,一种针对视觉谈话模子(VLMs)的无阻挡且具有针对性的叛逆样本生成算作。他们基于 score matching 的想想想象了 自合适集成梯度预计模块(AEGE),将目口号义镶嵌到叛逆样本中,从而大要更高效地生成具有增强迁徙性的针对性叛逆样本。为均衡叛逆样本的质料与报复后果,作家提议了 GradCAM 指挥的掩码生成模块(GCMG)。此外,通过屡次迭代,他们进一步加强了目口号义在叛逆样本中的镶嵌后果。多量现实标明,与基准算作比较,他们的算作生成针对性叛逆样本的速率提高了 5 至 10 倍,同期完结了更优的迁徙性。

© THE END高中 自慰