-
友情链接:
Diffusion Transformer 模子模子通过 token 粒度的缓存身手爱色电影,兑现了图像和视频生成模子上无需训诲的两倍以上的加快。
上海交通大学等团队提议 Toca(Token-wise Caching),接洽论文已被 ICLR 2025 经受。
Diffusion Transformer 在图像和视频生成中展现了显赫的驱散,但代价是庞杂的筹划本钱。
为了处置这一问题,特征缓存身手被引入,用于通过缓存前几个时分步的特征并在后续时分步中复用它们来加快扩散 Transformer。
可是,之前的缓存身手忽略了不同的 token 对特征缓存进展出不同的明锐性,而对某些 token 的特征缓存可能导致生成质料举座上高达 10 倍的唐突,相较于其他 token。
Toca 团队提议了基于 token 的特征缓存身手,允许自适合地选拔最合乎进行缓存的 token,并进一步为不同类型和深度的神经收集层愚弄不同的缓存比率。
通过在 PixArt- α、OpenSora 和 DiT, 以及 FLUX 上的平凡实践,团队评释了在图像和视频生成中无需训诲即可兑现团队身手的有用性。举例,在 OpenSora 和 PixArt- α 上区分兑现了 2.36 倍和 1.93 倍的接近无损的生成加快。
配景 Backgrounds
扩散模子 ( Diffusion Models ) 在图像生成、视频生成等多种生成任务中展现了出色的性能。连年来,以 FLUX, Sora, 可灵等模子为代表的 Diffusion Transformers 通过扩展参数目和筹划规模进一步推进了视觉生陈规模的发展。可是,Diffusion Transformers 濒临的一个要紧挑战在于其高筹划本钱,这导致推理速率冉冉,从而防碍了其在实时场景中的本色愚弄。为了处置这一问题,询查者们提议了一系列加快身手,主要攀附在减少采样步数和加快去噪收集模子。
近期,基于特征缓存来兑现去噪模子加快的身手由于其优秀的无损加快性能,以及无需训诲的优良性能,受到工业界的平凡关怀。上海交通大学张林峰团队进一步扎眼到一个自可是真义的景象:不同筹划层,以及同筹划层的不同 Token 关于缓存瑕疵的适合性不同,相通的缓存瑕疵在不同位置对模子影响最高不错达到数十,百倍的各别,因此有必要进一步将模子加快的粒度由特征级进一步到 token 级,并研究了奈何臆想视觉生成模子中 token 的要紧性,以兑现要紧 token 的筛选保留。
中枢孝敬
ToCa 初度在 DiT 加快中中引入 token 级的缓存复用战略,并初度从瑕疵积聚与传播的角度分析特征缓存身手。
ToCa 提议 4 种从不同角度登程,适用于不哀怜形的 token selection 战略:
基于 Self-Attention Map 来评估 token 对其它 token 的影响 ;
基于 Cross-Attention Map 评估文生图 / 视频任务中 image token 对 text token 的关怀散布,以加强收尾能力 ;
基于该 token 在先赶赴噪步中的被一语气缓存复用的次数蓄意增益战略,饱读动 token 在时分步上被更均匀地筹划,幸免局部瑕疵积聚过大,唐突全局图像 ;
将各个 token 的要紧性得分基于空间散布进行加权,饱读动被筹划的 token 在空间上散布更均匀。
ToCa 被愚弄于多种最新模子上开展实践,评释了其比较现存身手愈加优秀,包含文生图模子 PixArt-alpha,FLUX-dev 和 FLUX-schnell,文生视频模子 OpenSora,以及基于 ImageNet 类标签生成图像的 DiT 模子。
询查动机
如图 1 所示,不同 token 在相邻两步间进行特征缓存引入的瑕疵值的各别高达几十上百倍;
图 2 证实不同 token 上引入相通大小的瑕疵,这起先幅度交流的瑕疵在模子推理过程经过积聚和传播,对模子的输出的影响各别也极大。因此,有必要研究 token 级别的特征缓存 - 复用战略,使得模子的筹划更攀附在环节被需要的 token 上。
身手筹划经由
ToCa 的缓存 - 复用经由如图 3 ( a ) 所示:
Cache 运行化 起先推理一个齐全的时分步,将各层的特征放入 cache 中以便使用。
要紧性得分筹划在使用 ToCa 的时分步上,关于每一层:先筹划各个 token 的要紧性得分,将最低的部分 token 记号为 cache 景况(举例图示中 ID 为 1 和 3 的 token),不传入收集层进行筹划。
部分筹划关于被传入的 token ( 2,4,5 ) , 膨大平素的筹划 , 得到它们的输出。
Cache 更新从 cache 中调出存储的 token 1,3 的输出,并将筹划得到的新的 token 2,4,5 输出更到 cache 中。
文爱聊天时常这么的一个轮回长度为 2~4 个时分步,即 1 步充分筹划后续搭配 1 至 3 个 ToCa step。此外,ToCa 还基于不同层的要紧性,蓄意了跟着层深度高涨而衰减的筹划比例,笃定请参考论文。
要紧性得分筹划
如图 4 所示,ToCa 蓄意了基于 4 个不同方面研究的要紧性分数筹划,在本色愚弄中它们以 加权乞降给出总的要紧性得分,笃定请参考论文。
实践驱散
ToCa 被愚弄于文本到图像生成模子 PixArt-alpha, FLUX, 类到图像生成模子 DiT, 以及文本到视频生成模子 OpenSora 以考证其身手有用性,充分的实践驱散评释,ToCa 具有特出其他同类身手的加快驱散。
图像生成模子 : PixArt-alpha,FLUX, DiT
如上图所示,ToCa 比较另两种加快身手和无加快的高质料原图对皆驱散更佳,且具有更佳的图 - 文对皆能力(举例从左到右第四列的 wooden dock)。
从 FID-30k 和 CLIP Score 上臆想,ToCa 也赢得了远超其他身手的进展。
如上图所示,ToCa 在 FLUX 模子上的生成质料也极佳,不错看到和原图基本莫得各别。但值得研究的是在笔墨生成这类对细节条目极其高的任务上(举例左下角的舆图)仍有各别,这将动作团队后续询查的起点。
关于高档的模子,使用 Image Reward 时常能更好地对生成质料进行臆想,团队区分在 50step 的 FLUX-dev 和 4step 的 FLUX-schnell 上开展了实践,不错看到,ToCa 在 FLUX 上 1.5 倍加快,比较未加快模子的数值主义基本不变,远远优于其他身手。
在基础模子 DiT 上的驱散也评释了 ToCa 的优胜性。
视频生成模子:OpenSora
团队制作了一个网页来展示 OpenSora 上的加快驱散。
https://toca2024.github.io/ToCa
此外,团队将视频生成驱散部分抽帧以供快速浏览:
在 VBench 上测试 ToCa 的加快驱散,实践驱散标明,ToCa 远优于其他身手,赢得了高达 2.36 倍的无损加快 , 在加快驱散和生成质料上都赢得最优进展。
ToCa 在 VBench 的大部分主义上都赢得了和原模子险些交流的得分。
回想
ToCa 动作初度被提议的从 Token 级来兑现扩散模子加快的身手,比较以往加快身手具有更强的适配性,(尽管蓄意时动作专为 DiT 加快的决策,它的结构也不错被复用到 U-Net 结构的模子上),同期在多种任务上具有极佳的进展。连年来,包括 ToCa 在内的系列基于特征缓存的扩散模子加快身手兼具无需训诲的优胜性和强劲的无损加快驱散,赢得了超卓的见效,是一种不同于蒸馏类身手的值得被进一步探索的加快决策。
论文:https://arxiv.org/abs/2410.05317
Github:https://github.com/Shenyi-Z/ToCa
— 完 —
学术投稿请于责任日发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿内容
附上论文 / 形式主页相连,以及接洽形状哦
咱们会(尽量)实时恢复你
一键关怀 � � 点亮星标
科技前沿进展逐日见
一键三连「点赞」「转发」「留意心」
接待在挑剔区留住你的思法!爱色电影