速度快 6 倍!13GB 显存生成 2K 高清图,英伟达放大招

更新日期:2026-05-27

来源:系统之家

  win10win 小编 5 月 27 日最新消息,AI 画图速度迎来质的飞跃!英伟达重磅发布 PiD 像素扩散解码技术,一举打破高分辨率生成的显存与速度瓶颈。13GB 显存就能流畅跑 2K 生成,GB200 上最快仅需 210ms,比传统方案快 6 倍还多。

速度快 6 倍!13GB 显存生成 2K 高清图,英伟达放大招

  根据博文介绍,高分辨率文本生成图像过程中,通常先在潜在空间生成,再由解码器恢复成清晰图像。

  潜在空间指模型把原始图像压缩后得到的数值表示空间,保留主体结构、语义关系等关键信息,却省去大量像素级细节,因此计算成本更低。

  这种路线计算效率高,但传统解码器主要负责还原编码器输出,擅长“复原”,不擅长主动补出高分辨率细节,面对百万像素级图像时,速度与质量都存在明显瓶颈。

  英伟达提出的 PiD,完整名称为 Pixel Diffusion Decoder(像素扩散解码器)。这项方法把潜在解码重新定义为条件式像素扩散,并把解码与上采样合并到同一个生成模块中,因此能在输出阶段补足纹理、结构和局部细节。

  注:条件式像素扩散是一种在像素空间中逐步生成图像的方法,但它不是无条件生成,主要通过参考额外输入来约束结果。

  PiD 基于 PixelDiT 构建,并加入轻量级 ControlNet 风格适配器。这个适配器会把含噪的潜在表示注入模型,再通过与西格玛相关的门控机制,按噪声强弱动态调整对潜在表示的信任程度。

  为了继续压低延迟,团队还采用 DMD2 蒸馏,把推理步数压缩到 4 步。配合早停机制,PiD 兼顾了速度与输出质量。

  它不仅适用于传统 VAE(变分自编码器)潜变量,也兼容近期 RAE 路线常用的语义潜变量,比如 SigLIP 和 DINOv2,这让它具备较强的通用性。

  从公开数据看,PiD 可把 512×512 图像潜变量直接解码并放大到 2048×2048 像素。在消费级 RTX 5090 上,峰值显存为 13 GB,耗时不足 1 秒;在 GB200 GPU 上,最快可达 210 ms。

  对比级联式扩散超分方案,PiD 端到端延迟最多快 5.9×,文中也概括为约 6×,同时视觉保真度更好。

速度快 6 倍!13GB 显存生成 2K 高清图,英伟达放大招

  系统推荐

  1. 如果你是日常工作学习使用,家庭版是大部分电脑出厂预装的系统,可以满足你的使用需求,推荐你下载:Windows11 25H2 X64 中文家庭版(前往下载

  2. 如果你正在寻找真正纯净的Windows11专业版系统,安装完成以后不捆绑软件,桌面干干净净,推荐你下载:Windows11 25H2 纯净专业版(前往下载

  3. 拥有高级的数据处理需求的数据科学家、CAD 专业人员、研究人员、媒体制作团队、平面设计师和动画师,推荐你下载:Windows11 25H2 64位 专业工作站版(前往下载

  以上是系统之家提供的最新资讯,感谢您的阅读,更多精彩内容请关注系统之家官网。