在当前的AIGC浪潮中,扩散模型无疑是图像生成领域的绝对主力。我们熟知的 Stable Diffusion 等模型,大多在一种被称为“潜在空间”的低维数据空间里工作。这个潜在空间通常由一个变分自编码器(Variational Autoencoder, VAE)构建,其核心任务是尽可能无损地压缩和重建图像的像素细节。 与此同时,在计算机视觉的另一重要分支——视觉“理解”领域,像 DINO、CLIP ...