小红书新发布的一个编码器SSR-Encoder,可以实现从一张图片种提取不同的主题(人物、物体等)特征生成图像。与 SD 现有的能力都能结合,Animatediff 也可以。
SSR-Encoder,这是一种新架构,旨在从单个或多个参考图像中选择性地捕获任何主题。它响应各种查询模式,包括文本和掩模,而无需在测试时进行微调。
SSR-Encoder结合了一个Token-to-Patch Aligner,用于将查询输入与图像块对齐,以及一个细节保留的主题编码器,用于提取和保留主题的精细特征,从而生成主题嵌入。
这些嵌入与原始文本嵌入结合使用,条件化生成过程。SSR-Encoder以其模型泛化性和效率为特点,适应于一系列自定义模型和控制模块。通过Embedding Consistency Regularization Loss进行增强,以改进训练。