黑森林实验室发布FLUX.2:一款适用于生产图像流水线的32位流匹配变压器。
黑森林实验室发布了FLUX.2,这是其第二代图像生成和编辑系统。FLUX.2旨在针对现实世界的创意工作流程,如营销资产、产品摄影、设计布局和复杂的信息图表,支持高达4兆像素的编辑,并对布局、标志和排版具有强大的控制。
FLUX.2产品系列和FLUX.2[dev]
FLUX.2系列产品包括托管API和开放权重:
- FLUX.2[pro] 是托管API层。它针对封闭模型的状态艺术质量,具有高提示遵循和低推理成本,可在BFL游乐场、BFL API和合作伙伴平台上获得。
- FLUX.2[flex] 提供如步骤数和引导尺度等参数,使开发者可以在延迟、文本渲染精度和视觉细节之间进行权衡。
- FLUX.2[dev] 是开放权重检查点,源自基本FLUX.2模型。它被认为是功能最强大的开放权重图像生成和编辑模型,将文本到图像和多图像编辑集成在一个检查点中,共有320亿个参数。
- FLUX.2[klein] 是即将推出的开源Apache 2.0变体,从基本模型中精简出的尺寸,具有许多相同的功能。
所有变体都支持单个模型从文本和多个参考来源进行图像编辑,从而消除了维护生成和编辑的单独检查点的需求。
架构、潜在流程和FLUX.2 VAE
FLUX.2使用潜在流程匹配架构。其核心设计将一个Mistral-3 24B视觉语言模型与一个归一化流变换器相结合,该变换器作用于潜在图像表示。视觉语言模型提供语义基础和世界知识,而变换器主干学习空间结构、材料和构图。
该模型被训练在文本条件下将噪声潜在表示映射到图像潜在表示,因此相同的架构支持文本驱动的合成和编辑。对于编辑,潜在表示初始化自现有图像,然后在同一流程过程中更新,同时保持结构。
新的FLUX.2 VAE定义了潜在空间。它旨在平衡可学习性、重建质量和压缩,并在Hugging Face上以Apache 2.0许可单独发布。此自动编码器是所有FLUX.2流程模型的基础,也可以在其他生成系统中重复使用。

生产工作流程的功能
FLUX.2文档和Diffusers集成强调了几个关键功能:
- 多参考支持: FLUX.2可以结合多达10个参考图像,以保持输出的角色个性、产品外观和风格。
- 4MP的逼真细节: 该模型可以编辑和生成高达4兆像素的图像,具有改进的纹理、皮肤、织物、手和光照,适用于产品照片和类似照片的用例。
- 强大的文本和布局渲染: 它可以渲染复杂的字体、信息图表、表情包和用户界面布局,具有小而易读的文本,这在许多较旧模型中是一个共同的弱点。
- 世界知识和空间逻辑: 该模型经过培训,以实现更多基于现实的光照、透视和场景构图,从而减少了伪影和合成外观。

关键要点
- FLUX.2是一个32B潜在流程匹配变换器,它在单个检查点中统一了文本到图像、图像编辑和多参考构图。
- FLUX.2[dev]是开放权重变体,配有Apache 2.0许可的FLUX.2 VAE,而核心模型权重使用FLUX.2-dev非商业许可证,并强制进行安全筛选。
- 该系统支持高达4兆像素的生成和编辑,强大的文本和布局渲染,以及多达10个视觉参考,以便一致的角色、产品和风格。
- 全精度推理需要超过80GB VRAM,但4位和FP8量化管道以及卸载使得FLUX.2[dev]可在装有18GB至24GB GPU的机器上使用,甚至可在具有足够系统RAM的8GB卡上使用。
编辑说明
FLUX.2是开放权重视觉生成的重大步骤,因为它将32B归一化流变换器、Mistral 3 24B视觉语言模型和FLUX.2 VAE组合成一个单一的、高保真的文本到图像和编辑管道。清晰的VRAM简档、量化变体以及与Diffusers、ComfyUI和Cloudflare Workers的强大集成使得它适用于真正的业务负载,而不仅限于基准测试。这次发布将开放图像模型推向接近生产级创意基础设施。
查阅技术细节、模型权重和代码存储库。请随意查看我们的GitHub页面,包括教程、代码和笔记本。还可以在Twitter上关注我们,并别忘了加入我们的10万+机器学习SubReddit和订阅我们的时事通讯。等等!你在Telegram上吗?现在您也可以加入我们的Telegram群组。
文章《Black Forest Labs Releases FLUX.2: A 32B Flow Matching Transformer for Production Image Pipelines》首先出现在MarkTechPost。