✨ 全新发布

Seedream 3.0 技术报告

Seedream 3.0 是一款高性能的中英双语图像生成基础模型。

立即查看论文

核心特性

Seedream 3.0 通过多项技术创新，推动了AI图像生成的新边界

高级对齐能力

解决复杂提示对齐问题，使生成内容更贴合用户的创作意图

4-8倍加速

通过一致噪声期望和重要性感知时间步采样，实现显著的推理速度提升

高分辨率输出

提供原生高分辨率输出（高达2K），呈现更高品质的视觉体验

技术摘要

2024 研究报告

我们开发了多项技术改进，以解决 Seedream 2.0 中存在的挑战，包括复杂提示的对齐、细粒度排版生成、视觉美感和保真度欠佳以及图像分辨率有限等问题。Seedream 3.0 的进步源于整个流程的改进，从数据构建到模型部署。在数据层面，我们采用缺陷感知训练范式和双轴协同数据采样框架，使数据集增加了一倍。此外，我们在预训练阶段采用了混合分辨率训练、跨模态 RoPE、表示对齐损失和分辨率感知时间步采样等多种有效技术。在后训练阶段，我们在 SFT 中利用多样化的美学字幕，并使用基于 VLM 的奖励模型进行扩展，从而实现了与人类偏好高度一致的输出。此外，Seedream 3.0 开创了一种新颖的加速范式。通过采用一致的噪声期望和重要性感知时间步采样，我们在保持图像质量的同时实现了 4 到 8 倍的加速。Seedream 3.0 相较于 Seedream 2.0 有了显著改进：它增强了整体能力，特别是在复杂汉字的文本渲染方面，这对专业排版生成至关重要。此外，它还提供原生高分辨率输出（高达 2K），使其能够生成具有高视觉质量的图像。.

arXiv:2504.11346查看原文

查看完整研究

了解 Seedream 3.0 的完整技术细节、评估方法和研究成果

阅读完整论文 (arXiv:2504.11346)