核心特性
Seedream 3.0 通过多项技术创新,推动了AI图像生成的新边界
高级对齐能力
解决复杂提示对齐问题,使生成内容更贴合用户的创作意图
4-8倍加速
通过一致噪声期望和重要性感知时间步采样,实现显著的推理速度提升
高分辨率输出
提供原生高分辨率输出(高达2K),呈现更高品质的视觉体验
技术摘要
2024 研究报告
我们开发了多项技术改进,以解决 Seedream 2.0 中存在的挑战,包括复杂提示的对齐、细粒度排版生成、视觉美感和保真度欠佳以及图像分辨率有限等问题。Seedream 3.0 的进步源于整个流程的改进,从数据构建到模型部署。在数据层面,我们采用缺陷感知训练范式和双轴协同数据采样框架,使数据集增加了一倍。此外,我们在预训练阶段采用了混合分辨率训练、跨模态 RoPE、表示对齐损失和分辨率感知时间步采样等多种有效技术。在后训练阶段,我们在 SFT 中利用多样化的美学字幕,并使用基于 VLM 的奖励模型进行扩展,从而实现了与人类偏好高度一致的输出。此外,Seedream 3.0 开创了一种新颖的加速范式。通过采用一致的噪声期望和重要性感知时间步采样,我们在保持图像质量的同时实现了 4 到 8 倍的加速。Seedream 3.0 相较于 Seedream 2.0 有了显著改进:它增强了整体能力,特别是在复杂汉字的文本渲染方面,这对专业排版生成至关重要。此外,它还提供原生高分辨率输出(高达 2K),使其能够生成具有高视觉质量的图像。.
arXiv:2504.11346查看原文