主要機能
Seedream 3.0は複数の技術革新を通じて、AI画像生成の境界を押し広げています
高度な整合性
複雑なプロンプト整合の課題を解決し、生成コンテンツをユーザーの創造的意図により適合させます
4-8倍の高速化
一貫したノイズ期待値と重要度対応時間ステップサンプリングによる大幅な推論速度の向上を実現
高解像度出力
最大2Kのネイティブ高解像度出力を提供し、優れた視覚品質を実現
技術概要
私たちが開発したSeedream 3.0は、中国語と英語の両方に対応した高性能な画像生成基盤モデルです。Seedream 2.0で課題となっていた複雑なプロンプトとの整合性、繊細なタイポグラフィ生成、視覚的な美しさや忠実度の最適化、限られた画像解像度といった問題に対処するため、様々な技術改良を実現しました。具体的には、Seedream 3.0の進歩はデータ構築からモデル展開まで、全工程における改善から生まれています。データ層では、欠陥を考慮したトレーニングパラダイムと二軸協調データサンプリングフレームワークを用いてデータセットを2倍にしました。さらに、事前トレーニング段階では、混合解像度トレーニング、クロスモダリティRoPE、表現アライメント損失、解像度対応時間ステップサンプリングなど、複数の効果的な技術を採用しています。トレーニング後の段階では、SFTで多様な美的キャプションを活用し、スケーリングを伴うVLMベースの報酬モデルを使用することで、人間の好みとよく一致する出力を実現しています。さらに、Seedream 3.0は新しい高速化パラダイムの先駆けとなっています。一貫したノイズ期待値と重要度を考慮した時間ステップサンプリングを採用することで、画質を維持しながら4〜8倍の高速化を実現しました。Seedream 3.0はSeedream 2.0に比べて大幅な改善を示しています:全体的な機能が向上し、特にプロフェッショナルなタイポグラフィ生成に重要な複雑な中国語文字のテキストレンダリングに優れています。さらに、ネイティブな高解像度出力(最大2K)を提供し、高い視覚品質の画像を生成することができます。.