Технический отчет Seedream 3.0
Seedream 3.0 — высокопроизводительная китайско-английская двуязычная базовая модель для генерации изображений.
Ключевые особенности
Seedream 3.0 раздвигает границы генерации изображений с помощью ИИ благодаря множеству технических инноваций
Продвинутое согласование
Решает сложные задачи согласования запросов, обеспечивая лучшее соответствие сгенерированного контента творческим намерениям пользователя
Ускорение в 4-8 раз
Достигает значительного повышения скорости вывода благодаря согласованному ожиданию шума и выборке временных шагов с учетом важности
Вывод высокого разрешения
Обеспечивает изначальный вывод высокого разрешения (до 2K), обеспечивая превосходное визуальное качество
Техническое резюме
Мы представляем Seedream 3.0, высокопроизводительную китайско-английскую двуязычную базовую модель для генерации изображений. Мы разработали несколько технических улучшений для решения существующих проблем в Seedream 2.0, включая согласование со сложными запросами, создание точной типографики, недостаточно качественную визуальную эстетику и ограниченное разрешение изображений. В частности, усовершенствования Seedream 3.0 основаны на улучшениях всего процесса, от построения данных до развертывания модели.
На уровне данных мы удвоили набор данных, используя парадигму обучения с учетом дефектов и структуру совместной выборки данных с двойной осью. Кроме того, на этапе предварительного обучения мы применили несколько эффективных техник, таких как обучение со смешанным разрешением, кросс-модальный RoPE, выравнивание представлений и временную выборку с учетом разрешения. На этапе пост-обучения мы использовали разнообразные эстетические подписи в SFT и модель вознаграждения на основе VLM с масштабированием, что позволило получить результаты, хорошо соответствующие человеческим предпочтениям. Кроме того, Seedream 3.0 является пионером новой парадигмы ускорения. Применяя согласованное ожидание шума и выборку временных шагов с учетом важности, мы достигли 4-8-кратного ускорения при сохранении качества изображения. Seedream 3.0 демонстрирует значительные улучшения по сравнению с Seedream 2.0: он повышает общие возможности, в частности для рендеринга текста со сложными китайскими иероглифами, что важно для профессиональной типографики. Кроме того, он обеспечивает изначально высокое разрешение (до 2K), позволяя генерировать изображения высокого визуального качества.
Изучить полное исследование
Узнайте о полных технических деталях, методах оценки и результатах исследований Seedream 3.0
Прочитать полную статью (arXiv:2504.11346)