التقرير التقني لـ Seedream 3.0
Seedream 3.0 هو نموذج أساسي ثنائي اللغة (الصينية والإنجليزية) عالي الأداء لتوليد الصور.
الميزات الأساسية
يدفع Seedream 3.0 حدود توليد الصور بالذكاء الاصطناعي من خلال ابتكارات تقنية متعددة
محاذاة متقدمة
يحل تحديات محاذاة التعليمات المعقدة، مما يضمن توافق المحتوى المولد بشكل أفضل مع النية الإبداعية للمستخدم
تسريع 4-8 أضعاف
يحقق تحسينات كبيرة في سرعة الاستدلال من خلال توقعات ضوضاء متسقة وأخذ عينات الخطوة الزمنية الواعية بالأهمية
إخراج عالي الدقة
يوفر إخراجًا أصليًا عالي الدقة (يصل إلى 2K)، مما يقدم جودة بصرية فائقة
ملخص تقني
نقدم لكم Seedream 3.0، وهو نموذج أساسي ثنائي اللغة (الصينية والإنجليزية) عالي الأداء لتوليد الصور. لقد طورنا العديد من التحسينات التقنية لمعالجة التحديات الموجودة في Seedream 2.0، بما في ذلك المواءمة مع التعليمات المعقدة، وإنشاء طباعة دقيقة، والجماليات البصرية وجودة الصورة دون المستوى الأمثل، ومحدودية دقة الصور. على وجه التحديد، تنبع تطورات Seedream 3.0 من التحسينات في جميع مراحل العملية، من بناء البيانات إلى نشر النموذج.
على مستوى البيانات، قمنا بمضاعفة مجموعة البيانات باستخدام نموذج تدريب يراعي العيوب وإطار أخذ عينات البيانات التعاوني ثنائي المحور. علاوة على ذلك، اعتمدنا العديد من التقنيات الفعالة مثل تدريب الدقة المختلطة، وتقنية RoPE عبر الوسائط المتعددة، وفقدان محاذاة التمثيل، وأخذ عينات الخطوة الزمنية الواعية بالدقة في مرحلة ما قبل التدريب. خلال مرحلة ما بعد التدريب، استخدمنا تسميات توضيحية جمالية متنوعة في SFT، ونموذج مكافأة قائم على VLM مع توسيع النطاق، مما يحقق مخرجات تتوافق جيدًا مع تفضيلات البشر. علاوة على ذلك، يعد Seedream 3.0 رائدًا في نموذج تسريع جديد. من خلال توظيف توقعات ضوضاء متسقة وأخذ عينات الخطوة الزمنية الواعية بالأهمية، حققنا تسريعًا بمقدار 4 إلى 8 مرات مع الحفاظ على جودة الصورة. يُظهر Seedream 3.0 تحسينات كبيرة مقارنة بـ Seedream 2.0: فهو يعزز القدرات العامة، خاصة في عرض النصوص بالأحرف الصينية المعقدة، وهو أمر مهم لإنشاء طباعة احترافية. بالإضافة إلى ذلك، فإنه يوفر إخراجًا أصليًا عالي الدقة (يصل إلى 2K)، مما يتيح له إنشاء صور ذات جودة بصرية عالية.
استكشاف البحث الكامل
تعرف على التفاصيل التقنية الكاملة لـ Seedream 3.0، وطرق التقييم، ونتائج البحث
قراءة البحث كاملاً (arXiv:2504.11346)