أطلقت OpenAI أ نموذج جديد للذكاء الاصطناعي لتوليد الصور يوم الثلاثاء، يطلق عليه اسم ChatGPT Images 2.0. يمكن لهذا النموذج إنشاء أكثر من صورة واحدة من موجه واحد، مثل كتيب الدراسة بأكمله، بالإضافة إلى إخراج النص، بما في ذلك اللغات غير الإنجليزية مثل الصينية والهندية. هذا الإصدار متاح عالميًا لمستخدمي ChatGPT وCodex، مع إصدار أكثر قوة متاح للمشتركين الذين يدفعون رسومًا.
عندما تصدر أي شركة كبرى في مجال الذكاء الاصطناعي نموذجًا جديدًا للصور، يمكنها إحياء الاهتمام وتعزيز الاستخدام، خاصة إذا تبنى مستخدمو وسائل التواصل الاجتماعي اتجاهًا قابلاً للميمات، مما يؤدي إلى تحويل صور أنفسهم. في العام الماضي، كان إطلاق Google لنموذج Nano Banana بمثابة لحظة كبيرة للشركة، خاصة عندما بدأ المستخدمون في نشر تماثيل واقعية للغاية لأنفسهم عبر الإنترنت. في وقت سابق من هذا العام، أحدثت صور ChatGPT ضجة على وسائل التواصل الاجتماعي حيث شارك المستخدمون رسومًا كاريكاتورية تم إنشاؤها بواسطة الذكاء الاصطناعي.
ما هو المختلف؟
وبما أن النموذج الجديد يمكنه الاستفادة من إمكانيات “الاستدلال” الخاصة بـ ChatGPT، فيمكن لـ Images 2.0 البحث في الإنترنت عن معلومات حديثة وإنشاء أكثر من صورة واحدة في المرة الواحدة. في الأساس، يمكن للروبوت استخدام خطوات إضافية لإخراج أجيال أكثر شمولاً من موجه واحد. يحتوي Images 2.0 أيضًا على تاريخ قطع المعرفة الأحدث: ديسمبر 2025.
وهذا يعني أيضًا أن مخرجات النموذج الجديد أكثر تفصيلاً. على سبيل المثال، قمت بإنشاء مخطط معلوماتي يتضمن توقعات الطقس في سان فرانسيسكو لليوم التالي، بالإضافة إلى الأنشطة التي تستحق القيام بها. تضمنت الصورة التي أنشأها ChatGPT تفاصيل دقيقة عن الطقس لليوم الممطر، إلى جانب رسومات دقيقة المظهر لمبنى Ferry، ومسرح Castro، وبيوت السيدات المرسومة، وهرم Transamerica.
بالإضافة إلى ذلك، يعد Images 2.0 أكثر قابلية للتخصيص للمستخدمين الذين يريدون نسب عرض إلى ارتفاع فريدة لمخرجات الصور. يمكن للنموذج الجديد إنشاء صور تتراوح من 3:1 عرضًا إلى 1:3 طولًا، ويمكن للمستخدمين ضبط حجم الصورة كجزء من مطالبتهم بأداة الذكاء الاصطناعي.
الانطباعات الأولى
بعد بضع ساعات من إنشاء الصور باستخدام النموذج الجديد، أعجبت عمومًا بقدرات عرض النص، باللغة الإنجليزية على الأقل. منذ وقت ليس ببعيد، كانت مخرجات الصور التي تحتوي على نص، من أي من النماذج الرئيسية، تتضمن في كثير من الأحيان العديد من الأحرف أو الكلمات المشوهة مع أحرف إضافية خاطئة. واجه ChatGPT صعوبة في تصنيف الصور بدقة قبل عامين، وبالتالي فإن المخرجات الأكثر نظافة وتعقيدًا من Images 2.0 تعد علامة على التحسين المستمر. ركزت Google أيضًا على تحسين مخرجات الصور التي تحتوي على نص في إصداراتها الأخيرة من Nano Banana.










