OpenAI تطلق ChatGPT Image 2.0 بقدرات تفكير متقدمة

أصدرت OpenAI نموذجًا جديدًا لتوليد الصور لمستخدميها، يُطلق على هذا النموذج اسم ChatGPT Image 2.0، وهو قادر على إنتاج صور دقيقة وجاهزة للاستخدام الفوري، وفقًا لـ OpenAI، يأتي هذا بعد أيام من إيقاف الشركة لنموذج Sora لتوليد الفيديو، وذلك لتركيز مواردها على تطوير قدرات البرمجة نظرًا للشعبية المتزايدة لنموذج Anthropic.

وفي منشور على مدونتها، ذكرت الشركة أن نموذجها الجديد لتوليد الصور يتبع تعليمات دقيقة، ويربط بين العناصر بدقة، ويُظهر النصوص في الصور، وتؤكد الشركة أن النموذج قادر على إنتاج صور تبدو “أقل اعتمادًا على الذكاء الاصطناعي وأكثر تصميمًا بعناية” بفضل حسه الفني وذوقه البصري، كما يُمكن لـ Image 2.0 إنشاء صور بنسب أبعاد مختلفة.

متوفر الآن بقدرات التفكير

اختبرت OpenAI نموذج توليد الصور الجديد هذا لفترة طويلة، وهو متاح الآن لجميع مستخدمي ChatGPT وCodex، يُعدّ نموذج ChatGPT Image 2.0 الجديد أول نموذج للشركة مزود بقدرات التفكير.

عندما يختار المستخدم وضع التفكير أو الوضع الاحترافي في ChatGPT، يستطيع Image 2.0 البحث في الإنترنت عن معلومات فورية، وإنشاء صور متعددة ومختلفة من طلب واحد، والتحقق من مخرجاته، تتوفر مخرجات متقدمة مدعومة بتقنيات الذكاء الاصطناعي لمستخدمي ChatGPT Plus وPro وBusiness.

تحسين سهولة الاستخدام ودقة التفاصيل

على الرغم من أن توليد الصور باستخدام الذكاء الاصطناعي ليس بالأمر الجديد، إلا أن المستخدمين واجهوا صعوبة في التعامل مع المخرجات، حيث كانت غالبًا ما تكون قريبة من المعنى المقصود، تقول OpenAI إن النموذج الجديد يوفر للمستخدمين منتجًا عمليًا وقابلًا للاستخدام، ويستطيع النموذج عرض عناصر دقيقة مثل “النصوص الصغيرة، والرموز، وعناصر واجهة المستخدم، والتركيبات الكثيفة، والقيود الأسلوبية الدقيقة”.

عرض توضيحي وتجربة واقعية

عرضت OpenAI أيضًا ChatGPT Image 2.0 عبر منشور على منصة X، حيث شاركت لقطة شاشة لمحادثة ChatGPT مع تعليق يوضح أنها ليست لقطة شاشة، احتوت الصورة المنشورة على جميع عناصر ChatGPT على نظام macOS.

وتستفيد OpenAI أيضًا من نجاح نموذج GPT-40 في توليد الصور، والذي حظي بشهرة واسعة مع رواج أفلام “استوديو جيبلي”، بفضل هذا النموذج الجديد، يُمكن للمستخدمين إنتاج صور بأنماط متنوعة، مثل مانغا سينين اليابانية، وملصقات الأفلام، ورسوم الباستيل الكوميدية من منتصف القرن العشرين، وغيرها.

دعم أقوى للنصوص وتعدد اللغات

كان المستخدمون يواجهون صعوبة في التعامل مع النصوص في الصور، نظرًا لكثرة الأخطاء الإملائية والنحوية، تؤكد OpenAI أن Image 2.0 يتجاوز اللغة الإنجليزية، ويتمتع بفهم متعدد اللغات، وتدّعي الشركة أن النموذج حقق تقدمًا ملحوظًا في اللغات غير اللاتينية، حيث يُمكنه عرض النصوص باللغات اليابانية والكورية والصينية والهندية والبنغالية بدقة.

ويُمكن لهذا النموذج أن يُفيد المستخدمين الراغبين في إنشاء كتاب أو قصة مصورة، حيث يُنجز جزءًا كبيرًا من العمل تلقائيًا، يمكن للمستخدمين طلب إنشاء مجموعة متناسقة من ثمانية مخرجات دفعة واحدة، وسيقوم البرنامج تلقائيًا ببناء ترابط الشخصيات والأشياء.

يمكن للمستخدمين أيضًا طلب إنشاء مجموعة متناسقة من ثمانية مخرجات دفعة واحدة من برنامج Image 2.0، وفي وضع التفكير، يمكنه إنشاء صور متعددة ومختلفة في آن واحد، حتى بنسب أبعاد ولغات مختلفة.