एक उपकरण जो इतना लोकप्रिय साबित हुआ, ओपनआईए को रिलीज़ के एक दिन के भीतर मुफ्त उपयोगकर्ताओं तक पहुंच को रद्द करना पड़ा। इस सप्ताह के शुरू में जारी कंपनी की छवि पीढ़ी जोड़ (जिसे सीईओ सैम अल्टमैन “अविश्वसनीय तकनीक” के रूप में वर्णित करता है), जीपीटी -4 ओ मॉडल द्वारा रेखांकित चैट के लिए एक महत्वपूर्ण कदम है, क्योंकि यह बढ़ती प्रतिस्पर्धा के साथ प्रतिस्पर्धा करता है।
यह पहली बार नहीं है जब एक जेनेरिक आर्टिफिशियल इंटेलिजेंस (एआई) चैटबॉट ने संकेतों के आधार पर छवियां बनाने में निपुण साबित किया है। यह कुछ XAI के ग्रोक और Google मिथुन भी करते हैं। लेकिन यह प्रशिक्षण की विधि को बदलकर, पहले की तरह यथार्थवाद को बढ़ावा दे सकता है।
“GPT-4O छवि पीढ़ी सटीक रूप से प्रस्तुत करने वाले पाठ पर उत्कृष्टता प्राप्त करता है, ठीक से संकेत देता है, और 4O के निहित ज्ञान आधार और चैट संदर्भ का लाभ उठाता है-जिसमें अपलोड की गई छवियों को ट्रांसफ़ॉर्म करना या उन्हें दृश्य प्रेरणा के रूप में उपयोग करना शामिल है,” ओपनई ने कहा, अपडेट का विवरण देते हुए।
इसकी विशिष्टता ग्रैन्युलैरिटी में रहती है, जिसमें “स्टूडियो घिबली” जैसी शैलियाँ शामिल हैं, जो सोशल मीडिया पर अविश्वसनीय रूप से लोकप्रिय साबित हो रही हैं। GPT-4O एक पीढ़ी में विस्तृत होने के लिए 20 विभिन्न वस्तुओं की मांग करने वाले संकेतों को संभाल सकता है। Openai का दावा है “अन्य सिस्टम लगभग 5-8 वस्तुओं के साथ संघर्ष करते हैं।”
समझ में इस सुधार के पीछे तर्क मनुष्यों का एक समूह है जो प्रशिक्षण डेटा को श्रमसाध्य रूप से लेबल करता है। यह, ओपनई उम्मीद है, सटीकता और समझ को बढ़ावा देगा। “वे अपने लक्षणों और संबंधों के लिए वस्तुओं के तंग बंधन को बेहतर नियंत्रण के लिए अनुमति देता है,” वे कहते हैं।
स्टूडियो घिबली, एक जापानी एनीमेशन स्टूडियो की स्थापना 1985 में हयाओ मियाजाकी, इसाओ ताकाहता और तोशियो सुजुकी द्वारा की गई थी, जो अपने हाथ से तैयार एनिमेशन के लिए जाना जाता है, और नरम रंग पट्टियों के लिए विशिष्ट, विस्तृत प्राकृतिक सेटिंग्स, और हरे-भरे पृष्ठभूमि। उनके कुछ कार्यों में शामिल हैं अपहरण किया, मेरे पड़ोसी टोटोरोऔर हॉवेल का चलती महल फिल्में।
जिस तरह से यह काम है, एक उपयोगकर्ता एक छवि अपलोड करता है, या एक दृश्य का वर्णन करता है, पाठ संकेतों का उपयोग करके। इसका एक उदाहरण हो सकता है “इस तस्वीर को एक स्टूडियो घिबली-स्टाइल एनीमे चित्रण में नरम बनावट, गर्म रंग और सनकी विवरण के साथ कल्पना करें।” कुछ सेकंड में, GPT-4O एक छवि उत्पन्न करता है।
घिबली के सौंदर्य तत्वों की नकल करने के लिए मॉडल की क्षमता छवियों और पाठ के बड़े पैमाने पर डेटा सेटों पर अपने प्रशिक्षण से उपजी है, हालांकि Openai बारीकियों का खुलासा नहीं करता है। CHATGPT में 400 मिलियन सक्रिय उपयोगकर्ता हैं, जिनमें से 2 मिलियन उद्यम ग्राहकों का भुगतान कर रहे हैं। कंपनी ने व्यक्तिगत ग्राहकों को भुगतान करने के लिए नवीनतम नंबर साझा नहीं किए हैं।
रुझान वायरल थे, इतने त्वरित वाणिज्य प्लेटफार्मों ज़ोमैटो और स्विगी भी शामिल हो गए, जिसमें डिलीवरी भागीदारों और उत्पादों की ‘घिबली-फिट’ छवियों के पदों के साथ शामिल हुए।
यह पहली बार नहीं है जब छवियों को अलग -अलग शैलियों में बदलने की क्षमता, सोशल मीडिया उपयोगकर्ताओं का ध्यान आकर्षित किया है।
2016 में, PRISMA ऐप, ने जल्दी से लोकप्रियता हासिल की, न्यूरल नेटवर्क और AI का उपयोग करके पाब्लो पिकासो और नॉर्वेजियन पेंटर एडवर्ड मंच सहित प्रसिद्ध कलाकारों की अलग -अलग स्टाइलिसेशन देने के लिए। शुरू में Apple iPhones के लिए iOS पर लॉन्च किया गया था, यह डेब्यू सप्ताह में 7.5 मिलियन बार डाउनलोड किया गया था। बाद में जारी एंड्रॉइड ऐप ने पहले दिन 1.7 मिलियन डाउनलोड किए।
वे शुरुआती दिन थे, एआई प्रचलन में होने से बहुत पहले।
Openai का कहना है कि नए इमेज जेनरेशन मॉडल को ऑनलाइन छवियों और पाठ के एक संयुक्त वितरण पर प्रशिक्षित किया गया है, जिसने उन्हें यह जानने में सक्षम बनाया कि छवियां भाषा से कैसे संबंधित हैं, बल्कि वे एक दूसरे से कैसे संबंधित हैं।
‘सुदृढीकरण लर्निंग’ विधि जो सुधार के लिए मानवीय प्रतिक्रिया का उपयोग करती है, “आक्रामक पोस्ट-ट्रेनिंग” के साथ-साथ एआई मॉडल को पीढ़ियों के साथ बेहतर दृश्य प्रवाह देने के लिए माना जाता है, निरंतरता और प्रासंगिक जागरूकता के लिए दावा किए गए सुधारों को रेखांकित करता है।
कंपनी को पता है कि यथार्थवाद के स्तर से आक्रामक कृतियां भी हो सकती हैं। CHATGPT का उपयोग करने वाली सभी छवि पीढ़ियां C2PA (सामग्री सिद्धता और प्रामाणिकता के लिए गठबंधन) मेटाडेटा दिशानिर्देशों का पालन करेंगी, जैकी शैनन की पुष्टि करती है, जो चैटगिप्ट मल्टीमॉडल उत्पाद लीड है। यह दर्शकों को पीढ़ियों और वास्तविक छवियों के बीच अंतर करने की अनुमति देगा,
उदाहरण के लिए, उन्हें सक्रिय रूप से उन संकेतों के लिए निगरानी करनी चाहिए जो हिंसा, बाल यौन शोषण सामग्री और यौन डीपफेक की छवियों को उत्पन्न करने का इरादा कर सकते हैं।
अल्टमैन कहते हैं, “हम जिस चीज के लिए लक्ष्य रखना चाहते हैं, वह यह है कि उपकरण आक्रामक सामान तब तक नहीं बनाती है जब तक आप इसे नहीं चाहते हैं, जिस स्थिति में यह होता है।”
“जैसा कि हम अपने मॉडल कल्पना के बारे में बात करते हैं, हमें लगता है कि इस बौद्धिक स्वतंत्रता और नियंत्रणों को उपयोगकर्ताओं के हाथों में रखना सही बात है, लेकिन हम यह देखेंगे कि यह कैसे जाता है और समाज को सुनता है,” वे कहते हैं।
Openai, कलाकारों और रचनाकारों के साथ अपने पहले के लाइसेंसिंग और सहमति की परेशानियों का संज्ञान लेते हुए, का कहना है कि CHATGPT के भीतर दृश्य पीढ़ियों के लिए नीतियां हैं।
“हम कलाकारों के अधिकारों का सम्मान कर रहे हैं कि हम कैसे आउटपुट करते हैं, और हमारे पास ऐसी नीतियां हैं जो हमें उन छवियों को उत्पन्न करने से रोकती हैं जो सीधे किसी भी जीवित कलाकारों के काम की नकल करते हैं,” ब्रैड लाइटकैप, ओपनईएआई के सीओओ कहते हैं।
एक अन्य कारण नवीनतम CHATGPT अपडेट एक बड़ी बात है क्योंकि यह GPT-4O जैसे मॉडल के आधार पर पूरी तरह से एकीकृत मल्टीमॉडल सिस्टम के लिए पाठ-केवल या बाह्य रूप से निर्भर छवि पीढ़ी उपकरण (जैसे कि Dall-E के साथ पिछले CHATGPT संस्करण) से एक महत्वपूर्ण संक्रमण का प्रतिनिधित्व करता है।
वास्तव में, यह महत्वपूर्ण प्रगति का प्रतिनिधि भी है जो एआई ने पिछले कुछ महीनों में बनाया है, जिसमें चीनी कंपनी दीपसेक के कथित रूप से मितव्ययी दृष्टिकोण एआई मॉडल के निर्माण के लिए, और एजेंटिक एआई उपकरणों का उदय शामिल है जो एक उद्यम के भीतर कार्यों को बदलना चाहते हैं।
Google का इमेजेन 3 मॉडल वेब और स्मार्टफोन ऐप पर मिथुन में मिथुन चैटबॉट की छवि पीढ़ी क्षमताओं को रेखांकित करता है। छवि पीढ़ी की कुछ कार्यक्षमता मुफ्त में उपलब्ध हैं, लेकिन अधिक विस्तृत विकल्प एआई प्रीमियम योजना का हिस्सा हैं ( ₹1,950 प्रति माह)।
एक छवि पीढ़ी पर, मिथुन उपयोगकर्ताओं को एक संकेत में अधिक विवरण जोड़ने का प्रयास करने के लिए प्रेरित करता है।
XAI के ग्रोक 3, जिसे कुछ सप्ताह पहले अपनी चैटबॉट क्षमताओं के लिए एक प्रभावशाली अपडेट के बाद सही तरीके से स्पॉटलाइट मिला था, भी 2025 से पहले से छवि पीढ़ी थी – और सभी ग्रोक उपयोगकर्ताओं के लिए इसकी मुफ्त मुफ्त थी। निश्चित रूप से जनरेशन डिटेलिंग और स्टाइल वरीयताओं के बारे में विषय -वस्तु हो सकती है।
Openai का इरादा इसे सब्सक्रिप्शन टियर में उपलब्ध कराने का था, लेकिन Altman ने पुष्टि की कि “हमारे फ्री टियर के लिए रोलआउट दुर्भाग्य से थोड़ी देर के लिए देरी होने वाली है।” अभी के लिए, Chatgpt Plus ( ₹1,999 प्रति माह) और चटप्ट प्रो ( ₹19,900 प्रति माह) सब्सक्राइबर नई देशी छवि-जनरेशन क्षमताओं तक पहुंच रहेगा।
अन्य एआई कंपनियों को पकड़ना होगा, और तेजी से पकड़ना होगा। जैसे कि एंथ्रोपिक द्वारा क्लाउड, जो छवियों को संसाधित कर सकता है, लेकिन अभी तक बाहरी उपकरणों के बिना उन्हें मूल रूप से उत्पन्न नहीं करता है। एंथ्रोपिक ने हालांकि सुझाव दिया है कि भविष्य के अपडेट से वह बदल जाएगा। Microsoft Copilot भी छवियों को उत्पन्न करता है, लेकिन AA पूरी तरह से स्वतंत्र प्रणाली नहीं है और Openai के Dall-E 3 मॉडल पर निर्भर करता है।
Apple ने भी अपने Apple इंटेलिजेंस सूट के हिस्से के रूप में इमेज प्लेग्राउंड जारी किया है, जिस पर नियमित अपडेट के साथ काम चल रहा है। यह iPhone, iPad और Mac पर उपलब्ध है, जिसमें Apple के अपने ऐप्स के साथ निकट एकीकरण है, जिसमें संदेश और नोट्स शामिल हैं।