Google भारत में मिथुन उपयोगकर्ताओं के लिए नई सुविधाओं का एक महत्वपूर्ण सेट अनलॉक कर रहा है, और देश में एआई गोद लेने पर अपनी तरह का पहला डेटा जारी किया है। यह नई सुविधाओं के लिए एक दो-आयामी दृष्टिकोण है, जो मिथुन के भीतर कृत्रिम बुद्धिमत्ता (एआई) वीडियो पीढ़ी क्षमताओं को एकीकृत करता है, साथ ही एक एआई एजेंट सांसारिक संदर्भ को समझने में सक्षम है यदि कोई उपयोगकर्ता फोन के कैमरे तक पहुंचने में सक्षम बनाता है या फोन की स्क्रीन पर क्या है। यह, Google उम्मीद है, मिथुन की प्रासंगिकता को चौड़ा कर देगा, अपने शस्त्रागार उपकरणों को जोड़ देगा, जिसमें पहले से ही एंड्रॉइड फोन के साथ -साथ Google के कार्यक्षेत्र और खोज में AI ओवरव्यू शामिल हैं।
प्रतियोगिता का स्पेक्ट्रम भी है। पिछले कुछ हफ्तों में, नई संभावित क्षमताओं को खोजने वाले एआई मॉडल के संदर्भ में महत्वपूर्ण प्रगति हुई है, हालांकि बहुत सारी बातचीत ठीक उसी तरह बनी हुई है – संभावित, और संभावित उद्देश्य (बेशक बेंचमार्क के बारे में बात करने का प्रयास है, लेकिन वे वास्तविक दुनिया में अनुवाद नहीं कर सकते हैं)। Openai के O3 और O4-Mini, XAI ने स्टूडियो को ग्रोक में जोड़ा, एन्थ्रोपिक के क्लाउड को एक शोध लिफाफा जोड़ना, और Microsoft एज वेब ब्राउज़र में कोपिलॉट विज़न को जोड़ रहा है, फोकस में उपभोक्ताओं के साथ तेजी से विकास के कुछ चित्र। स्पार्क यकीनन जनवरी में चीनी एआई दीपसेक की रिहाई थी। प्रसिद्धि के लिए उनका दावा एआई मॉडल बनाने के लिए सस्ती लागत के नियमों को फिर से लिखना था।
Google DeepMind के वरिष्ठ निदेशक मनीष गुप्ता ने HT के साथ बातचीत में कहा, “एक रोमांचक विकास मिथुन 2.5 मॉडल का लॉन्च रहा है, जिसने वास्तव में जेनेरेटिव एआई क्षमताओं को एक नए स्तर पर ले लिया है।”
वीओ 2 वीडियो जनरेशन मॉडल अब मिथुन के भीतर एकीकरण पाता है, जिससे एक संकेत के साथ विस्तृत और प्राकृतिक दिखने वाले वीडियो उत्पन्न करने की क्षमता मिलती है। अभी के लिए, यह 720p रिज़ॉल्यूशन पर आठ-सेकंड का वीडियो क्लिप बनाता है, जिसे 16: 9 लैंडस्केप प्रारूप में MP4 फ़ाइल के रूप में दिया जाता है। Google जोर देता है कि विस्तृत संकेत महत्वपूर्ण हैं कि उत्पन्न वीडियो कितने अच्छे दिखते हैं – चाहे वह एक छोटी कहानी हो, एक दृश्य अवधारणा, या एक विशिष्ट दृश्य हो। वीडियो जनरेशन क्षमताएं मिथुन उन्नत ग्राहकों के लिए अनन्य हैं – भारत में, यह लागत ₹1,950 प्रति माह।
गूगल इंडिया में मार्केटिंग के उपाध्यक्ष शेखर खोसला, “,” इस हद तक, कोई भी इसे आर्किटेक्चर, डिज़ाइन और फिल्म निर्माण जैसे स्थानों की भीड़ में देख सकता है।
Google इस बात की पुष्टि करता है कि मिथुन का वीडियो आउटपुट एक ही सामग्री नीतियों और रेलिंग पर आधारित होगा जो सुरक्षा के संदर्भ में व्यापक जनरेटिव एआई उपयोग को परिभाषित करता है, जो कि हिंसा, बाल दुर्व्यवहार, हिंसा, आत्म-हानि और खतरनाक गतिविधियों जैसे नशीली दवाओं के उपयोग को दर्शाता है। वास्तविक दुनिया में एक उपयोगकर्ता द्वारा शूट किए गए लोगों से उत्पन्न वीडियो को अलग करने के लिए, इन पीढ़ियों में प्रत्येक फ्रेम में एम्बेडेड सिंथिड डिजिटल वॉटरमार्क होगा, यह दर्शाता है कि वीडियो एआई-जनित हैं।
“उन चीजों में से एक जहां हमने एक कंपनी के रूप में कुछ नेतृत्व योगदान दिया है, एक कंपनी के रूप में सिंथ आईडी नामक तकनीक में है। यह एक शक्तिशाली तकनीक है जहां विभिन्न प्रकार की सामग्री, चाहे वह वीडियो हो या एक छवि या पाठ, हम एक डिजिटल हस्ताक्षर बनाने में सक्षम हैं, जो कि एआई उत्पन्न करने वाली किसी भी सामग्री को टैग करने के लिए एआई उत्पन्न की गई सामग्री का हिस्सा है और किसी भी सामग्री को चिह्नित करता है।
सिंथ आईडी अब ओपन सोर्स के रूप में भी उपलब्ध है।
साथ ही, मिथुन लाइव अब एंड्रॉइड फोन पर आ रहा है जो मिथुन ऐप (Google के अपने पिक्सेल 9 फोन, और सैमसंग गैलेक्सी S25 अल्ट्रा सहित) को चलाने में सक्षम है, और फोन के कैमरे के माध्यम से उपयोगकर्ता के आसपास दुनिया के संदर्भ को समझने में सक्षम होगा या स्क्रीन पर क्या है। कैमरे से संदर्भ समस्या निवारण में मदद कर सकता है यदि आपके आस -पास कोई भौतिक वस्तु ठीक से काम नहीं कर रही है, या एक रहने की जगह को व्यवस्थित करने में मदद करती है।
मिथुन लाइव के साथ फोन स्क्रीन पर क्या साझा करने की क्षमता का मतलब है कि एक परियोजना के साथ शुरुआत करने में मदद, गणना या यहां तक कि अध्ययन के साथ सहायता, और यहां तक कि खरीदारी की सलाह भी।
मिथुन लाइव के बहुत सारे प्रासंगिक स्मार्ट प्रोजेक्ट एस्ट्रा प्रोटोटाइप से उभरते हैं, जिसे कंपनी ने ट्रस्टेड टेस्टर कार्यक्रम के तहत उपलब्ध कराया था। अधिक सक्षम मिथुन लाइव को मिथुन उन्नत सदस्यता की आवश्यकता नहीं होती है, और यह उन सभी एंड्रॉइड फोन में उपलब्ध है जो डिवाइस पर मिथुन एआई सहायक को चलाने में सक्षम हैं। अभी के लिए, इस पर कोई शब्द नहीं है जब अद्यतन मिथुन लाइव Apple iPhone को अपने तह में लाएगा।
मिथुन लाइव की प्रतिक्रियाओं का मूल्य व्यक्तियों के लिए भिन्न हो सकता है, लेकिन Google को उम्मीद है कि कई भारतीय भाषाओं के लिए समर्थन प्रासंगिकता के साथ मदद करता है। मिथुन, इस समय, भारतीय भाषाओं के स्पेक्ट्रम के बीच हिंदी, बंगाली, गुजराती, कन्नड़, मलयालम, तमिल, तेलुगु और उर्दू का समर्थन करता है।
“हम खुश नहीं हैं और हम अधिक करना चाहते हैं। अंतर्निहित मॉडल कई और भाषाओं को समझता है और हम 22 अनुसूचित भाषाओं से परे जाने की कोशिश कर रहे हैं, जिसे पवित्र कब्र माना जाता है। भारत में बहुत सारी भाषाएं बोली जाती हैं और हम अपने मॉडल को 100 भारतीय भाषाओं को समझना चाहते हैं,” गुप्ता दृष्टि बताते हैं।
यह भी पढ़ें: एआई एजेंट रचनात्मकता पर पुनर्विचार करने का एक अवसर हैं: एडोब के गोविंद बालाकृष्णन
कुछ हफ़्ते पहले, Google ने मिथुन 2.5 मॉडल जारी किया, जिसे Google डीपमाइंड के सीईओ डेमिस हसाबिस ने कहा, “एक भयानक अत्याधुनिक मॉडल, नंबर 1 एक लमरेना पर एक +39 ईएलओ अंक द्वारा, मल्टीमॉडल रीजनिंग, कोडिंग और स्टेम में बोर्ड में महत्वपूर्ण सुधार के साथ। मिथुन 2.5 प्रो (प्रायोगिक) रीजनिंग मॉडल और मिथुन 2.0 फ्लैश सहित उपयोगकर्ताओं के लिए मिथुन की वर्तमान मॉडल लाइन-अप उपलब्ध है, जिसमें एक गहरी अनुसंधान सुविधा शामिल है, जिसमें एआई जटिल विषयों का विश्लेषण कर सकता है और विस्तृत रिपोर्ट उत्पन्न कर सकता है।
एक डेटा और प्रासंगिकता प्रश्न
आर्टिफिशियल इंटेलिजेंस (एआई) को गोद लेना अभी तक भारत में, विशेष रूप से उपभोक्ताओं के लिए गति का पता लगाना है। Google और एनालिटिक्स फर्म कांटार इंडिया द्वारा अपनी तरह का पहला देश-केंद्रित सर्वेक्षण, यह बताता है कि 60% से अधिक उत्तरदाता किसी भी AI टूल या ऐप से परिचित नहीं हैं, और केवल 31% ने किसी भी जनरेटिव AI के साथ प्रयोग किया है-उनके नमूने के आकार में 18 भारतीय शहरों में 8,000 व्यक्ति शामिल हैं, और यह सर्वेक्षण मार्च में समाप्त हो गया है।
खोसला का मानना है कि यह उपकरणों की प्रासंगिकता के बारे में भी है। “हमारे मॉडल अब मल्टीमॉडल, बहुभाषी हैं और कई एक्सेस पॉइंट हैं। वे कुछ तक सीमित नहीं हैं, चाहे वह भाषा, दृश्य, आवाज या पाठ हो,” वे कहते हैं। ऐसी उम्मीद है कि एंड्रॉइड फोन निर्माताओं सहित पारिस्थितिकी तंत्र भागीदारों, उपयोगकर्ताओं के लिए अधिक दृश्यता, गोद लेने और शिक्षा प्रदान करने में मदद करेगा।
“लोगों के जीवन में सार्थक प्रासंगिकता लाना, महत्वपूर्ण है। आप इसे एक्सेस कर सकते हैं, लेकिन यदि आपको कोई अंतर नहीं मिलता है, तो आप इसके लिए वापस नहीं आएंगे,” खोसला कहते हैं।
Google-Kantar रिपोर्ट के लिए एक उज्जवल पक्ष है, सुझाव के साथ कि 75%उत्तरदाताओं ने एक ‘विकास सहयोगी’ को अपनाने के लिए तैयार किया, ताकि उन्हें उत्पादकता (72%) को बढ़ावा देने में मदद मिल सके, रचनात्मकता (77%) को बढ़ाया जा सके, और घर और काम पर अपनी दैनिक दिनचर्या में बेहतर (73%) संवाद किया जा सके।
Google DeepMind द्वारा विकसित मल्टीमॉडल बड़े भाषा मॉडल के एक परिवार द्वारा रेखांकित Google के मिथुन सहायक के उपयोगकर्ताओं के लिए विशिष्ट, अध्ययन से पता चलता है कि उत्पादकता में सुधार करने के लिए प्रासंगिकता है (93%मिथुन उपयोगकर्ताओं को अधिक संकेत मिलता है), रचनात्मकता (85%) के साथ मदद करने और जटिलता (80%) से निपटने या निर्णय लेने में मदद करने के लिए।
ये संख्या एआई के लिए एक संभावित हेडरूम को रेखांकित करती है जो अंततः व्यक्तियों के लिए एक नियमित उपकरण बन जाती है, और देश में एआई एआई गोद लेने के विपरीत है। एआई कंपनियों के लिए सिक्के के दो अलग -अलग पक्ष, खोए हुए समय में से एक और दुनिया के सबसे बड़े बाजारों में से एक में संभावित, यहां तक कि वे पिछले कुछ महीनों में एक स्थिर गति से नए मॉडल और कार्यात्मकता जारी कर रहे हैं?
पिछले साल नवंबर में एक रिपोर्ट में, बोस्टन कंसल्टिंग ग्रुप ने संकेत दिया था कि 30% भारतीय उद्यमों और व्यवसायों को किसी न किसी रूप में एआई का लाभ उठाया जा रहा है – 26% के वैश्विक औसत से अधिक, जो फिनटेक, सॉफ्टवेयर और बैंकिंग इस गति का नेतृत्व कर रहे हैं।
विजुअल कम्युनिकेशंस प्लेटफॉर्म कैनवा, अपनी नवीनतम विजुअल इकोनॉमी रिपोर्ट में, संकेत देता है कि भारत में 10 सर्वेक्षण किए गए व्यवसायों और उद्यमों में से 9 सामग्री निर्माण और दृश्य संचार कार्यों के लिए उपयोग एआई की ओर पहला कदम उठाने लगे हैं।