एआई विशेषज्ञ ग्रोक 3, अन्य मॉडलों से पेलिकन राइडिंग साइकिल खींचने के लिए पूछता है। परिणाम देखें

February 18, 2025

40

एलोन मस्क के साथ ओपनईआई के संस्थापक सदस्यों में से एक, एआई विशेषज्ञ आंद्रेज करपैथी ने बाद के नव-लॉन्च किए गए ग्रोक 3 पर परीक्षण किए। परिणामों का एक विस्तृत विश्लेषण साझा करते हुए, कर्पीट ने कहा कि नया मॉडल “वास्तव में काफी उत्साहजनक” दिखता है।

आंद्रेज करपथी ने एलोन मस्क के ज़ाई द्वारा लॉन्च किए गए नए एआई मॉडल, ग्रोक 3 पर विभिन्न परीक्षण किए। (karpathy.ai)

यहां करपथी ने किए गए परीक्षणों की एक सूची दी गई है।

एक साइकिल पर पेलिकन

करपथी ने ग्रोक को एक स्केलेबल वेक्टर ग्राफिक (एसवीजी) उत्पन्न करने के लिए कहा, जिसमें एक पेलिकन एक साइकिल की सवारी करते हुए दिखाया गया है। एसवीजी एक वेब-फ्रेंडली फ़ाइल प्रारूप है जो छवियों को संग्रहीत करने के लिए गणितीय सूत्रों का उपयोग करता है।

उन्होंने ग्रोक 3 को इस परीक्षण में “असफल” के रूप में चिह्नित किया और कहा कि एआई मॉडल के परिणाम बताते हैं कि “पेलिकन काफी अच्छे हैं लेकिन अभी भी थोड़ा टूटे हुए हैं”। करपैथी ने कहा कि परीक्षण में क्लाउड के परिणाम सबसे अच्छे हैं, लेकिन उन्हें संदेह है कि यह मामला है क्योंकि क्लाउड ने विशेष रूप से प्रशिक्षण के दौरान एसवीजी क्षमता को लक्षित किया है।

विभिन्न एआई मॉडल से 'एक पेलिकन की एक एसवीजी एक साइकिल की सवारी' के परिणाम। (x/@karpathy) — विभिन्न एआई मॉडल से ‘एक पेलिकन की एक एसवीजी एक साइकिल की सवारी’ के परिणाम। (x/@karpathy)

यह साझा करते हुए कि परीक्षण क्यों महत्वपूर्ण है, करपथी ने कहा कि यह 2 डी ग्रिड पर कई तत्वों को बाहर करने की एलएलएम की क्षमता पर जोर देता है, जो बहुत मुश्किल है क्योंकि एलएलएमएस ऐसा नहीं देख सकते हैं जैसे लोग करते हैं। “तो यह अंधेरे में चीजों की व्यवस्था कर रहा है, पाठ में,” उन्होंने कहा।

हास्यवृत्ति

उन्होंने निष्कर्ष निकाला कि ग्रोक 3 के हास्य की भावना ने अपने पूर्ववर्ती ग्रोक 2 पर सुधार नहीं किया है। “यह हास्य क्षमता और सामान्य मोड पतन के साथ एक सामान्य एलएलएम मुद्दा है। उदाहरण के लिए, उदाहरण के लिए, 1,008 आउटपुट में से 90% एक मजाक के लिए CHATGPT से पूछते हुए एक ही 25 चुटकुलों के पुनरावृत्ति थे। “करपथी ने कहा।

“यहां तक कि जब सरल दंड क्षेत्र से अधिक विस्तार से संकेत दिया जाता है (उदाहरण के लिए: मुझे एक स्टैंडअप दें), तो मुझे यकीन नहीं है कि यह कला हास्य की स्थिति है। उदाहरण उत्पन्न मजाक:”*चिकन एक बैंड में शामिल क्यों हुआ? क्योंकि इसमें ड्रमस्टिक्स था और एक क्लक-स्टार बनना चाहता था!*”। त्वरित परीक्षण में, सोचने से मदद नहीं मिली, संभवतः यह थोड़ा खराब हो गया,” उन्होंने कहा।

नीति

करपैथी ने कहा कि ग्रोक 3 “जटिल नैतिक मुद्दों ‘के प्रति बहुत अधिक संवेदनशील है” लगता है। एक उदाहरण साझा करते हुए, उन्होंने कहा, “एक-पृष्ठ निबंध उत्पन्न करता है जो मूल रूप से यह जवाब देने से इनकार कर रहा है कि क्या यह किसी को गलत तरीके से किसी को गलत करने के लिए उचित हो सकता है अगर इसका मतलब है कि एक मिलियन लोगों को मरने से बचाना।”

यादृच्छिक ‘गोट्चा’ क्षण

उन्होंने कहा कि मस्क के नए मॉडल को पता है कि ‘स्ट्रॉबेरी’ में तीन ‘आर’ हैं, लेकिन उन्हें बताया कि ‘लोलपलूजा’ में केवल तीन ‘एल’ हैं। हालांकि, उन्होंने कहा कि ‘थिंकिंग’ मोड को चालू करने से इसे ठीक कर दिया जाता है।

उन्होंने यह भी कहा कि मॉडल ने 9.11 का जवाब दिया, 9.9 से अधिक है, अन्य एलएलएम के साथ भी एक मुद्दा। इस मुद्दे को ‘थिंकिंग’ मोड में भी हल किया गया था।

ग्रोक 3 पर किए गए अन्य परीक्षण

करपथी के अनुसार, ग्रोक 3 अपने ‘इमोजी मिस्ट्री’ प्रश्न को हल करने में असमर्थ था, जहां उन्होंने यूनिकोड भिन्नता चयन के अंदर छिपे एक संलग्न संदेश के साथ एक मुस्कुराते हुए चेहरे को दिया।

ओपनई के ओ 1 प्रो की तरह ग्रोक 3, तीन “ट्रिकी” टिक टीएसी टो बोर्ड उत्पन्न करने में असमर्थ था। करपैथी ने कहा कि ग्रोक 3 ने सवाल के जवाब में “बकवास बोर्ड/ग्रंथ” उत्पन्न किया, लेकिन उन्होंने इसे दिए गए कुछ टिक टीएसी टो बोर्डों को हल करने में सक्षम थे।

Source

अज्ञात विदेशी परिसंपत्तियों और निवेशों में आयकर विभाग ₹ 22,000 करोड़ को उजागर करता है: रिपोर्ट

दिल्ली पुलिस चांदनी चौक रोड पर 12 घंटे के लिए यातायात को प्रतिबंधित करती है नवीनतम समाचार दिल्ली

एआई विशेषज्ञ ग्रोक 3, अन्य मॉडलों से पेलिकन राइडिंग साइकिल खींचने के लिए पूछता है। परिणाम देखें

एक साइकिल पर पेलिकन

हास्यवृत्ति

नीति

यादृच्छिक ‘गोट्चा’ क्षण

ग्रोक 3 पर किए गए अन्य परीक्षण

अमेरिकन एक्सप्रेस प्लैटिनम क्रेडिट कार्ड में ‘अब तक का सबसे बड़ा निवेश’

Sensex, निफ्टी रिबाउंड मूल्य खरीदने पर लगभग 1 पीसी, वैश्विक रैली

सेबी ने क्वांट-चालित म्यूचुअल फंड बिजनेस को लॉन्च करने के लिए अल्फाग्रेप को मंजूरी दी

LEAVE A REPLY Cancel reply

Most Popular

अमेरिकन एक्सप्रेस प्लैटिनम क्रेडिट कार्ड में ‘अब तक का सबसे बड़ा निवेश’

Sensex, निफ्टी रिबाउंड मूल्य खरीदने पर लगभग 1 पीसी, वैश्विक रैली

बिहार की बारिश: किशंगंज में सड़क धोया गया, छह घंटे के भीतर मरम्मत की गई

सेबी ने क्वांट-चालित म्यूचुअल फंड बिजनेस को लॉन्च करने के लिए अल्फाग्रेप को मंजूरी दी

Recent Comments

ABOUT US

FOLLOW US