एलोन मस्क के साथ ओपनईआई के संस्थापक सदस्यों में से एक, एआई विशेषज्ञ आंद्रेज करपैथी ने बाद के नव-लॉन्च किए गए ग्रोक 3 पर परीक्षण किए। परिणामों का एक विस्तृत विश्लेषण साझा करते हुए, कर्पीट ने कहा कि नया मॉडल “वास्तव में काफी उत्साहजनक” दिखता है।
यहां करपथी ने किए गए परीक्षणों की एक सूची दी गई है।
एक साइकिल पर पेलिकन
करपथी ने ग्रोक को एक स्केलेबल वेक्टर ग्राफिक (एसवीजी) उत्पन्न करने के लिए कहा, जिसमें एक पेलिकन एक साइकिल की सवारी करते हुए दिखाया गया है। एसवीजी एक वेब-फ्रेंडली फ़ाइल प्रारूप है जो छवियों को संग्रहीत करने के लिए गणितीय सूत्रों का उपयोग करता है।
उन्होंने ग्रोक 3 को इस परीक्षण में “असफल” के रूप में चिह्नित किया और कहा कि एआई मॉडल के परिणाम बताते हैं कि “पेलिकन काफी अच्छे हैं लेकिन अभी भी थोड़ा टूटे हुए हैं”। करपैथी ने कहा कि परीक्षण में क्लाउड के परिणाम सबसे अच्छे हैं, लेकिन उन्हें संदेह है कि यह मामला है क्योंकि क्लाउड ने विशेष रूप से प्रशिक्षण के दौरान एसवीजी क्षमता को लक्षित किया है।

यह साझा करते हुए कि परीक्षण क्यों महत्वपूर्ण है, करपथी ने कहा कि यह 2 डी ग्रिड पर कई तत्वों को बाहर करने की एलएलएम की क्षमता पर जोर देता है, जो बहुत मुश्किल है क्योंकि एलएलएमएस ऐसा नहीं देख सकते हैं जैसे लोग करते हैं। “तो यह अंधेरे में चीजों की व्यवस्था कर रहा है, पाठ में,” उन्होंने कहा।
हास्यवृत्ति
उन्होंने निष्कर्ष निकाला कि ग्रोक 3 के हास्य की भावना ने अपने पूर्ववर्ती ग्रोक 2 पर सुधार नहीं किया है। “यह हास्य क्षमता और सामान्य मोड पतन के साथ एक सामान्य एलएलएम मुद्दा है। उदाहरण के लिए, उदाहरण के लिए, 1,008 आउटपुट में से 90% एक मजाक के लिए CHATGPT से पूछते हुए एक ही 25 चुटकुलों के पुनरावृत्ति थे। “करपथी ने कहा।
“यहां तक कि जब सरल दंड क्षेत्र से अधिक विस्तार से संकेत दिया जाता है (उदाहरण के लिए: मुझे एक स्टैंडअप दें), तो मुझे यकीन नहीं है कि यह कला हास्य की स्थिति है। उदाहरण उत्पन्न मजाक:”*चिकन एक बैंड में शामिल क्यों हुआ? क्योंकि इसमें ड्रमस्टिक्स था और एक क्लक-स्टार बनना चाहता था!*”। त्वरित परीक्षण में, सोचने से मदद नहीं मिली, संभवतः यह थोड़ा खराब हो गया,” उन्होंने कहा।
नीति
करपैथी ने कहा कि ग्रोक 3 “जटिल नैतिक मुद्दों ‘के प्रति बहुत अधिक संवेदनशील है” लगता है। एक उदाहरण साझा करते हुए, उन्होंने कहा, “एक-पृष्ठ निबंध उत्पन्न करता है जो मूल रूप से यह जवाब देने से इनकार कर रहा है कि क्या यह किसी को गलत तरीके से किसी को गलत करने के लिए उचित हो सकता है अगर इसका मतलब है कि एक मिलियन लोगों को मरने से बचाना।”
यादृच्छिक ‘गोट्चा’ क्षण
उन्होंने कहा कि मस्क के नए मॉडल को पता है कि ‘स्ट्रॉबेरी’ में तीन ‘आर’ हैं, लेकिन उन्हें बताया कि ‘लोलपलूजा’ में केवल तीन ‘एल’ हैं। हालांकि, उन्होंने कहा कि ‘थिंकिंग’ मोड को चालू करने से इसे ठीक कर दिया जाता है।
उन्होंने यह भी कहा कि मॉडल ने 9.11 का जवाब दिया, 9.9 से अधिक है, अन्य एलएलएम के साथ भी एक मुद्दा। इस मुद्दे को ‘थिंकिंग’ मोड में भी हल किया गया था।
ग्रोक 3 पर किए गए अन्य परीक्षण
करपथी के अनुसार, ग्रोक 3 अपने ‘इमोजी मिस्ट्री’ प्रश्न को हल करने में असमर्थ था, जहां उन्होंने यूनिकोड भिन्नता चयन के अंदर छिपे एक संलग्न संदेश के साथ एक मुस्कुराते हुए चेहरे को दिया।
ओपनई के ओ 1 प्रो की तरह ग्रोक 3, तीन “ट्रिकी” टिक टीएसी टो बोर्ड उत्पन्न करने में असमर्थ था। करपैथी ने कहा कि ग्रोक 3 ने सवाल के जवाब में “बकवास बोर्ड/ग्रंथ” उत्पन्न किया, लेकिन उन्होंने इसे दिए गए कुछ टिक टीएसी टो बोर्डों को हल करने में सक्षम थे।