Monday, June 16, 2025
spot_img
HomeBusinessएआई विशेषज्ञ ग्रोक 3, अन्य मॉडलों से पेलिकन राइडिंग साइकिल खींचने के...

एआई विशेषज्ञ ग्रोक 3, अन्य मॉडलों से पेलिकन राइडिंग साइकिल खींचने के लिए पूछता है। परिणाम देखें


एलोन मस्क के साथ ओपनईआई के संस्थापक सदस्यों में से एक, एआई विशेषज्ञ आंद्रेज करपैथी ने बाद के नव-लॉन्च किए गए ग्रोक 3 पर परीक्षण किए। परिणामों का एक विस्तृत विश्लेषण साझा करते हुए, कर्पीट ने कहा कि नया मॉडल “वास्तव में काफी उत्साहजनक” दिखता है।

आंद्रेज करपथी ने एलोन मस्क के ज़ाई द्वारा लॉन्च किए गए नए एआई मॉडल, ग्रोक 3 पर विभिन्न परीक्षण किए। (karpathy.ai)

यहां करपथी ने किए गए परीक्षणों की एक सूची दी गई है।

एक साइकिल पर पेलिकन

करपथी ने ग्रोक को एक स्केलेबल वेक्टर ग्राफिक (एसवीजी) उत्पन्न करने के लिए कहा, जिसमें एक पेलिकन एक साइकिल की सवारी करते हुए दिखाया गया है। एसवीजी एक वेब-फ्रेंडली फ़ाइल प्रारूप है जो छवियों को संग्रहीत करने के लिए गणितीय सूत्रों का उपयोग करता है।

उन्होंने ग्रोक 3 को इस परीक्षण में “असफल” के रूप में चिह्नित किया और कहा कि एआई मॉडल के परिणाम बताते हैं कि “पेलिकन काफी अच्छे हैं लेकिन अभी भी थोड़ा टूटे हुए हैं”। करपैथी ने कहा कि परीक्षण में क्लाउड के परिणाम सबसे अच्छे हैं, लेकिन उन्हें संदेह है कि यह मामला है क्योंकि क्लाउड ने विशेष रूप से प्रशिक्षण के दौरान एसवीजी क्षमता को लक्षित किया है।

विभिन्न एआई मॉडल से 'एक पेलिकन की एक एसवीजी एक साइकिल की सवारी' के परिणाम। (x/@karpathy)
विभिन्न एआई मॉडल से ‘एक पेलिकन की एक एसवीजी एक साइकिल की सवारी’ के परिणाम। (x/@karpathy)

यह साझा करते हुए कि परीक्षण क्यों महत्वपूर्ण है, करपथी ने कहा कि यह 2 डी ग्रिड पर कई तत्वों को बाहर करने की एलएलएम की क्षमता पर जोर देता है, जो बहुत मुश्किल है क्योंकि एलएलएमएस ऐसा नहीं देख सकते हैं जैसे लोग करते हैं। “तो यह अंधेरे में चीजों की व्यवस्था कर रहा है, पाठ में,” उन्होंने कहा।

हास्यवृत्ति

उन्होंने निष्कर्ष निकाला कि ग्रोक 3 के हास्य की भावना ने अपने पूर्ववर्ती ग्रोक 2 पर सुधार नहीं किया है। “यह हास्य क्षमता और सामान्य मोड पतन के साथ एक सामान्य एलएलएम मुद्दा है। उदाहरण के लिए, उदाहरण के लिए, 1,008 आउटपुट में से 90% एक मजाक के लिए CHATGPT से पूछते हुए एक ही 25 चुटकुलों के पुनरावृत्ति थे। “करपथी ने कहा।

“यहां तक ​​कि जब सरल दंड क्षेत्र से अधिक विस्तार से संकेत दिया जाता है (उदाहरण के लिए: मुझे एक स्टैंडअप दें), तो मुझे यकीन नहीं है कि यह कला हास्य की स्थिति है। उदाहरण उत्पन्न मजाक:”*चिकन एक बैंड में शामिल क्यों हुआ? क्योंकि इसमें ड्रमस्टिक्स था और एक क्लक-स्टार बनना चाहता था!*”। त्वरित परीक्षण में, सोचने से मदद नहीं मिली, संभवतः यह थोड़ा खराब हो गया,” उन्होंने कहा।

नीति

करपैथी ने कहा कि ग्रोक 3 “जटिल नैतिक मुद्दों ‘के प्रति बहुत अधिक संवेदनशील है” लगता है। एक उदाहरण साझा करते हुए, उन्होंने कहा, “एक-पृष्ठ निबंध उत्पन्न करता है जो मूल रूप से यह जवाब देने से इनकार कर रहा है कि क्या यह किसी को गलत तरीके से किसी को गलत करने के लिए उचित हो सकता है अगर इसका मतलब है कि एक मिलियन लोगों को मरने से बचाना।”

यादृच्छिक ‘गोट्चा’ क्षण

उन्होंने कहा कि मस्क के नए मॉडल को पता है कि ‘स्ट्रॉबेरी’ में तीन ‘आर’ हैं, लेकिन उन्हें बताया कि ‘लोलपलूजा’ में केवल तीन ‘एल’ हैं। हालांकि, उन्होंने कहा कि ‘थिंकिंग’ मोड को चालू करने से इसे ठीक कर दिया जाता है।

उन्होंने यह भी कहा कि मॉडल ने 9.11 का जवाब दिया, 9.9 से अधिक है, अन्य एलएलएम के साथ भी एक मुद्दा। इस मुद्दे को ‘थिंकिंग’ मोड में भी हल किया गया था।

ग्रोक 3 पर किए गए अन्य परीक्षण

करपथी के अनुसार, ग्रोक 3 अपने ‘इमोजी मिस्ट्री’ प्रश्न को हल करने में असमर्थ था, जहां उन्होंने यूनिकोड भिन्नता चयन के अंदर छिपे एक संलग्न संदेश के साथ एक मुस्कुराते हुए चेहरे को दिया।

ओपनई के ओ 1 प्रो की तरह ग्रोक 3, तीन “ट्रिकी” टिक टीएसी टो बोर्ड उत्पन्न करने में असमर्थ था। करपैथी ने कहा कि ग्रोक 3 ने सवाल के जवाब में “बकवास बोर्ड/ग्रंथ” उत्पन्न किया, लेकिन उन्होंने इसे दिए गए कुछ टिक टीएसी टो बोर्डों को हल करने में सक्षम थे।



Source

RELATED ARTICLES

LEAVE A REPLY

Please enter your comment!
Please enter your name here

- Advertisment -
Google search engine

Most Popular

Recent Comments