मौसम क्रिकेट ऑपरेशन सिंदूर क्रिकेट स्पोर्ट्स बॉलीवुड जॉब - एजुकेशन बिजनेस लाइफस्टाइल देश विदेश राशिफल लाइफ - साइंस आध्यात्मिक अन्य
---Advertisement---

AI को जज करने की कार्यप्रणाली को पुन: प्राप्त करने की आवश्यकता है

On: June 3, 2025 6:44 AM
Follow Us:
---Advertisement---


जब एंथ्रोपिक ने एक सप्ताह पहले क्लाउड 4 को जारी किया, तो आर्टिफिशियल इंटेलिजेंस (एआई) कंपनी ने कहा कि इन मॉडलों ने “कोडिंग के लिए नए मानक, उन्नत तर्क और एआई एजेंट” निर्धारित किए हैं। वे SWE-Bench सत्यापित पर अग्रणी स्कोर का हवाला देते हैं, जो वास्तविक सॉफ्टवेयर इंजीनियरिंग कार्यों पर प्रदर्शन के लिए एक बेंचमार्क है। Openai यह भी दावा करता है कि O3 और O4-Mini मॉडल कुछ बेंचमार्क पर सर्वश्रेष्ठ स्कोर लौटाते हैं। जैसा कि मिस्ट्रल करता है, ओपन-सोर्स देवस्ट्रल कोडिंग मॉडल के लिए।

प्रतिनिधि छवि। (गेटी इमेज/istockphoto)

तुलनात्मक परीक्षण स्कोर को फ्लेक्स करने वाली एआई कंपनियां एक सामान्य विषय है।

प्रौद्योगिकी की दुनिया ने सिंथेटिक बेंचमार्क टेस्ट स्कोर पर लंबे समय से जुनूनी है। प्रोसेसर प्रदर्शन, मेमोरी बैंडविड्थ, स्टोरेज की गति, ग्राफिक्स प्रदर्शन – भरपूर मात्रा में, अक्सर यह न्याय करने के लिए उपयोग किया जाता है कि क्या पीसी या स्मार्टफोन आपके समय और पैसे के लायक था।

फिर भी, विशेषज्ञों का मानना ​​है कि यह एक थोक परिवर्तन के बजाय एआई परीक्षण के लिए कार्यप्रणाली विकसित करने का समय हो सकता है।

अमेरिकन वेंचर कैपिटलिस्ट मैरी मीकर, नवीनतम एआई ट्रेंड्स रिपोर्ट में, नोट करते हैं कि एआई सटीकता और यथार्थवाद के मामले में मनुष्यों से बेहतर कर रहा है। वह MMLU (बड़े पैमाने पर मल्टीटास्क लैंग्वेज अंडरस्टैंडिंग) बेंचमार्क की ओर इशारा करती है, जो 89.8% की मानव आधार रेखा की तुलना में 92.30% सटीकता पर AI मॉडल का औसत है।

MMLU गणित, कानून, चिकित्सा और इतिहास सहित पेशेवर और शैक्षणिक विषयों को कवर करने वाले 57 कार्यों में एक मॉडल के सामान्य ज्ञान का न्याय करने के लिए एक बेंचमार्क है।

बेंचमार्क विभिन्न एआई मॉडल के विकास को मापने, तुलना करने और समझने के लिए मानकीकृत यार्डस्टिक्स के रूप में काम करते हैं। संरचित आकलन जो विभिन्न मॉडलों के लिए तुलनीय स्कोर प्रदान करते हैं। इनमें आमतौर पर डेटासेट होते हैं जिसमें हजारों क्यूरेटेड प्रश्न, समस्याएं या कार्य होते हैं जो बुद्धि के विशेष पहलुओं का परीक्षण करते हैं।

बेंचमार्क स्कोर को समझने के लिए संख्याओं के पीछे पैमाने और अर्थ दोनों के बारे में संदर्भ की आवश्यकता होती है। अधिकांश बेंचमार्क सटीकता को प्रतिशत के रूप में रिपोर्ट करते हैं, लेकिन इन प्रतिशत का महत्व विभिन्न परीक्षणों में नाटकीय रूप से भिन्न होता है। MMLU पर, यादृच्छिक अनुमान लगाने से लगभग 25% सटीकता मिलेगी क्योंकि अधिकांश प्रश्न बहुविकल्पी हैं। मानव प्रदर्शन आमतौर पर विषय क्षेत्र के आधार पर 85-95% से होता है।

हेडलाइन संख्या अक्सर महत्वपूर्ण बारीकियों को मुखौटा करती है। एक मॉडल कुछ विषयों में, दूसरों की तुलना में अधिक उत्कृष्टता दे सकता है। एक एकत्रित स्कोर तथाकथित प्रदर्शन पर मजबूत प्रदर्शन के पीछे बहु-चरणीय तर्क या रचनात्मक समस्या-समाधान की आवश्यकता वाले कार्यों पर कमजोर प्रदर्शन को छिपा सकता है।

एआई इंजीनियर और टिप्पणीकार रोहन पॉल ने एक्स पर नोट किया कि “अधिकांश बेंचमार्क दीर्घकालिक स्मृति को पुरस्कृत नहीं करते हैं, बल्कि वे लघु-संदर्भ कार्यों पर ध्यान केंद्रित करते हैं।”

तेजी से, एआई कंपनियां ‘मेमोरी’ पहलू पर बारीकी से देख रही हैं। Google के शोधकर्ताओं ने एक नए पेपर में, एक ध्यान तकनीक को ‘Infini-Attention’ डब किया गया, यह कॉन्फ़िगर करने के लिए कि AI मॉडल अपने “संदर्भ विंडो” का विस्तार कैसे करते हैं।

गणितीय बेंचमार्क अक्सर व्यापक प्रदर्शन अंतराल दिखाते हैं। जबकि अधिकांश नवीनतम एआई मॉडल सटीकता पर 90% से अधिक स्कोर करते हैं, GSM8K बेंचमार्क (क्लाउड सॉनेट 3.5 पर 97.72% के साथ होता है, जबकि GPT-4 स्कोर 94.8%), अधिक चुनौतीपूर्ण गणित बेंचमार्क तुलना में बहुत कम रेटिंग देखता है-Google मिथुन 2.0 फ्लैश प्रायोगिक 89.7% लीड्स, Sonnet का अभी तक परीक्षण नहीं किया गया है)।

कार्यप्रणाली को फिर से काम करना

एआई परीक्षण के लिए, परीक्षण करने की आवश्यकता है। माइक्रोसॉफ्ट के अध्यक्ष और मुख्य कार्यकारी अधिकारी (सीईओ) के शब्द, “सभी ईवल्स संतृप्त हैं। यह थोड़ा व्यर्थ हो रहा है।”

टेक दिग्गज ने घोषणा की है कि वे पेन स्टेट यूनिवर्सिटी, कार्नेगी मेलन यूनिवर्सिटी और ड्यूक यूनिवर्सिटी सहित संस्थानों के साथ सहयोग कर रहे हैं, एआई मॉडल का मूल्यांकन करने के लिए एक दृष्टिकोण विकसित करने के लिए, जो भविष्यवाणी करते हैं कि वे अपरिचित कार्यों पर कैसे प्रदर्शन करेंगे और समझाएं कि, कुछ वर्तमान बेंचमार्क संघर्ष करने के लिए क्यों।

मॉडल के गतिशील मूल्यांकन, प्रासंगिक भविष्यवाणी, मानव-केंद्रित तुलनात्मक और सामान्य एआई के सांस्कृतिक पहलुओं के गतिशील मूल्यांकन के लिए बेंचमार्किंग एजेंट बनाने का प्रयास किया जा रहा है।

माइक्रोसॉफ्ट के शोध सहायक लेक्सिन झोउ बताते हैं, “फ्रेमवर्क एडेल (एनोटेट-डिमांड-लेवल) का उपयोग करता है, एक तकनीक जो यह आकलन करती है कि 18 प्रकार के संज्ञानात्मक और ज्ञान-आधारित क्षमताओं के लिए माप के तराजू को लागू करके एआई मॉडल के लिए एक कार्य की मांग कैसे है।”

क्षण भर में, लोकप्रिय बेंचमार्क में एसडब्ल्यूई-बेंच (या सॉफ्टवेयर इंजीनियरिंग बेंचमार्क) शामिल हैं, जो एआई कोडिंग कौशल, आर्क-एजीआई (कृत्रिम सामान्य बुद्धिमत्ता के लिए अमूर्तता और तर्क कॉर्पस) का मूल्यांकन करने के लिए सत्यापित करने के लिए सामान्यीकरण और तर्क के साथ-साथ लाइवबेंच एआई को मापते हैं जो एजेंट कोडिंग कार्य को मापते हैं और तर्क, कोडिंग और गणित पर एलएलएमएस का मूल्यांकन करते हैं।

व्याख्याओं को प्रभावित करने वाली सीमाओं के बीच, कई बेंचमार्क तकनीकों के माध्यम से “gamed” हो सकते हैं जो आवश्यक रूप से खुफिया या क्षमता में सुधार के बिना स्कोर में सुधार करते हैं। बिंदु में मामला, मेटा के नए लामा मॉडल।

अप्रैल में, उन्होंने मॉडल की एक सरणी की घोषणा की, जिसमें लामा 4 स्काउट, लामा 4 मावेरिक, और अभी भी प्रशिक्षित लामा 4 बीमोथ शामिल हैं। मेटा के सीईओ मार्क जुकरबर्ग का दावा है कि बीहमोथ “दुनिया में सबसे अधिक प्रदर्शन करने वाला आधार मॉडल” होगा। Maverick ने Lmarena बेंचमार्क में Openai के GPT-4O के ऊपर रैंकिंग शुरू की, और मिथुन 2.5 प्रो के ठीक नीचे।

यह वह जगह है जहां चीजें मेटा के लिए नाशपाती के आकार की चली गईं, क्योंकि एआई शोधकर्ताओं ने इन स्कोर के माध्यम से खुदाई करना शुरू कर दिया। पता चला, मेटा ने एक लामा 4 मावरिक मॉडल साझा किया था जो इस परीक्षण के लिए अनुकूलित था, और वास्तव में एक विशिष्ट ग्राहकों को नहीं मिलेगा।

मेटा कस्टमाइजेशन से इनकार करता है। “हमने दावों को भी सुना है कि हमने परीक्षण सेटों पर प्रशिक्षित किया है-यह केवल सच नहीं है और हम ऐसा कभी नहीं करेंगे। हमारी सबसे अच्छी समझ यह है कि चर गुणवत्ता वाले लोग कार्यान्वयन को स्थिर करने की आवश्यकता के कारण है,” एक बयान में, मेटा में जनरेटिव एआई के वीपी, अहमद अल-डाहले कहते हैं।

अन्य चुनौतियां हैं। मॉडल वास्तविक समझ विकसित करने के बजाय बेंचमार्क प्रारूपों के लिए विशिष्ट पैटर्न को याद कर सकते हैं। बेंचमार्क का चयन और डिजाइन भी पूर्वाग्रह का परिचय देता है।

स्थानीयकरण का सवाल है। Yi Tay, Google AI और DEEPMIND के AI शोधकर्ता ने SG-EVAL नामक एक ऐसे क्षेत्रीय-विशिष्ट बेंचमार्क को विस्तृत किया है, जो व्यापक संदर्भ के लिए ट्रेन AI मॉडल की मदद करने पर केंद्रित है। भारत भी भारत के मिशन के तहत चुने गए बेंगलुरु स्थित एआई स्टार्टअप सर्वाम के साथ एक संप्रभु बड़े भाषा मॉडल (एलएलएम) का निर्माण कर रहा है।

चूंकि एआई क्षमताएं आगे बढ़ती रहती हैं, इसलिए शोधकर्ता मूल्यांकन के तरीके विकसित कर रहे हैं जो वास्तविक समझ के लिए परीक्षण करते हैं, वास्तविक दुनिया में संदर्भ और क्षमताओं में मजबूती, सादे पैटर्न मिलान के बजाय। एआई के मामले में, संख्याएं कहानी का एक महत्वपूर्ण हिस्सा बताती हैं, लेकिन पूरी कहानी नहीं।



Source

Dhiraj Singh

में धिरज सिंह हमेशा कोशिश करता हूं कि सच्चाई और न्याय, निष्पक्षता के साथ समाचार प्रदान करें, और इसके लिए हमें आपके जैसे जागरूक पाठकों का सहयोग चाहिए। कृपया हमारे अभियान में सपोर्ट देकर स्वतंत्र पत्रकारिता को आगे बढ़ाएं!

Join WhatsApp

Join Now

Join Telegram

Join Now

Leave a Comment