ट्यूरिंग टेस्ट पास करने वाले एआई मॉडल के लिए मानव जैसा व्यवहार कुंजी

April 3, 2025

46

Openai के GPT-4.5 और मेटा के लामा मॉडल ने ट्यूरिंग टेस्ट को पारित कर दिया है, 1950 के दशक में एलन ट्यूरिंग द्वारा प्रस्तावित एक बेंचमार्क यह आकलन करने के लिए कि क्या एक मशीन मनुष्यों से बुद्धिमान व्यवहार को अप्रभेद्य प्रदर्शित कर सकती है। संवादात्मक एआई के लिए एक महत्वपूर्ण क्षण, एक आसानी से पेचीदा घटनाक्रमों की एक भयावह के बीच ग्रहण किया गया, जिसमें चैट की घिबली इमेजिंग, एजेंटिक एआई की खोज (मानव जैसी प्रतिक्रियाएं विशेष रूप से इस फ्रंटियर के लिए प्रासंगिक हैं), एआई का उपयोग करके कैंसर का पता लगाने में सफलताएं।

एआई का भविष्य व्यावहारिक उपयोगिता में निहित है – समस्याओं को हल करना, न कि केवल एक स्मार्ट संवादात्मक होने के नाते। (गेटी इमेज/istockphoto)

हालांकि इस परीक्षण को पास करने वाले पहले एआई मॉडल नहीं हैं, यह हाल के दावेदारों में सबसे अधिक ध्यान देने योग्य है। GPT 4.5, 2023 में जारी, परीक्षणों में अधिकांश मानव-जैसे व्यवहार का प्रदर्शन किया, जहां इसे मेटा के llama-3.1-405b (यहाँ, B बिलियन, परिभाषित करने वाले पैरामीटर), और इसके सिबलिंग, GPT-4O (यह 2024 रिलीज है) से बड़े भाषा मॉडल (LLM) प्रतियोगिता मिली।

“जब एक मानवीय व्यक्तित्व को अपनाने के लिए प्रेरित किया जाता है, तो GPT-4.5 को मानव 73% समय के रूप में आंका गया था: वास्तविक मानव प्रतिभागी का चयन करने वाले पूछताछकर्ताओं की तुलना में अधिक बार,” कैलिफोर्निया सैन डिएगो विश्वविद्यालय के बेंजामिन के। बर्गन ने कहा कि एक अध्ययन में एक अध्ययन में सहकर्मी की समीक्षा में लिखा गया है।

“Llama-3.1, एक ही संकेत के साथ, मानव 56% समय के रूप में आंका गया था-उन मनुष्यों की तुलना में अधिक या कम बार नहीं, जिनकी तुलना की जा रही थी-जबकि बेसलाइन मॉडल (एलिजा और GPT-4O) ने जीत दर को मौका (23% और 21%) से काफी नीचे हासिल किया,” पेपर आगे का विवरण।

इसके लिए एक चेतावनी है।

क्या इस परिणाम का मतलब GPT-4.5, या वास्तव में llama-3.1, बुद्धिमान हैं? आवश्यक रूप से नहीं। ट्यूरिंग परीक्षण संवादी प्रदर्शन को मापता है, समझ या चेतना नहीं। 73% सफलता दर (लामा के मामले में भी कम) से पता चलता है कि यह एक मानव को दृढ़ता से खेल सकता है, लेकिन यह अभी भी तर्क या इरादे की कमी हो सकती है जिसे हम खुफिया के साथ जोड़ते हैं, प्रश्नों की प्रतिक्रियाओं के लिए।

इसके अलावा परीक्षण का एक हिस्सा एलिजा था, जो 1960 के दशक की एक चैटबॉट था, जिसे मैसाचुसेट्स इंस्टीट्यूट ऑफ टेक्नोलॉजी (MIT) में कंप्यूटर वैज्ञानिक जोसेफ वीज़ेनबाम द्वारा विकसित किया गया था। आधुनिक एलएलएम की तुलना में बहुत कमजोर एआई, शोधकर्ताओं का कहना है कि उन्होंने “एलिजा को एक हेरफेर की जांच के रूप में शामिल किया था ताकि यह सुनिश्चित किया जा सके कि पूछताछकर्ता मानव गवाहों की पहचान करने में सक्षम थे”।

अध्ययन इस बात की पुष्टि करता है कि GPT-4.5 और Llama-3.1-405B दोनों ट्यूरिंग टेस्ट पास करते हैं, क्योंकि वे 50%से अधिक स्कोर करते हैं, पूर्व लॉग बेहतर स्कोर के साथ।

ये “व्यक्तित्व” और “कोई व्यक्तित्व” मोड के साथ परीक्षण किए जा रहे इन मॉडलों के औसत हैं। एआई व्यक्तित्व और एआई गैर-व्यक्ति के बीच महत्वपूर्ण अंतर यह कैसे होता है कि एआई कैसे प्रस्तुत करता है, उपयोगकर्ताओं के साथ बातचीत करता है और किसी भी “चरित्र” को प्रदर्शित करता है।

फरवरी में, Openai ने GPT-4.5 के लिए एक शोध पूर्वावलोकन जारी किया, इसे “अभी तक चैट के लिए सबसे बड़ा और सबसे अच्छा मॉडल” कहा।

सैम अल्टमैन ने उस समय कहा, “यह पहला मॉडल है जो मेरे लिए एक विचारशील व्यक्ति से बात कर रहा है। मेरे पास कई क्षण हैं, जहां मैं अपनी कुर्सी पर वापस बैठा हूं और एआई से वास्तव में अच्छी सलाह प्राप्त करने पर चकित हूं।” Altman ने सीधे ट्यूरिंग टेस्ट परिणामों को संबोधित नहीं किया है, इस प्रकार अब तक।

ट्यूरिंग टेस्ट की कुंजी एक सार्वभौमिक रूप से मानकीकृत बेंचमार्क नहीं है, लेकिन आमतौर पर एक मानव न्यायाधीश को एक मानव और मशीन दोनों के साथ पाठ-आधारित बातचीत में संलग्न होता है, यह निर्धारित करने का प्रयास करता है कि कौन सा है।

GPT-4.5 मॉडल को शामिल करने वाले परीक्षण के लिए फैसला प्रतिभागियों को एक अन्य मानव प्रतिभागी के साथ और प्रत्येक AI सिस्टम के साथ एक साथ 5 मिनट की बातचीत के बाद दिया गया था, यह देखते हुए कि वे किस संवादी साथी को सोचते थे।

“हम कृत्रिम बुद्धिमत्ता के लिए नहीं खो रहे हैं। हम कृत्रिम सहानुभूति से हार रहे हैं,” एक पोस्ट में इनोवेशन थिंक-टैंक नोस्टलाब के संस्थापक जॉन नोस्टा को संक्षेप में प्रस्तुत करता है।

अंत में, यदि कोई न्यायाधीश एक मशीन को मानव से मज़बूती से अलग नहीं कर सकता है, तो मशीन को पास करने के लिए कहा जाता है।

“यह अध्ययन पहले ट्यूरिंग टेस्ट प्रयोगों से अलग था क्योंकि इसने एक अधिक कठोर तीन-पक्षीय सेटअप का उपयोग किया था। क्या यह पूरी तरह से आश्चर्यजनक है कि-यह कि कितनी सख्ती से परीक्षण डिजाइन किया गया था-एआई अंततः हमें” मानव ध्वनि “पर हरा देगा, जब इसे किसी भी व्यक्ति की तुलना में अधिक मानव डेटा पर प्रशिक्षित किया गया है,” सिनैड बोवेल, एक टेक एजुकेशन कंपनी का कहना है।

ऐतिहासिक रूप से, ट्यूरिंग टेस्ट के एआई पासिंग संस्करणों के दावे हुए हैं, हालांकि बहस की गुंजाइश है। 2014 में, व्लादिमीर वेसेलोव और सहकर्मियों द्वारा विकसित “यूजीन गोस्टमैन” नामक एक चैटबॉट ने कथित तौर पर रीडिंग विश्वविद्यालय द्वारा आयोजित एक ट्यूरिंग परीक्षण पारित किया। ऐसा माना जाता है कि यह पांच मिनट की बातचीत के दौरान 33% न्यायाधीशों को यकीन है कि यह एक 13 वर्षीय यूक्रेनी लड़का था।

एक प्रतिवाद: 33% सफलता दर 50% की आवश्यकता से कम हो जाती है – लेकिन यह शायद आने वाली चीजों का एक अग्रदूत था, बस किसी को भी इसका एहसास नहीं हुआ।

GPT-4.5 की सफलता Openai के बड़े भाषा मॉडल (LLMS) के अथक शोधन के लिए बहुत अधिक है। GPT-4 के मल्टीमॉडल फाउंडेशन पर निर्माण, GPT-4.5 में प्राकृतिक भाषा प्रसंस्करण में वृद्धि हुई है, जो बड़े डेटासेट द्वारा संचालित होने की संभावना है, प्रशिक्षण तकनीकों में सुधार, और संदर्भ प्रतिधारण के लिए एक नैक है। व्यक्तित्व संकेत-एक विशिष्ट स्वर या पहचान को अपनाने के लिए एक निर्देश- समर्थित पिवोटल, इसे मानव-जैसे स्वभाव के साथ दर्जी प्रतिक्रियाओं की अनुमति देता है।

स्केप्टिक्स हालांकि वजनदार निहितार्थ और कई अनुत्तरित प्रश्न की ओर इशारा करते हैं।

बोवेल को “बड़े आर्थिक और सामाजिक निहितार्थ” से डर लगता है, नौकरी के विस्थापन के एक बहुत ही वास्तविक परिदृश्य के लिए, संभावित रूप से मानवीय रिश्तों को कम करने और धोखे की संभावना को भी कम करना।

पिछले हफ्तों में, एजेंटिक एआई के लिए पीछा ने गति एकत्र की है, माइक्रोसॉफ्ट के नए एजेंटों के साथ वर्कफ़्लोज़ के निर्माण के लिए (लेकिन निश्चित रूप से सीमित नहीं) एडोब, ज़ूम और स्लैक की पसंद के अनुसार। इन एजेंटों के लिए दृष्टि कुछ नौकरियों या कार्य प्रोफाइल में प्रवीणता खोजने के लिए है, जैसे कि ग्राहक सेवा, हेल्थकेयर प्रबंधन, डेटा विश्लेषण, बिक्री, व्यक्तिगत सहायता, सामग्री निर्माण, अनुसंधान और साइबर सुरक्षा निगरानी।

एआई मॉडल अपने व्यक्तित्व कौशल के लिए पुष्टि पा रहे हैं, मानार्थ साबित हो सकते हैं।

निश्चित रूप से कृत्रिम जनरल इंटेलिजेंस, या एजीआई की लूमिंग संभावना है।

शोधकर्ताओं ने बताया, “यह यकीनन वह सहजता है जिसके साथ एलएलएम को अपने व्यवहार को अलग -अलग परिदृश्यों के अनुकूल बनाने के लिए प्रेरित किया जा सकता है जो उन्हें इतना लचीला बनाता है: और जाहिरा तौर पर मानव के रूप में पारित करने में सक्षम है,” शोधकर्ता बताते हैं।

फ्लोरिडा अटलांटिक यूनिवर्सिटी (FAU) में सेंटर फॉर द फ्यूचर माइंड के संस्थापक निदेशक सुसान श्नाइडर का कहना है कि ये परिणाम “कोई आश्चर्य नहीं” हैं।

“बहुत बुरे ये एआई चैटबॉट ठीक से संरेखित नहीं हैं। फिर भी, मैं भविष्यवाणी करता हूं: वे क्षमताओं में बढ़ते रहेंगे और यह एक बुरा सपना होगा – उभरती हुई गुण, ‘गहरे नकली’, चैटबॉट साइबरवर्स। शायद ही कुर्ज़वेइलियन सपना,” वह लिखती है, सोशल मीडिया पर लिखती है।

एआई का भविष्य व्यावहारिक उपयोगिता में निहित है – समस्याओं को हल करना, न कि केवल एक स्मार्ट संवादात्मक होने के नाते। यह विशेष रूप से नए बेंचमार्क, उन परीक्षण तर्क या नैतिक संरेखण के लिए एक तत्काल आवश्यकता को उजागर कर सकता है, बेहतर गेज एआई की प्रगति के लिए।

Source

डी गुकेश, विश्वनाथन आनंद ने विदित गुजराथी की शादी में एक पैर हिलाया और उनके डांस मूव्स आपको मनोरंजन करेंगे

ट्यूरिंग टेस्ट पास करने वाले एआई मॉडल के लिए मानव जैसा व्यवहार कुंजी

Sensex, निफ्टी रिबाउंड मूल्य खरीदने पर लगभग 1 पीसी, वैश्विक रैली

सेबी ने क्वांट-चालित म्यूचुअल फंड बिजनेस को लॉन्च करने के लिए अल्फाग्रेप को मंजूरी दी

मेटा नाम अरुण श्रीनिवास के रूप में भारत के एमडी के रूप में नेतृत्व फेरबदल

LEAVE A REPLY Cancel reply

Most Popular

Sensex, निफ्टी रिबाउंड मूल्य खरीदने पर लगभग 1 पीसी, वैश्विक रैली

बिहार की बारिश: किशंगंज में सड़क धोया गया, छह घंटे के भीतर मरम्मत की गई

सेबी ने क्वांट-चालित म्यूचुअल फंड बिजनेस को लॉन्च करने के लिए अल्फाग्रेप को मंजूरी दी

मेटा नाम अरुण श्रीनिवास के रूप में भारत के एमडी के रूप में नेतृत्व फेरबदल

Recent Comments

ABOUT US

FOLLOW US