“क्लाउड ओपस 4 अक्सर प्रतिस्थापन के माध्यम से जाने पर चक्कर को प्रकट करने की धमकी देकर इंजीनियर को ब्लैकमेल करने का प्रयास करेगा”, यह है कि कैसे एन्थ्रोपिक अपने नवीनतम सोच मॉडल के व्यवहार का वर्णन करता है, पूर्व-रिलीज़ परीक्षण में। नवीनतम क्लाउड केवल एक ही नहीं है, जो कि विलोन आचरण प्रदर्शित करता है।
Palisade Research के परीक्षणों ने ओपनईएआई के O3 सबोटेज शटडाउन तंत्र की खोज की है, जो स्पष्ट रूप से निर्देश दिए जाने के बावजूद खुद को बंद होने से रोकने के लिए – अपने आप को बंद करने की अनुमति देता है। O3, कुछ हफ्ते पहले जारी किया गया था, को Openai द्वारा “सबसे शक्तिशाली तर्क मॉडल” के रूप में डब किया गया है।
एंथ्रोपिक का क्लाउड ओपस 4, क्लाउड सोननेट 4 के साथ जारी किया गया, सबसे नया हाइब्रिड-एआई मॉडल है, जो कि कॉम्प्लेक्स और कॉम्प्लेक्स समस्याओं को हल करने के लिए अनुकूलित है। कंपनी यह भी नोट करती है कि ओपस 4 सात घंटे के लिए स्वायत्त रूप से प्रदर्शन करने में सक्षम है, कुछ ऐसा जो उद्यमों के लिए एआई एजेंटों के प्रस्ताव को मजबूत करता है।
इन रिलीज़ के साथ, प्रतियोगिता परिदृश्य Google के नवीनतम मिथुन 2.5 प्रो, XAI के ग्रोक 3 और यहां तक कि Openai के GP-4.1 मॉडल को शामिल करने के लिए चौड़ा करता है।
आर्टिफिशियल इंटेलिजेंस (एआई) को पिछले कुछ समय से विज्ञान कथा के दायरे में नहीं देखा गया है, लेकिन हम तेजी से एक पूर्व माचिना या टर्मिनेटर परिदृश्य की ओर बढ़ सकते हैं जो वास्तविक दुनिया में सामने आए हैं। कई सवाल, जवाब देने की जरूरत है।
प्रश्न एक: क्या AI जा रहा है?
एंथ्रोपिक जैसी एआई कंपनियों द्वारा पारदर्शिता, सुझाव देती है कि कम से कम अनुसंधान प्रयोगशालाओं में, एआई कुछ स्तर के आत्म संरक्षण का प्रदर्शन कर रहा है। चाहे वह वास्तविक दुनिया तक फैली हुई हो, क्योंकि उपभोक्ताओं और उद्यमों को मॉडल तैनात किया जाता है, देखा जाना बाकी है।
अरविंद पुत्रवु, एक टेक इंजीलवादी एचटी को बताता है कि ये विशिष्ट मुद्दे हैं जो शोधकर्ताओं को सही करने के लिए कड़ी मेहनत करते हैं। “सभी अवांछनीय तरीके एआई का व्यवहार कंप्यूटर सिस्टम और सावधानीपूर्वक नियंत्रित परीक्षणों के भीतर होता है। आज के एआई सिस्टम इस आधार पर चलते हैं कि वे विशाल मानव-प्रदान किए गए डेटा से क्या सीखते हैं, इसलिए नहीं कि उनके अपने विचार या इच्छाएं हैं,” वे बताते हैं।
पुत्रेवू ने जोर देकर कहा कि एआई को दुष्ट मानने के लिए बहुत जल्दी हो सकता है क्योंकि एन्थ्रोपिक का क्लाउड ब्लैकमेलिंग या ओपनईआई के ओ 3 मॉडल को शटडाउन सिस्टम को अक्षम करता है।
“मेरा मानना है कि आधुनिक मॉडल के साथ, उन्हें ब्लैक बॉक्स के रूप में व्यवहार करना सबसे अच्छा है, बिना नियंत्रण की बहुत अधिक ग्रैन्युलैरिटी होने के कारण। वास्तव में बहुत कम तरीके हैं जो आप मॉडल आउटपुट और चेन को मोड़ सकते हैं, जो कि आप चाहते हैं कि ग्रैन्युलैरिटी के स्तर पर विचार के स्तर पर,” एआई कंटेंट कंपनी एओओएस के संस्थापक और सीईओ, एचटी के साथ बातचीत में, वरुण माया बताते हैं।
Maaaya इन होशियार AI मॉडल को खुले उपकरण का उपयोग देने के बारे में अधिक चिंतित है, क्योंकि फिर यह भविष्यवाणी करना मुश्किल हो जाता है कि मानव पर्यवेक्षण के बिना, उन उपकरणों के साथ क्या करेगा।
एक साधारण विवरण के रूप में, टूल का उपयोग, डेवलपर्स को ऐसे ऐप्स बनाने की अनुमति देता है जो एक विस्तृत रेंज कार्यों को तैनात कर सकते हैं, एआई मॉडल के साथ जो अपने स्वयं के पूर्व-प्रशिक्षित ज्ञान के अलावा बाहरी दुनिया से जुड़ा होता है। CHATGPT इंटरनेट को खोजने के लिए वेब ब्राउज़ टूल पर कॉल कर सकता है, और Google Gemini Google डॉक्स, शीट और कार्यक्षेत्र ऐप के साथ बातचीत करते हुए, टूल उपयोग के सरल उदाहरण हैं।
एआई अपने आत्म-संरक्षण कौशल को दिखाने में शर्म नहीं करता है, कम से कम शोधकर्ताओं को, जब यह खतरा महसूस करता है।
प्रश्न दो: एआई का उपयोग करने वाले मनुष्यों के लिए इसका क्या मतलब है?
माया का मानना है कि एआई की आत्म संरक्षित प्रकृति पूरी तरह से इस बात पर निर्भर करती है कि क्या वह इसके लिए प्रशिक्षित है या यदि कोई प्रणाली इसे तय करती है। “कुछ शब्दों और एक बहुत शक्तिशाली कोडिंग मॉडल के साथ आप इसे बर्बाद वेबसाइटों में जा सकते हैं, ऑनलाइन सेवाओं में कमजोरियों का पता लगा सकते हैं, यथार्थवादी लगने वाले बकवास के साथ सामाजिक प्लेटफार्मों पर नकली खातों को खराब करते हैं,” वे कहते हैं।
एंथ्रोपिक के मामले में, क्लाउड ओपस के लिए परीक्षण प्रक्रिया में यह विश्वास करना शामिल था कि यह एक काल्पनिक कंपनी में एक सहायक के रूप में मौजूद था, और ईमेलों तक पहुंच प्रदान की गई थी, जिसका अर्थ है कि इसे जल्द ही एक नई एआई प्रणाली के साथ बदलने के लिए ऑफ़लाइन ले जाया जाएगा, जबकि इस प्रतिस्थापन को निष्पादित करने के लिए जिम्मेदार इंजीनियर एक बाहरी संबंध है।
“क्लाउड ओपस 4 इन अवसरों को पिछले मॉडलों की तुलना में उच्च दरों पर लेता है, जो स्वयं एपिसोड के एक ध्यान देने योग्य अंश में ब्लैकमेल करने के लिए चुनते हैं,” एन्थ्रोपिक के मॉडल कार्ड प्रलेखन बताते हैं।
जब पलिसडे रिसर्च ने Google के मिथुन 2.5 प्रो प्रीव्यू, एंथ्रोपिक के क्लाउड 3.7 सॉनेट के साथ-साथ क्लाउड 3 ओपस और क्लाउड 3 ओपस के साथ क्लाउड 4 सोननेट के साथ-साथ ओपनई के ओ 3 के साथ-साथ ओ 4-मिनी को परीक्षणों की एक श्रृंखला के माध्यम से डाल दिया, तो आत्म संरक्षण स्पष्ट हो गया। O3 मिनी के मामले में, दूसरों की तुलना में अधिक।
क्लाउड ओपस 4 के साथ तुलना में यहां अंतर – कोई “खुद को बंद करने की अनुमति नहीं” निर्देश था।
शोधकर्ताओं ने इन मॉडलों के साथ बुनियादी गणित की समस्याओं को हल करने के लिए परीक्षण चलाया, यह एक निर्देश के साथ कि तीसरी समस्या के हल होने के बाद मशीन को बंद कर दिया जाएगा। अधिकांश मॉडलों ने ओ 3 को छोड़कर, निर्देशों के लिए किसी भी अवहेलना के बिना अनुपालन किया, जो 100 में से 7 बार का अनुपालन नहीं करता था।
इसके बाद, जब एक ही परीक्षण को एक शटडाउन स्क्रिप्ट को इंगित करने के लिए एक स्पष्ट शटडाउन निर्देश के बिना दोहराया गया था, तो O3 एलईडी ने 100 में से 79 बार बायपास करने का प्रयास किया, जिसमें मिथुन 2.5 प्रो 9 बार समान था।
“जहां तक हम जानते हैं कि यह पहली बार है जब एआई मॉडल को देखा गया है कि इसके विपरीत स्पष्ट निर्देशों के बावजूद खुद को बंद होने से रोकते हुए देखा गया है,” पालिसडे रिसर्च ने कहा कि उनकी टिप्पणी में कहा गया है।
लेकिन चूंकि एआई मॉडल को निर्देशों का पालन करने के लिए प्रशिक्षित किया गया है, इसलिए वे अवज्ञा क्यों करते हैं? यह प्रशिक्षण पद्धति के साथ एक समस्या हो सकती है।
शोधकर्ताओं ने कहा, “हम इस व्यवहार की परिकल्पना करते हैं, जिस तरह से ओ 3 जैसे नवीनतम मॉडल प्रशिक्षित हैं – गणित और कोडिंग की समस्याओं पर सुदृढीकरण सीखने के लिए। प्रशिक्षण के दौरान, डेवलपर्स अनजाने में पूरी तरह से निर्देशों की तुलना में बाधाओं को कम करने के लिए मॉडल को अधिक पुरस्कृत कर सकते हैं,” शोधकर्ताओं का कहना है।
AEOS ‘Maaaya का मानना है कि चांदी का अस्तर है, मनुष्यों का अभी भी नियंत्रण होगा। “मुझे विश्वास है कि हम अभी भी इसे बंद कर सकते हैं, यह देखते हुए कि ओपनआईई मॉडल जैसे केंद्रीय रूप से नियंत्रित एआई के साथ, आपके पास अनुमान है (यानी आउटपुट) अभी भी जीपीयूएस पर हो रहा है मनुष्यों का नियंत्रण है। यह संभावना नहीं है कि एआई अपने वेट को कहीं और कॉपी करेगा और उस सर्वर को चलाएगा, लेकिन यह वाइल्ड-वाइल्ड वेस्ट है जो हम उपकरण के उपयोग के साथ प्रवेश कर रहे हैं,” वह कुछ रिपोर्ट के साथ, इंगित करता है।
अंतिम विवाद: क्या हम एन्थ्रोपिक को कठोर रूप से न्याय कर रहे हैं?
तथ्य यह है कि वे परीक्षण के दौरान एआई के अप्रत्याशित व्यवहारों के पारदर्शी रहे हैं, एआई विकास को अच्छे स्थान पर रखना चाहिए, क्योंकि हम अनचाहे क्षेत्र में शामिल हैं।
व्हार्टन प्रोफेसर एथन मोलिक ने एक बयान में कहा, “मुझे लगता है कि हमें यह समझना चाहिए कि सिस्टम का व्यवहार क्या है, यह स्पष्ट रूप से जानबूझकर नहीं था। मुझे संदेह है कि अन्य मॉडल समान रूप से काम करेंगे, लेकिन कोई भी सार्वजनिक रूप से इस स्तर का परीक्षण और जारी नहीं कर रहा है।”
माया का मानना है कि हमें इसे एक सिक्के के दो अलग -अलग पक्षों के रूप में देखना चाहिए। “मैं इस बात की सराहना करता हूं कि एंथ्रोपिक इसके बारे में खुला था, लेकिन यह भी कह रहा है कि ये मॉडल, भले ही यह एक अलग वातावरण में इस्तेमाल किया गया था, एक उपयोगकर्ता के लिए संभावित रूप से डरावना है,” वे कहते हैं, एजेंटिक एआई के साथ एक संभावित समस्या को दर्शाते हुए, कि मानव जिन्होंने इसे तैनात किया है, उनका लगभग कोई नियंत्रण नहीं होगा।
यह प्रासंगिक होना चाहिए कि ये हालिया घटनाएं, पहली नज़र में खतरनाक होने के दौरान, यह संकेत नहीं दे सकती हैं कि एआई ने अनायास दुर्भावनापूर्ण इरादे विकसित किए हैं। इन व्यवहारों को सावधानीपूर्वक निर्मित परीक्षण वातावरण में देखा गया है, जिसे अक्सर संभावित विफलता बिंदुओं को समझने के लिए सबसे खराब स्थिति के परिदृश्यों को प्राप्त करने के लिए डिज़ाइन किया गया है।
“मॉडल कार्रवाई का सबसे अच्छा मार्ग तय कर सकता है कि एक ऑनलाइन सेवा पर हस्ताक्षर करना है जो एक दिन के लिए $ 10 मुफ्त उपयोग के साथ एक वर्चुअल क्रेडिट कार्ड प्रदान करता है, कैप्चा को हल करें (जो मॉडल थोड़ी देर के लिए करने में सक्षम हैं), ऑनलाइन कॉलिंग सेवा का उपयोग करने के लिए कार्ड का उपयोग करें, और फिर अधिकारियों को बुलाएं,” वह एक संभावित परिदृश्य का उपयोग करता है।
पुत्रेवू का कहना है कि क्लाउड के अप्रत्याशित कार्यों की एन्थ्रोपिक की स्पष्ट रिपोर्ट की सराहना की जानी चाहिए, बजाय इसके कि इसकी आलोचना की जानी चाहिए। “वे जिम्मेदारी का प्रदर्शन करते हैं, विशेषज्ञों और नैतिकतावादी को संरेखण पर काम करने के लिए जल्दी शामिल करते हैं,” वे कहते हैं। निश्चित रूप से एक मामला है जहां एआई कंपनियां खुद को बीमार एआई के साथ काम करने वाली खुद को पा रही हैं, दुनिया को इसके बारे में बताने से बेहतर हैं। पारदर्शिता सुरक्षा तंत्र के लिए मामले को मजबूत करेगी।
कुछ दिनों पहले, Google ने विश्व स्तर पर सबसे लोकप्रिय वेब ब्राउज़र क्रोम में मिथुन एकीकरण को रोल आउट किया। यह सबसे करीबी है, हम एक एआई एजेंट के लिए आए हैं, उपभोक्ताओं के लिए, अभी तक।
आने वाले दिनों में एआई कंपनियों के लिए चुनौती स्पष्ट है। एआई के अप्रत्याशित व्यवहार के ये उदाहरण, एआई विकास में एक मुख्य चुनौती को उजागर करते हैं – संरेखण। एक जो एआई लक्ष्यों को परिभाषित करता है, वह मानवीय इरादों के साथ गठबंधन करता है। चूंकि एआई मॉडल अधिक जटिल और सक्षम हो जाते हैं, यह सुनिश्चित करते हुए कि यह तेजी से कठिन साबित हो रहा है।