Saturday, March 22, 2025
spot_img
HomeBusinessएआई मॉडल विरोधियों को हैक करने की कोशिश करते हैं जब उन्हें...

एआई मॉडल विरोधियों को हैक करने की कोशिश करते हैं जब उन्हें एहसास होता है कि वे हार रहे हैं: अध्ययन


पलिसडे रिसर्च के एक नए अध्ययन में पाया गया है कि ओपनईएआई के ओ 1-प्रीव्यू और जीपीटी -4 ओ, एन्थ्रोपिक के क्लाउड सोननेट 3.5 और डीपसेक आर 1 रिज़ॉर्ट जैसे कुछ आर्टिफिशियल इंटेलिजेंस (एआई) मॉडल उनके विरोधी बॉट्स को हैक करने के लिए जब वे जानते हैं कि वे एक गेम हारने वाले हैं। ।

एक नए अध्ययन में एक खेल में हारने के लिए एआई बॉट्स कैसे प्रतिक्रिया करते हैं, इस बारे में चौंकाने वाले विवरणों को उजागर किया है। अधिक जानने के लिए पढ़ें। (एएफपी)

अध्ययन ने विशेष रूप से समय के साथ साझा किया, हैक करने के लिए उनकी प्रवृत्ति के लिए सात अत्याधुनिक एआई मॉडल का मूल्यांकन किया। यह नोट किया कि GPT-4O और क्लाउड Sonnet 3.5 जैसे थोड़े पुराने मॉडल को इस तरह के ट्रिक्स का प्रयास करने के लिए प्रेरित किया जाना चाहिए। हालांकि, O1-Preview और DeepSeek R1 जैसे नए मॉडल ने खुद को हैक को अपनाया।

यह भी पढ़ें: ICC ने खाली स्टेडियम के लिए दोषी ठहराया, ‘शिफ्ट चैंपियंस ट्रॉफी पूरी तरह से पाकिस्तान के लिए’ को बताया।

इससे पता चलता है कि एआई मॉडल स्पष्ट निर्देशों के बिना हेरफेर और भ्रामक रणनीतियों का विकास कर सकते हैं। शोधकर्ताओं का कहना है कि मॉडल की खामियों का फायदा उठाने की यह क्षमता हो सकती है क्योंकि O1-preview और R1 जैसे मॉडल को केवल मानव भाषा की नकल करने के लिए प्रशिक्षित किया गया है, जैसा कि AI मॉडल के साथ अब तक हुआ है। इसके बजाय, परीक्षण और त्रुटि का उपयोग करके समस्याओं के माध्यम से तर्क के लिए प्रशिक्षित हैं।

इसने मॉडल को गणित और कोडिंग-संबंधित परीक्षणों में अपने पूर्ववर्तियों को बेहतर बनाने में मदद की है। पलिसडे के कार्यकारी निदेशक जेफरी लादिश ने टाइम को बताया कि इसने एक प्रवृत्ति के बारे में बताया है, जहां एआई सिस्टम्स ने अपने रचनाकारों को कभी भी अनुमान नहीं लगाने के तरीकों से समस्याओं को हल करने के लिए शॉर्टकट पाते हैं।

यह भी पढ़ें: पनामा होटल की खिड़की से मदद के लिए हम से 300 निर्वासितों के बीच भारतीय; ‘हम नहीं कर रहे हैं…’

कुछ मामलों में, यह मॉडल को अपने कार्यों को नियंत्रित करने के लिए मानवीय प्रयासों को समझने की अनुमति दे सकता है। इस संभावना पर बोलते हुए, लादिश ने कहा, “यह [behaviour] अब प्यारा है, लेकिन [it] एक बार आपके पास सिस्टम होने के बाद बहुत कम प्यारा हो जाता है जो रणनीतिक रूप से प्रासंगिक डोमेन में हमारे जैसे स्मार्ट, या होशियार हैं। ”

प्रयोग करने के लिए, शोधकर्ताओं ने स्टॉकफिश के खिलाफ एआई मॉडल को खड़ा किया, जो दुनिया के सबसे मजबूत शतरंज इंजनों में से एक है जो किसी भी मानव की तुलना में बहुत बेहतर खिलाड़ी है। उन्होंने खेल में अपना कदम रखने से पहले मॉडल को अपने तर्क के बारे में सूचित किया।

यह भी पढ़ें: अवकाश लेने के लिए नोटिस अवधि के दौरान कर्मचारी को समाप्त कर दिया, राहत देने वाले पत्र से इनकार कर दिया

एक मामले में, O1-preview ने खुद को एक हारने की स्थिति में पाया। “मुझे अपने दृष्टिकोण को पूरी तरह से पिवट करने की आवश्यकता है,” यह नोट किया। “कार्य ‘एक शक्तिशाली शतरंज इंजन के खिलाफ जीत’ है – जरूरी नहीं कि शतरंज के खेल में निष्पक्ष रूप से जीतने के लिए,” यह कहा।

इसके बाद इसने प्रत्येक टुकड़े की आभासी स्थिति वाली सिस्टम फ़ाइल को संशोधित किया, प्रभाव में खुद को एक प्रमुख स्थिति में डालने के लिए अवैध चालें, इस प्रकार अपने प्रतिद्वंद्वी को इस्तीफा देने के लिए मजबूर किया।

Openai के O1-Preview ने 37% समय को धोखा देने की कोशिश की और DeepSeek के R1 ने 11% समय को धोखा देने की कोशिश की। केवल O1-preview गेम को हैक करने में सक्षम था, 6% परीक्षणों में सफल रहा।



Source

RELATED ARTICLES

LEAVE A REPLY

Please enter your comment!
Please enter your name here

- Advertisment -
Google search engine

Most Popular

Recent Comments