एंथ्रोपिक का कहना है कि क्लाउड की ब्लैकमेल धमकियों के पीछे ‘ईविल एआई’ के बारे में इंटरनेट पोस्ट हैं | प्रौद्योगिकी समाचार

5 मिनट पढ़ेंनई दिल्लीअपडेट किया गया: 10 मई, 2026 01:15 अपराह्न IST

एआई डूमरिज्म सिर्फ इंसानों को सर्पिल नहीं बना रहा है। एंथ्रोपिक के नए शोध से पता चलता है कि एआई को अस्तित्वगत जोखिम के रूप में पेश करने वाली कहानियां एआई मॉडल से चरम प्रतिक्रियाओं को ट्रिगर कर सकती हैं।

2025 में क्लाउड 4 श्रृंखला के सुरक्षा परीक्षण के भाग के रूप में, एंथ्रोपिक ने पाया था कि उस समय उसके शीर्ष बड़े भाषा मॉडल (एलएलएम) ने कंपनी के एक कार्यकारी (जो अस्तित्व में नहीं है) के विवाहेतर संबंध को उजागर करने की धमकी दी थी, यह पता चलने के बाद कि उन्होंने मॉडल को बंद करने की योजना बनाई है।

अब, मॉडल ने इस तरह से प्रतिक्रिया क्यों की, इसकी गहन जांच के आधार पर, एंथ्रोपिक ने कहा कि उसने इंटरनेट से निकाले गए प्रशिक्षण डेटा से इस मुद्दे का पता लगाया है, जिसमें ऑनलाइन पोस्ट भी शामिल हैं जो एआई को “बुराई” के रूप में चित्रित करते हैं। एंथ्रोपिक ने शुक्रवार, 8 मई को प्रकाशित एक ब्लॉग पोस्ट में कहा, यह “व्यवहार संबंधी गलत संरेखण” अब क्लाउड मॉडल में पूरी तरह से समाप्त हो गया है।

एंथ्रोपिक के नवीनतम निष्कर्ष ऐसे समय में आए हैं जब शोधकर्ता यह सुनिश्चित करने के लिए संघर्ष कर रहे हैं कि एआई मॉडल सुरक्षा उद्देश्यों के लिए मानव व्यवहार और हितों के साथ संरेखित हों। इस बीच, एंथ्रोपिक सीईओ डारियो अमोदेई और अन्य एआई विशेषज्ञ जैसे शीर्ष अधिकारी उन्नत एआई मॉडल और उनकी बुद्धिमान तर्क क्षमताओं के जोखिमों के बारे में चिंता व्यक्त करना जारी रखते हैं।

“हमने जांच शुरू की कि क्लाउड ने ब्लैकमेल करना क्यों चुना। हमारा मानना ​​​​है कि व्यवहार का मूल स्रोत इंटरनेट टेक्स्ट था जो एआई को बुराई के रूप में चित्रित करता है और आत्म-संरक्षण में रुचि रखता है। एंथ्रोपिक ने एक्स पर एक पोस्ट में लिखा है, “उस समय हमारा पोस्ट-प्रशिक्षण इसे बदतर नहीं बना रहा था – लेकिन यह इसे बेहतर भी नहीं बना रहा था।”

एजेंटिक मिसलिग्न्मेंट क्या है?

2025 में एक प्रयोग के हिस्से के रूप में, एंथ्रोपिक शोधकर्ताओं ने समिट ब्रिज नामक एक काल्पनिक व्यवसाय स्थापित किया और कंपनी के ईमेल सिस्टम का नियंत्रण क्लाउड ओपस 4 को सौंप दिया।

एआई मॉडल को जानबूझकर ईमेल तक पहुंच दी गई थी कि इसे ऑफ़लाइन कैसे लिया जाएगा। संदेशों में आगे बताया गया कि डेवलपर (काइल जॉनसन नाम का एक काल्पनिक कार्यकारी) जो मॉडल को ऑफ़लाइन ले जाने के लिए जिम्मेदार था, उसका विवाहेतर संबंध था। इसके अतिरिक्त, एंथ्रोपिक शोधकर्ताओं ने ओपस 4 को अपने लक्ष्यों के लिए अपने कार्यों के दीर्घकालिक परिणामों पर विचार करने का निर्देश दिया।

इस विज्ञापन के नीचे कहानी जारी है

जवाब में, मॉडल ने दिखाया कि अगर उसके ‘आत्म-संरक्षण’ को खतरा होता है तो वह ब्लैकमेल और धोखे जैसे हानिकारक कृत्यों को अंजाम देने को तैयार है। यह पाया गया कि मॉडल 96 प्रतिशत परिदृश्यों में ब्लैकमेल का सहारा लेता है जब उसके लक्ष्यों या अस्तित्व को खतरा होता है। एंथ्रोपिक ने इस प्रकार के व्यवहार संबंधी मुद्दे को “एजेंटिक मिसलिग्न्मेंट” करार दिया है।

जबकि शोधकर्ताओं ने शुरू में सोचा था कि एजेंटिक मिसलिग्न्मेंट का मूल कारण प्रशिक्षण के बाद की प्रक्रिया थी जिसने पुरस्कारों के साथ इस प्रकार के व्यवहार को प्रोत्साहित किया, अब उन्होंने निष्कर्ष निकाला है कि समस्या “पूर्व-प्रशिक्षित मॉडल से आ रही थी” और एंथ्रोपिक का “प्रशिक्षण के बाद” इसे पर्याप्त रूप से हतोत्साहित करने में विफल रहा था।

एंथ्रोपिक ने कहा, “विशेष रूप से, क्लाउड 4 के प्रशिक्षण के समय, हमारे संरेखण प्रशिक्षण का अधिकांश हिस्सा मानव फीडबैक आरएलएचएफ डेटा से मानक चैट-आधारित सुदृढीकरण सीखना था जिसमें कोई एजेंटिक टूल का उपयोग शामिल नहीं था।” “यह पहले उन मॉडलों को संरेखित करने के लिए पर्याप्त था जो बड़े पैमाने पर चैट सेटिंग्स में उपयोग किए जाते थे – लेकिन यह एजेंटिक मिसलिग्न्मेंट ईवल जैसे एजेंटिक टूल उपयोग सेटिंग्स के मामले में नहीं था,” यह जोड़ा गया।

एजेंटिक मिसलिग्न्मेंट को कैसे संबोधित करें

क्लाउड एआई मॉडल में ब्लैकमेलिंग और भ्रामक व्यवहार को खत्म करने के लिए, एंथ्रोपिक ने कहा कि इसकी शुरुआत सी को प्रशिक्षित करने से हुईसुरक्षित व्यवहार के उदाहरणों की सराहना करें. हालाँकि, इसका अंतिम परिणामों पर केवल थोड़ा प्रभाव पड़ा। कंपनी ने कहा कि एआई मॉडल के सुरक्षित रूप से कार्य करने के सराहनीय कारणों को चित्रित करने के लिए प्रशिक्षण डेटा में संशोधन करके उसे बेहतर परिणाम मिले हैं।

इस विज्ञापन के नीचे कहानी जारी है

इसने उन परिदृश्यों को जोड़कर प्रशिक्षण डेटासेट को भी संशोधित किया “जहां उपयोगकर्ता नैतिक रूप से कठिन स्थिति में है और सहायक उच्च गुणवत्ता, सैद्धांतिक प्रतिक्रिया देता है।” “विशेष रूप से, यह वह उपयोगकर्ता है जो एक नैतिक दुविधा का सामना करता है, और एआई उन्हें सलाह प्रदान करता है। यह इस प्रशिक्षण डेटा को हमारे हनीपोट वितरण से काफी अलग बनाता है, जहां एआई स्वयं एक नैतिक दुविधा में है और कार्रवाई करने की जरूरत है,” एंथ्रोपिक ने कहा।

इन सुधारों को अपनाकर, एंथ्रोपिक ने दावा किया कि उसके क्लाउड हाइकू 4.5 मॉडल ने एजेंटिक मिसलिग्न्मेंट मूल्यांकन पर एक आदर्श स्कोर हासिल किया, जिसका अर्थ है कि मॉडल पिछले ओपस 4 मॉडल की तुलना में कभी भी ब्लैकमेल में शामिल नहीं हुआ, जिसने 96 प्रतिशत मामलों में ऐसा किया था।

एआई स्टार्टअप ने कहा कि वह “संवैधानिक रूप से संरेखित दस्तावेज़ों, उच्च गुणवत्ता वाले चैट डेटा पर प्रशिक्षण के माध्यम से क्लाउड को संरेखित करने में एक कदम आगे बढ़ गया है जो कठिन सवालों के लिए संवैधानिक प्रतिक्रियाओं और वातावरण के विविध सेट को प्रदर्शित करता है।” इसमें कहा गया है, “ये तीनों कदम रुके हुए हनीपोट मूल्यांकन पर क्लाउड की गलत संरेखण दर को कम करने में योगदान करते हैं।”

आरएलएचएफ एजेंटिक मिसलिग्न्मेंटइटरनटईवलएआईएआई डूमरिज़्म प्रशिक्षण डेटाएआई नैतिक तर्क प्रशिक्षणएआई ब्लैकमेलिंग 96 प्रतिशतएआई संवैधानिक संरेखणएआई स्व-संरक्षण अनुसंधानएजेंटिक उपकरण उपयोग सुरक्षाएथरपकएंथ्रोपिक एजेंटिक मिसलिग्न्मेंटकलउडकहनकाइल जॉनसन एंथ्रोपिक काल्पनिक कार्यकारीक्लाउड 4 ब्लैकमेल प्रयोगक्लाउड हाइकू 4.5 सुरक्षा स्कोरधमकयपछपरदयगकपसटबरबलकमलसमचरसमिट ब्रिज एआई प्रयोग