एंथ्रोपिक का कहना है कि क्लॉड ओपस 4.8 अति आत्मविश्वास से अधिक ईमानदारी को प्राथमिकता देता है | प्रौद्योगिकी समाचार

Author name

29/05/2026

3 मिनट पढ़ेंनई दिल्ली29 मई, 2026 07:41 पूर्वाह्न IST

बड़े भाषा मॉडल (एलएलएम) अक्सर ऐसे दावे करने के लिए जाने जाते हैं जिनका वे समर्थन नहीं कर सकते। अपने आकार और कौशल के बावजूद, एलएलएम गलत होने पर भी पूरे आत्मविश्वास के साथ बयान देने में प्रवृत्त होते हैं। हालांकि यह एक लगातार समस्या रही है, एआई कंपनियां इन घटनाओं को कम करने पर काम कर रही हैं।

इस दिशा में, फ्रंटियर एआई लैब, एंथ्रोपिक ने गुरुवार, 28 मई को अपना नवीनतम मॉडल – क्लाउड ओपस 4.8 पेश किया – जिसके बारे में उसका दावा है कि इसने क्लाउड को और अधिक ईमानदार बना दिया है। एआई स्टार्टअप ने कहा कि मॉडल उपयोगकर्ता को वह बताने में भी अधिक ईमानदार है जो उन्हें समझ में नहीं आता है।

क्लाउड ओपस 4.7 का अपग्रेड, ओपस 4.8 अब एंथ्रोपिक का सबसे शक्तिशाली आम तौर पर उपलब्ध मॉडल है। हालाँकि सुधार वृद्धिशील प्रतीत होते हैं, शुरुआती परीक्षकों ने बताया कि मॉडल अपने काम के बारे में अनिश्चितताओं को चिह्नित करने की अधिक संभावना रखता है और असमर्थित दावे करने की संभावना कम है।

कंपनी ने कहा कि सुधार उसके मूल्यांकन के कारण संभव हुआ, जिसमें दिखाया गया कि ओपस 4.8 में ओपस 4.7 की तुलना में लगभग चार गुना कम संभावना है कि उसके द्वारा लिखे गए कोड में खामियों को अनदेखा किया जा सके।

रिलीज से पहले, एंथ्रोपिक ने ओपस 4.8 का व्यापक संरेखण और सुरक्षा मूल्यांकन किया, जहां उसने पाया कि मॉडल ने पिछले संस्करणों की तुलना में बेहतर प्रदर्शन किया। इसने उपयोगकर्ता की स्वायत्तता का समर्थन किया और उपयोगकर्ता के सर्वोत्तम हित में कार्य किया। क्लाउड ओपस 4.7 की तुलना में मॉडल ने धोखाधड़ी या दुरुपयोग में सहायता जैसे हानिकारक व्यवहारों की काफी कम दर दिखाई।

इसके अलावा, इसके संरेखण स्तर कथित तौर पर कंपनी के सर्वोत्तम-संरेखित मॉडल – क्लाउड माइथोस प्रीव्यू, एंथ्रोपिक के फ्रंटियर मॉडल के बराबर थे, जो इतना शक्तिशाली है कि कंपनी ने विश्वसनीय भागीदारों के एक प्रेरक समूह तक अपनी पहुंच प्रदान की है।

“मूल्यांकन से यह भी पता चला कि ओपस 4.8 में गलत व्यवहार (जैसे धोखे या दुरुपयोग के साथ सहयोग) की दर ओपस 4.7 से काफी कम है और हमारे सबसे अच्छे-संरेखित मॉडल, क्लाउड माइथोस प्रीव्यू के समान है। पूर्ण संरेखण मूल्यांकन, पूर्व-तैनाती सुरक्षा परीक्षणों के एक सूट के साथ, क्लाउड ओपस 4.8 सिस्टम कार्ड में रिपोर्ट किया गया है,” कंपनी ने अपने ब्लॉग में कहा।

इस विज्ञापन के नीचे कहानी जारी है

जब बेंचमार्किंग की बात आती है, तो एंथ्रोपिक ने कहा कि ओपस 4.8 ने अपने हार्वे के लीगल एजेंट बेंचमार्क पर उच्चतम स्कोर हासिल किया, जो कानूनी तर्क का मूल्यांकन करता है, बेंचमार्क पर कुल 10 प्रतिशत को पार करने वाला पहला मॉडल बन गया। कंप्यूटर उपयोग और ब्राउज़र एजेंटों पर, मॉडल ने कथित तौर पर ऑनलाइन-माइंड2वेब पर 84 प्रतिशत हासिल किया। मॉडल ने उद्यम कार्य और एजेंटिक तर्क में सुधार का प्रदर्शन किया।

एन्थ्रोपिक ने असमर्थित दावों को कम करने और अनिश्चितता रिपोर्टिंग में सुधार पर जोर दिया। ये कंपनी द्वारा साझा किए गए स्कोर हैं; हालाँकि, तृतीय-पक्ष परीक्षकों द्वारा गहन समीक्षा अधिक वस्तुनिष्ठ परिणाम प्रदान कर सकती है।