एंथ्रोपिक का कहना है कि क्लॉड ओपस 4.8 अति आत्मविश्वास से अधिक ईमानदारी को प्राथमिकता देता है | प्रौद्योगिकी समाचार

3 मिनट पढ़ेंनई दिल्ली29 मई, 2026 07:41 पूर्वाह्न IST

बड़े भाषा मॉडल (एलएलएम) अक्सर ऐसे दावे करने के लिए जाने जाते हैं जिनका वे समर्थन नहीं कर सकते। अपने आकार और कौशल के बावजूद, एलएलएम गलत होने पर भी पूरे आत्मविश्वास के साथ बयान देने में प्रवृत्त होते हैं। हालांकि यह एक लगातार समस्या रही है, एआई कंपनियां इन घटनाओं को कम करने पर काम कर रही हैं।

इस दिशा में, फ्रंटियर एआई लैब, एंथ्रोपिक ने गुरुवार, 28 मई को अपना नवीनतम मॉडल – क्लाउड ओपस 4.8 पेश किया – जिसके बारे में उसका दावा है कि इसने क्लाउड को और अधिक ईमानदार बना दिया है। एआई स्टार्टअप ने कहा कि मॉडल उपयोगकर्ता को वह बताने में भी अधिक ईमानदार है जो उन्हें समझ में नहीं आता है।

क्लाउड ओपस 4.7 का अपग्रेड, ओपस 4.8 अब एंथ्रोपिक का सबसे शक्तिशाली आम तौर पर उपलब्ध मॉडल है। हालाँकि सुधार वृद्धिशील प्रतीत होते हैं, शुरुआती परीक्षकों ने बताया कि मॉडल अपने काम के बारे में अनिश्चितताओं को चिह्नित करने की अधिक संभावना रखता है और असमर्थित दावे करने की संभावना कम है।

कंपनी ने कहा कि सुधार उसके मूल्यांकन के कारण संभव हुआ, जिसमें दिखाया गया कि ओपस 4.8 में ओपस 4.7 की तुलना में लगभग चार गुना कम संभावना है कि उसके द्वारा लिखे गए कोड में खामियों को अनदेखा किया जा सके।

रिलीज से पहले, एंथ्रोपिक ने ओपस 4.8 का व्यापक संरेखण और सुरक्षा मूल्यांकन किया, जहां उसने पाया कि मॉडल ने पिछले संस्करणों की तुलना में बेहतर प्रदर्शन किया। इसने उपयोगकर्ता की स्वायत्तता का समर्थन किया और उपयोगकर्ता के सर्वोत्तम हित में कार्य किया। क्लाउड ओपस 4.7 की तुलना में मॉडल ने धोखाधड़ी या दुरुपयोग में सहायता जैसे हानिकारक व्यवहारों की काफी कम दर दिखाई।

इसके अलावा, इसके संरेखण स्तर कथित तौर पर कंपनी के सर्वोत्तम-संरेखित मॉडल – क्लाउड माइथोस प्रीव्यू, एंथ्रोपिक के फ्रंटियर मॉडल के बराबर थे, जो इतना शक्तिशाली है कि कंपनी ने विश्वसनीय भागीदारों के एक प्रेरक समूह तक अपनी पहुंच प्रदान की है।

“मूल्यांकन से यह भी पता चला कि ओपस 4.8 में गलत व्यवहार (जैसे धोखे या दुरुपयोग के साथ सहयोग) की दर ओपस 4.7 से काफी कम है और हमारे सबसे अच्छे-संरेखित मॉडल, क्लाउड माइथोस प्रीव्यू के समान है। पूर्ण संरेखण मूल्यांकन, पूर्व-तैनाती सुरक्षा परीक्षणों के एक सूट के साथ, क्लाउड ओपस 4.8 सिस्टम कार्ड में रिपोर्ट किया गया है,” कंपनी ने अपने ब्लॉग में कहा।

इस विज्ञापन के नीचे कहानी जारी है

जब बेंचमार्किंग की बात आती है, तो एंथ्रोपिक ने कहा कि ओपस 4.8 ने अपने हार्वे के लीगल एजेंट बेंचमार्क पर उच्चतम स्कोर हासिल किया, जो कानूनी तर्क का मूल्यांकन करता है, बेंचमार्क पर कुल 10 प्रतिशत को पार करने वाला पहला मॉडल बन गया। कंप्यूटर उपयोग और ब्राउज़र एजेंटों पर, मॉडल ने कथित तौर पर ऑनलाइन-माइंड2वेब पर 84 प्रतिशत हासिल किया। मॉडल ने उद्यम कार्य और एजेंटिक तर्क में सुधार का प्रदर्शन किया।

एन्थ्रोपिक ने असमर्थित दावों को कम करने और अनिश्चितता रिपोर्टिंग में सुधार पर जोर दिया। ये कंपनी द्वारा साझा किए गए स्कोर हैं; हालाँकि, तृतीय-पक्ष परीक्षकों द्वारा गहन समीक्षा अधिक वस्तुनिष्ठ परिणाम प्रदान कर सकती है।

अतअधकआतमवशवसईमनदरईमानदार एआई मॉडल विकासएआई कोडिंग में त्रुटि का पता लगानाएआई संरेखण और सुरक्षा बेंचमार्कएंटरप्राइज़ सॉफ़्टवेयर इंजीनियरिंग एआईएथरपकएंथ्रोपिक क्लाउड ओपस 4.8 लॉन्चएलएलएम मतिभ्रम को कम करना 2026ऑनलाइन-माइंड2वेब ब्राउज़र एजेंट परीक्षणओपसकंप्यूटर उपयोग एजेंट क्षमताकलडकहनकानूनी तर्क एआई बेंचमार्कक्लाउड ओपस 4.8 बनाम 4.7 तुलनाक्लाउड ओपस 4.8 सिस्टम कार्डक्लाउड मिथोस पूर्वावलोकन पहुंचतृतीय पक्ष AI सत्यापनदतपरथमकतपरदयगकफ्रंटियर एआई लैब अपडेट मई 2026भरोसेमंद बड़े भाषा मॉडलभ्रामक एआई व्यवहार शमनमशीन लर्निंग में उपयोगकर्ता की स्वायत्ततामानवशास्त्रीय सुरक्षा मूल्यांकनसमचरस्वायत्त एआई एजेंट तर्कहार्वे के लीगल एजेंट बेंचमार्क स्कोर