जैसा कि भारत अपने स्वयं के इंडिक भाषा मॉडल बनाने के लिए दौड़ रहा है, ओपनएआई ने एक नया बेंचमार्क मूल्यांकन पेश किया है, जो कहता है कि यह न केवल एक मॉडल की भाषाई क्षमता का परीक्षण करता है बल्कि सभी डोमेन में भारतीय सांस्कृतिक संदर्भ की समझ का भी परीक्षण करता है।
OpenAI ने सोमवार, 3 नवंबर को एक ब्लॉग पोस्ट में कहा कि IndQA के नाम से जाने जाने वाले बेंचमार्क टेस्ट में 12 भाषाओं और 10 सांस्कृतिक डोमेन के 2,278 प्रश्न शामिल हैं, जिन्हें पूरे भारत के 261 विशेषज्ञों की साझेदारी में संकलित किया गया है।
प्रश्न विभिन्न विषयों जैसे वास्तुकला और डिजाइन, कला और संस्कृति, रोजमर्रा की जिंदगी, भोजन और व्यंजन, इतिहास, कानून और नैतिकता, साहित्य और भाषा विज्ञान, मीडिया और मनोरंजन, धर्म और आध्यात्मिकता, और खेल और मनोरंजन से संबंधित हैं। वे मूल रूप से बंगाली, अंग्रेजी, हिंदी, हिंग्लिश, कन्नड़, मराठी, उड़िया, तेलुगु, गुजराती, मलयालम, पंजाबी और तमिल में लिखे गए हैं।
ओपनएआई ने कहा, “हमने बातचीत में कोड-स्विचिंग की व्यापकता को देखते हुए विशेष रूप से हिंग्लिश को जोड़ा है।”
भारतीय भाषाओं और संस्कृतियों के इर्द-गिर्द एक बेंचमार्क बनाने पर एआई स्टार्टअप का ध्यान महत्वपूर्ण है, यह देखते हुए कि भारत संयुक्त राज्य अमेरिका के बाद चैटजीपीटी के लिए दूसरा सबसे बड़ा बाजार बनकर उभरा है। 4 नवंबर को, OpenAI ने बेंगलुरु में अपने DevDay एक्सचेंज डेवलपर सम्मेलन की मेजबानी की, जहां इसने कई भारत-विशिष्ट घोषणाएं कीं। कंपनी भारत में सीमित प्रचार अवधि के दौरान साइन अप करने वाले उपयोगकर्ताओं के लिए एक वर्ष के लिए अपनी चैटजीपीटी गो सदस्यता योजना भी मुफ्त कर रही है।
ओपनएआई ने कहा, “भारत में लगभग एक अरब लोग हैं जो अपनी प्राथमिक भाषा के रूप में अंग्रेजी का उपयोग नहीं करते हैं, 22 आधिकारिक भाषाएं (50 मिलियन से अधिक वक्ताओं के साथ कम से कम सात सहित) हैं, और यह चैटजीपीटी का दूसरा सबसे बड़ा बाजार है।” इसमें कहा गया है, “हालांकि हमारा उद्देश्य अन्य भाषाओं और क्षेत्रों के लिए समान मानक बनाना है, लेकिन भारत एक स्पष्ट शुरुआती बिंदु है।”
IndQA बेंचमार्क कैसे काम करता है
बेंचमार्क परीक्षण के भाग के रूप में, एआई मॉडल से भारतीय भाषा में सांस्कृतिक रूप से आधारित संकेत के रूप में प्रश्न पूछे जाते हैं। प्रत्येक प्रश्न ऑडिटेबिलिटी के लिए एक अंग्रेजी अनुवाद और एक आदर्श उत्तर के साथ आता है जो विशेषज्ञ की अपेक्षाओं को दर्शाता है।
इस विज्ञापन के नीचे कहानी जारी है
मॉडल की प्रतिक्रिया को उस विशिष्ट प्रश्न के लिए डोमेन विशेषज्ञों द्वारा लिखे गए मानदंडों के अनुसार वर्गीकृत किया गया है। यह मानदंड बताता है कि एक आदर्श उत्तर में क्या शामिल होना चाहिए या क्या नहीं होना चाहिए, और रूब्रिक-आधारित दृष्टिकोण में प्रत्येक को उसके महत्व के आधार पर एक भारित बिंदु मान दिया जाता है।
अंत में, एक एआई मॉडल ग्रेडर जांच करता है कि क्या प्रत्येक मानदंड पूरा हुआ है और कुल संभावित अंकों से विभाजित मानदंडों के लिए अंकों के योग की गणना करके एक अंतिम स्कोर तैयार करता है।
निश्चित रूप से, IndQA को एक के रूप में डिज़ाइन नहीं किया गया है एलएलएम लीडरबोर्ड जो मॉडलों को उनके अंकों के आधार पर रैंक करता है। इसके अतिरिक्त, किसी मॉडल के क्रॉस-भाषा स्कोर का उपयोग यह बताने के लिए नहीं किया जा सकता है कि, उदाहरण के लिए, यह हिंदी की तुलना में कन्नड़ में बेहतर है। इसके बजाय, ओपनएआई के अनुसार, स्कोर एक मॉडल परिवार या कॉन्फ़िगरेशन के भीतर समय के साथ सुधार को मापने के लिए हैं।
इसे सांस्कृतिक बारीकियों को पकड़ने के लिए कैसे डिज़ाइन किया गया था
ओपनएआई ने कहा कि क्षेत्रीय और सांस्कृतिक संदर्भ से जुड़े कठिन, तर्क-केंद्रित प्रश्नों का मसौदा तैयार करने का काम दस अलग-अलग डोमेन के विशेषज्ञों को आउटसोर्स किया गया था। 261 विशेषज्ञों के इस समूह में पत्रकार, भाषाविद्, विद्वान, कलाकार और उद्योग व्यवसायी शामिल थे, जिनमें एक पुरस्कार विजेता तेलुगु अभिनेता, एक मलयालम कवि, एक पंजाबी संगीत संगीतकार और एक अंतरराष्ट्रीय शतरंज ग्रैंडमास्टर सहित अन्य शामिल थे।
इस विज्ञापन के नीचे कहानी जारी है
अपने अगले चरण में, OpenAI ने अपने स्वयं के AI मॉडल जैसे GPT‑4o, o3, और GPT‑4.5 के विरुद्ध परीक्षण करके प्रश्नों को फ़िल्टर किया। इसमें कहा गया है, “हमने केवल वे प्रश्न रखे जहां इनमें से अधिकांश मॉडल प्रगति के लिए गुंजाइश बनाए रखते हुए स्वीकार्य उत्तर देने में विफल रहे।” अंत में, विशेषज्ञों ने आदर्श उत्तर और उनके अंग्रेजी अनुवाद जोड़े जिसके बाद सहकर्मी समीक्षा और पुनरावृत्तीय सुधार किए गए।
चूँकि परीक्षण प्रश्न इस आधार पर चुने गए थे कि OpenAI के अपने मॉडल कहाँ संघर्ष कर रहे थे, कंपनी ने कहा कि उसके मॉडल अन्य मॉडलों की तुलना में नुकसान में हो सकते हैं।
क्या IndQA, इंडिक एलएलएम के लिए समान अवसर प्रदान कर सकता है?
इंडिक भाषाओं के लिए बनाए गए बड़े भाषा मॉडल (एलएलएम) वैश्विक एआई हथियारों की दौड़ में भारत से अलग भूमिका निभा सकते हैं। हालाँकि, इंडिक एलएलएम को विकसित करने में दो प्रमुख चुनौतियों का सामना करना पड़ता है: उच्च गुणवत्ता वाले डेटासेट की कमी और इंडिक एलएलएम का मूल्यांकन करने के लिए स्थानीय बेंचमार्क की अनुपस्थिति।
पिछले कुछ वर्षों से, एआई मॉडल की प्रगति को मुख्य रूप से एमएमएमएलयू और एमजीएसएम जैसे परिचित, बहुभाषी बेंचमार्क के एक सेट के माध्यम से ट्रैक किया गया है। लेकिन इन बेंचमार्क की आलोचना की गई है क्योंकि वे स्थानीय संदर्भ, संस्कृति, इतिहास और जहां वे रहते हैं वहां के लोगों के लिए मायने रखने वाली चीजों की एआई मॉडल की समझ को पकड़ने में विफल रहते हैं।
इस विज्ञापन के नीचे कहानी जारी है
इसके अलावा, मौजूदा भाषा मानदंड मुख्य रूप से किसी मॉडल के अनुवाद या बहुविकल्पीय कार्यों पर केंद्रित होते हैं। सर्वम जैसे भारतीय एआई स्टार्टअप ने बार-बार इंडिक भाषाओं के लिए मानकीकृत बेंचमार्क की अनुपस्थिति को वैश्विक समकक्षों के साथ प्रतिस्पर्धा करने में एक बड़ी बाधा के रूप में पहचाना है।
चूंकि मौजूदा बेंचमार्क मुख्य रूप से अंग्रेजी और यूरोपीय भाषाओं पर केंद्रित हैं, इसलिए वे संभावित रूप से भारत में एआई को अपनाने में बाधा डाल सकते हैं, जहां एआई-संचालित वाक् पहचान के लिए कई उच्चारणों के प्रसंस्करण और स्थानीय भाषाओं के साथ अंग्रेजी के मिश्रण की आवश्यकता होती है।
पश्चिमी संगठनों द्वारा बनाए गए एलएलएम लीडरबोर्ड पर भी पक्षपात का आरोप लगाया गया है। हाल ही में, गुरुग्राम स्थित शून्य लैब्स ने दावा किया कि उसका स्पीच मॉडल पिंगला एनवीडिया के मॉडल से अधिक स्कोर करने के बावजूद हगिंग फेस के ओपनएएसआर लीडरबोर्ड में शीर्ष पर नहीं था।
शून्य लैब्स की सह-संस्थापक और सीईओ रितु मेहरोत्रा ने लिंक्डइन पर एक पोस्ट में कहा, “हमारे भाषण मॉडल, पिंगला ने 3.1% (शब्द त्रुटि दर) WER बनाम एनवीडिया के 5.6% के साथ निर्णायक परिणाम पोस्ट किए। प्रत्येक मीट्रिक के अनुसार, इसे सीधे शीर्ष पर जाना चाहिए था। इसके बजाय, यह एक ब्लैक बॉक्स प्रक्रिया में फंस गया है, जहां प्रतियोगियों के पास चाबियां हैं।”
इस विज्ञापन के नीचे कहानी जारी है
“यह सिर्फ निराशाजनक नहीं है – यह एक चेतावनी है। यदि “ओपन” एआई को उन्हीं ट्रिलियन-डॉलर खिलाड़ियों द्वारा गेट किया जा सकता है जो इसे चुनौती देने का दावा करते हैं, तो सिस्टम वास्तव में किसके लिए बनाया गया है?” उसने जोड़ा।