ओपनएआई ने ऑडियो फीचर का अनावरण किया जो टेक्स्ट पढ़ता है, मानव आवाज़ों को क्लोन करता है

31
ओपनएआई ने ऑडियो फीचर का अनावरण किया जो टेक्स्ट पढ़ता है, मानव आवाज़ों को क्लोन करता है

ओपनएआई ने इस सुविधा के व्यापक रोलआउट के खिलाफ फैसला किया, जिसके बारे में उसने इस महीने की शुरुआत में संवाददाताओं को जानकारी दी थी।

ओपनएआई एक ऐसी सुविधा के लिए परीक्षण के शुरुआती नतीजे साझा कर रहा है जो मानवीय आवाज में शब्दों को जोर से पढ़ सकता है – कृत्रिम बुद्धिमत्ता के लिए एक नई सीमा को उजागर करता है और डीपफेक जोखिमों के खतरे को बढ़ाता है।

एक प्रवक्ता ने कहा कि कंपनी वॉयस इंजन नामक टेक्स्ट-टू-स्पीच मॉडल के छोटे पैमाने के पूर्वावलोकन से शुरुआती डेमो और उपयोग के मामलों को साझा कर रही है, जिसे उसने अब तक लगभग 10 डेवलपर्स के साथ साझा किया है।

ओपनएआई ने इस सुविधा के व्यापक रोलआउट के खिलाफ फैसला किया, जिसके बारे में उसने इस महीने की शुरुआत में संवाददाताओं को जानकारी दी थी।

ओपनएआई के एक प्रवक्ता ने कहा कि कंपनी ने नीति निर्माताओं, उद्योग विशेषज्ञों, शिक्षकों और क्रिएटिव जैसे हितधारकों से प्रतिक्रिया प्राप्त करने के बाद रिलीज को कम करने का फैसला किया। पहले की प्रेस ब्रीफिंग के अनुसार, कंपनी ने शुरू में एक एप्लिकेशन प्रक्रिया के माध्यम से 100 से अधिक डेवलपर्स के लिए टूल जारी करने की योजना बनाई थी।

कंपनी ने शुक्रवार को एक ब्लॉग पोस्ट में लिखा, “हम मानते हैं कि लोगों की आवाज़ से मिलता-जुलता भाषण तैयार करने में गंभीर जोखिम होते हैं, जो चुनावी वर्ष में विशेष रूप से दिमाग में सबसे ऊपर होते हैं।” “हम सरकार, मीडिया, मनोरंजन, शिक्षा, नागरिक समाज और उससे परे के अमेरिकी और अंतर्राष्ट्रीय साझेदारों के साथ जुड़ रहे हैं ताकि यह सुनिश्चित किया जा सके कि हम निर्माण करते समय उनकी प्रतिक्रिया को भी शामिल कर रहे हैं।”

अन्य एआई तकनीक का उपयोग पहले से ही कुछ संदर्भों में नकली आवाज़ों के लिए किया जा चुका है। जनवरी में, एक फर्जी लेकिन यथार्थवादी लगने वाला फोन कॉल, जो राष्ट्रपति जो बिडेन का बताया जा रहा था, ने न्यू हैम्पशायर में लोगों को प्राइमरीज़ में वोट न करने के लिए प्रोत्साहित किया – एक ऐसी घटना जिसने महत्वपूर्ण वैश्विक चुनावों से पहले एआई के डर को बढ़ा दिया।

ऑडियो सामग्री तैयार करने के ओपनएआई के पिछले प्रयासों के विपरीत, वॉयस इंजन ऐसा भाषण बना सकता है जो व्यक्तिगत लोगों की तरह लगता है, उनके विशिष्ट ताल और स्वर के साथ। सॉफ़्टवेयर को अपनी आवाज़ को फिर से बनाने के लिए बोलने वाले व्यक्ति के 15 सेकंड के रिकॉर्ड किए गए ऑडियो की आवश्यकता होती है।

टूल के प्रदर्शन के दौरान, ब्लूमबर्ग ने ओपनएआई के मुख्य कार्यकारी अधिकारी सैम अल्टमैन की एक क्लिप सुनी, जिसमें तकनीक को संक्षेप में ऐसी आवाज में समझाया गया था, जो उनके वास्तविक भाषण से अप्रभेद्य लग रहा था, लेकिन पूरी तरह से एआई-जनरेटेड था।

ओपनएआई के उत्पाद प्रमुख जेफ हैरिस ने कहा, “यदि आपके पास सही ऑडियो सेटअप है, तो यह मूल रूप से एक मानव-क्षमता वाली आवाज है।” “यह बहुत प्रभावशाली तकनीकी गुणवत्ता है।” हालाँकि, हैरिस ने कहा, “मानव भाषण की वास्तव में सटीक नकल करने की क्षमता के आसपास स्पष्ट रूप से बहुत सारी सुरक्षा संबंधी बारीकियाँ हैं।”

टूल का उपयोग करने वाले ओपनएआई के वर्तमान डेवलपर भागीदारों में से एक, गैर-लाभकारी स्वास्थ्य प्रणाली लाइफस्पैन में नॉर्मन प्रिंस न्यूरोसाइंसेज इंस्टीट्यूट, मरीजों को उनकी आवाज को ठीक करने में मदद करने के लिए प्रौद्योगिकी का उपयोग कर रहा है। उदाहरण के लिए, इस उपकरण का उपयोग एक युवा मरीज की आवाज को बहाल करने के लिए किया गया था, जो ब्रेन ट्यूमर के कारण स्पष्ट रूप से बोलने की क्षमता खो चुकी थी, एक स्कूल प्रोजेक्ट के लिए पहले की रिकॉर्डिंग से उसके भाषण की नकल करके, कंपनी ब्लॉग पोस्ट में कहा गया है।

OpenAI का कस्टम स्पीच मॉडल अपने द्वारा उत्पन्न ऑडियो का विभिन्न भाषाओं में अनुवाद भी कर सकता है। यह इसे Spotify Technology SA जैसी ऑडियो व्यवसाय वाली कंपनियों के लिए उपयोगी बनाता है। Spotify ने लेक्स फ्रिडमैन जैसे लोकप्रिय होस्ट के पॉडकास्ट का अनुवाद करने के लिए अपने स्वयं के पायलट कार्यक्रम में पहले से ही प्रौद्योगिकी का उपयोग किया है। ओपनएआई ने प्रौद्योगिकी के अन्य लाभकारी अनुप्रयोगों की भी सराहना की, जैसे कि बच्चों के लिए शैक्षिक सामग्री के लिए आवाजों की एक विस्तृत श्रृंखला तैयार करना।

परीक्षण कार्यक्रम में, ओपनएआई को अपने साझेदारों को इसकी उपयोग नीतियों से सहमत होने, अपनी आवाज का उपयोग करने से पहले मूल वक्ता से सहमति प्राप्त करने और श्रोताओं को यह बताने की आवश्यकता है कि वे जो आवाजें सुन रहे हैं वे एआई-जनरेटेड हैं। कंपनी एक अश्रव्य ऑडियो वॉटरमार्क भी स्थापित कर रही है ताकि यह पता लगाया जा सके कि ऑडियो का एक टुकड़ा उसके टूल द्वारा बनाया गया था या नहीं।

यह निर्णय लेने से पहले कि सुविधा को अधिक व्यापक रूप से जारी किया जाए या नहीं, ओपनएआई ने कहा कि वह बाहरी विशेषज्ञों से प्रतिक्रिया मांग रहा है। कंपनी ने ब्लॉग पोस्ट में कहा, “यह महत्वपूर्ण है कि दुनिया भर के लोग समझें कि यह तकनीक किस ओर जा रही है, चाहे हम अंततः इसे व्यापक रूप से स्वयं तैनात करें या नहीं।”

ओपनएआई ने यह भी लिखा है कि उसे उम्मीद है कि उसके सॉफ्टवेयर का पूर्वावलोकन अधिक उन्नत एआई प्रौद्योगिकियों द्वारा लाई गई चुनौतियों के खिलाफ “सामाजिक लचीलेपन को मजबूत करने की आवश्यकता को प्रेरित करेगा”। उदाहरण के लिए, कंपनी ने बैंकों से बैंक खातों और संवेदनशील जानकारी तक पहुंचने के लिए सुरक्षा उपाय के रूप में ध्वनि प्रमाणीकरण को चरणबद्ध तरीके से बंद करने का आह्वान किया। यह भ्रामक एआई सामग्री के बारे में सार्वजनिक शिक्षा और ऑडियो सामग्री वास्तविक है या एआई-जनित है इसका पता लगाने के लिए तकनीकों के अधिक विकास की भी मांग कर रहा है।

(शीर्षक को छोड़कर, यह कहानी एनडीटीवी स्टाफ द्वारा संपादित नहीं की गई है और एक सिंडिकेटेड फ़ीड से प्रकाशित हुई है।)

Previous articleप्रियंका चोपड़ा चचेरी बहन मन्नारा चोपड़ा की बर्थडे पार्टी में पति निक जोनास के साथ पहुंचीं
Next articleदेखें: आईपीएल 2024 में आरसीबी बनाम केकेआर मुकाबले के दौरान मयंक डागर ने शानदार गेंद से सुनील नरेन को क्लीन बोल्ड कर दिया।