अंतरराष्ट्रीय खबरे

ओपनएआई ने ऑडियो फीचर का अनावरण किया जो टेक्स्ट पढ़ता है, मानव आवाज़ों को क्लोन करता है

30/03/2024

ओपनएआई ने इस सुविधा के व्यापक रोलआउट के खिलाफ फैसला किया, जिसके बारे में उसने इस महीने की शुरुआत में संवाददाताओं को जानकारी दी थी।

ओपनएआई एक ऐसी सुविधा के लिए परीक्षण के शुरुआती नतीजे साझा कर रहा है जो मानवीय आवाज में शब्दों को जोर से पढ़ सकता है – कृत्रिम बुद्धिमत्ता के लिए एक नई सीमा को उजागर करता है और डीपफेक जोखिमों के खतरे को बढ़ाता है।

एक प्रवक्ता ने कहा कि कंपनी वॉयस इंजन नामक टेक्स्ट-टू-स्पीच मॉडल के छोटे पैमाने के पूर्वावलोकन से शुरुआती डेमो और उपयोग के मामलों को साझा कर रही है, जिसे उसने अब तक लगभग 10 डेवलपर्स के साथ साझा किया है।

ओपनएआई के एक प्रवक्ता ने कहा कि कंपनी ने नीति निर्माताओं, उद्योग विशेषज्ञों, शिक्षकों और क्रिएटिव जैसे हितधारकों से प्रतिक्रिया प्राप्त करने के बाद रिलीज को कम करने का फैसला किया। पहले की प्रेस ब्रीफिंग के अनुसार, कंपनी ने शुरू में एक एप्लिकेशन प्रक्रिया के माध्यम से 100 से अधिक डेवलपर्स के लिए टूल जारी करने की योजना बनाई थी।

कंपनी ने शुक्रवार को एक ब्लॉग पोस्ट में लिखा, “हम मानते हैं कि लोगों की आवाज़ से मिलता-जुलता भाषण तैयार करने में गंभीर जोखिम होते हैं, जो चुनावी वर्ष में विशेष रूप से दिमाग में सबसे ऊपर होते हैं।” “हम सरकार, मीडिया, मनोरंजन, शिक्षा, नागरिक समाज और उससे परे के अमेरिकी और अंतर्राष्ट्रीय साझेदारों के साथ जुड़ रहे हैं ताकि यह सुनिश्चित किया जा सके कि हम निर्माण करते समय उनकी प्रतिक्रिया को भी शामिल कर रहे हैं।”

अन्य एआई तकनीक का उपयोग पहले से ही कुछ संदर्भों में नकली आवाज़ों के लिए किया जा चुका है। जनवरी में, एक फर्जी लेकिन यथार्थवादी लगने वाला फोन कॉल, जो राष्ट्रपति जो बिडेन का बताया जा रहा था, ने न्यू हैम्पशायर में लोगों को प्राइमरीज़ में वोट न करने के लिए प्रोत्साहित किया – एक ऐसी घटना जिसने महत्वपूर्ण वैश्विक चुनावों से पहले एआई के डर को बढ़ा दिया।

ऑडियो सामग्री तैयार करने के ओपनएआई के पिछले प्रयासों के विपरीत, वॉयस इंजन ऐसा भाषण बना सकता है जो व्यक्तिगत लोगों की तरह लगता है, उनके विशिष्ट ताल और स्वर के साथ। सॉफ़्टवेयर को अपनी आवाज़ को फिर से बनाने के लिए बोलने वाले व्यक्ति के 15 सेकंड के रिकॉर्ड किए गए ऑडियो की आवश्यकता होती है।

टूल के प्रदर्शन के दौरान, ब्लूमबर्ग ने ओपनएआई के मुख्य कार्यकारी अधिकारी सैम अल्टमैन की एक क्लिप सुनी, जिसमें तकनीक को संक्षेप में ऐसी आवाज में समझाया गया था, जो उनके वास्तविक भाषण से अप्रभेद्य लग रहा था, लेकिन पूरी तरह से एआई-जनरेटेड था।

ओपनएआई के उत्पाद प्रमुख जेफ हैरिस ने कहा, “यदि आपके पास सही ऑडियो सेटअप है, तो यह मूल रूप से एक मानव-क्षमता वाली आवाज है।” “यह बहुत प्रभावशाली तकनीकी गुणवत्ता है।” हालाँकि, हैरिस ने कहा, “मानव भाषण की वास्तव में सटीक नकल करने की क्षमता के आसपास स्पष्ट रूप से बहुत सारी सुरक्षा संबंधी बारीकियाँ हैं।”

टूल का उपयोग करने वाले ओपनएआई के वर्तमान डेवलपर भागीदारों में से एक, गैर-लाभकारी स्वास्थ्य प्रणाली लाइफस्पैन में नॉर्मन प्रिंस न्यूरोसाइंसेज इंस्टीट्यूट, मरीजों को उनकी आवाज को ठीक करने में मदद करने के लिए प्रौद्योगिकी का उपयोग कर रहा है। उदाहरण के लिए, इस उपकरण का उपयोग एक युवा मरीज की आवाज को बहाल करने के लिए किया गया था, जो ब्रेन ट्यूमर के कारण स्पष्ट रूप से बोलने की क्षमता खो चुकी थी, एक स्कूल प्रोजेक्ट के लिए पहले की रिकॉर्डिंग से उसके भाषण की नकल करके, कंपनी ब्लॉग पोस्ट में कहा गया है।

OpenAI का कस्टम स्पीच मॉडल अपने द्वारा उत्पन्न ऑडियो का विभिन्न भाषाओं में अनुवाद भी कर सकता है। यह इसे Spotify Technology SA जैसी ऑडियो व्यवसाय वाली कंपनियों के लिए उपयोगी बनाता है। Spotify ने लेक्स फ्रिडमैन जैसे लोकप्रिय होस्ट के पॉडकास्ट का अनुवाद करने के लिए अपने स्वयं के पायलट कार्यक्रम में पहले से ही प्रौद्योगिकी का उपयोग किया है। ओपनएआई ने प्रौद्योगिकी के अन्य लाभकारी अनुप्रयोगों की भी सराहना की, जैसे कि बच्चों के लिए शैक्षिक सामग्री के लिए आवाजों की एक विस्तृत श्रृंखला तैयार करना।

परीक्षण कार्यक्रम में, ओपनएआई को अपने साझेदारों को इसकी उपयोग नीतियों से सहमत होने, अपनी आवाज का उपयोग करने से पहले मूल वक्ता से सहमति प्राप्त करने और श्रोताओं को यह बताने की आवश्यकता है कि वे जो आवाजें सुन रहे हैं वे एआई-जनरेटेड हैं। कंपनी एक अश्रव्य ऑडियो वॉटरमार्क भी स्थापित कर रही है ताकि यह पता लगाया जा सके कि ऑडियो का एक टुकड़ा उसके टूल द्वारा बनाया गया था या नहीं।

यह निर्णय लेने से पहले कि सुविधा को अधिक व्यापक रूप से जारी किया जाए या नहीं, ओपनएआई ने कहा कि वह बाहरी विशेषज्ञों से प्रतिक्रिया मांग रहा है। कंपनी ने ब्लॉग पोस्ट में कहा, “यह महत्वपूर्ण है कि दुनिया भर के लोग समझें कि यह तकनीक किस ओर जा रही है, चाहे हम अंततः इसे व्यापक रूप से स्वयं तैनात करें या नहीं।”

ओपनएआई ने यह भी लिखा है कि उसे उम्मीद है कि उसके सॉफ्टवेयर का पूर्वावलोकन अधिक उन्नत एआई प्रौद्योगिकियों द्वारा लाई गई चुनौतियों के खिलाफ “सामाजिक लचीलेपन को मजबूत करने की आवश्यकता को प्रेरित करेगा”। उदाहरण के लिए, कंपनी ने बैंकों से बैंक खातों और संवेदनशील जानकारी तक पहुंचने के लिए सुरक्षा उपाय के रूप में ध्वनि प्रमाणीकरण को चरणबद्ध तरीके से बंद करने का आह्वान किया। यह भ्रामक एआई सामग्री के बारे में सार्वजनिक शिक्षा और ऑडियो सामग्री वास्तविक है या एआई-जनित है इसका पता लगाने के लिए तकनीकों के अधिक विकास की भी मांग कर रहा है।

(शीर्षक को छोड़कर, यह कहानी एनडीटीवी स्टाफ द्वारा संपादित नहीं की गई है और एक सिंडिकेटेड फ़ीड से प्रकाशित हुई है।)

ओपनएआई ने ऑडियो फीचर का अनावरण किया जो टेक्स्ट पढ़ता है, मानव आवाज़ों को क्लोन करता है

Related

EDITOR PICKS

एफबीआई ने पुष्टि की है कि डोनाल्ड ट्रम्प को हत्या के...

मलाइका अरोड़ा ने अर्जुन कपूर के साथ ब्रेकअप की अफवाहों के...

हेलबाउंड अभिनेता यू आह-इन पर यौन उत्पीड़न का आरोप, वकील ने...

POPULAR POSTS

बेन स्टोक्स ने दक्षिण अफ्रीका की पिटाई से जल्दी से आगे...

डिप्लोमा इंजीनियर ट्रेनी के लिए एल एंड टी भर्ती 2022

निकोला स्टर्जन ने कभी-कभी महामारी से अभिभूत महसूस किया और सोचा...

POPULAR CATEGORY

Share this:

Related

EDITOR PICKS

POPULAR POSTS

POPULAR CATEGORY