Google का इमेजेन AI टेक्स्ट के आधार पर कला बना रहा है, लेकिन इसकी सीमाएँ हैं

27

कल्पना कीजिए “पृष्ठभूमि में एफिल टॉवर के साथ एक रोबोट युगल बढ़िया भोजन”? हम मनुष्यों के लिए, हमारे दिमाग में इसे चित्रित करना बहुत आसान है। बेशक, हमारे बीच जितने अधिक रचनात्मक लोग इन शब्दों को अपनी कलाकृति में आसानी से जीवंत कर सकते हैं। और अब Google का AI मॉडल जिसे इमेजन कहा जाता है, कुछ ऐसा ही करने में सक्षम है। एक नई घोषणा में, Google ने दिखाया है कि इमेजन, जो एक टेक्स्ट-टू-इमेज डिफ्यूजन मॉडल है, लिखित टेक्स्ट के आधार पर इमेज बनाने में सक्षम है।

हालांकि सबसे उल्लेखनीय हिस्सा चित्रों में देखी गई सटीकता और फोटोरिअलिज़्म है, जो सभी इन मॉडलों द्वारा बनाए गए हैं। Google ने इमेजेन द्वारा बनाई गई कई कलाकृतियां प्रदर्शित की हैं, जो विचाराधीन वाक्य को सटीक रूप से दर्शाती हैं। उदाहरण के लिए, बांस से बना एक Android शुभंकर है। एक अन्य गुस्से में पक्षी दिखाता है। एक और एक जंगल में गुस्से में कछुए के साथ बहस करते हुए एक सुनहरी चोंच के साथ क्रोम-प्लेटेड बतख दिखाता है।

नीचे दी गई कुछ कलाकृति देखें

पृष्ठभूमि में एफिल टॉवर के साथ एक रोबोट युगल बढ़िया भोजन करता है।
an extreme angry bird वास्तव में क्रोधित पक्षी।
android mascot made from bamboo बांस से बना एक Android शुभंकर।
a chrome plated duck with a golden beak arguing with an angry turtle एक जंगल में गुस्से में कछुए के साथ बहस करते हुए एक सुनहरी चोंच के साथ क्रोम प्लेटेड बतख।

Google का कहना है कि इमेजन अपने “बड़े ट्रांसफॉर्मर भाषा मॉडल” पर आधारित है जो एआई को टेक्स्ट को समझने में मदद करता है। इमेजेन ने Google शोधकर्ताओं को एक और महत्वपूर्ण खोज करने में भी मदद की है, कि सामान्य बड़े भाषा मॉडल “छवि संश्लेषण के लिए एन्कोडिंग टेक्स्ट में आश्चर्यजनक रूप से प्रभावी हैं।”

हालाँकि, कंपनी नोट करती है कि इसकी सीमाएँ हैं, जिसमें “व्यापक रूप से टेक्स्ट-टू-इमेज अनुसंधान का सामना करने वाली कई नैतिक चुनौतियाँ” शामिल हैं। यह मानता है कि यह “समाज को जटिल तरीकों से” प्रभावित कर सकता है, और ऐसे मॉडलों के दुरुपयोग का जोखिम है। यही कारण है कि यह अभी कोड या सार्वजनिक डेमो जारी नहीं कर रहा है।

Google का ब्लॉग नोट करता है “टेक्स्ट-टू-इमेज मॉडल की डेटा आवश्यकताओं ने शोधकर्ताओं को बड़े, अधिकतर बिना सोचे-समझे, वेब-स्क्रैप किए गए डेटासेट पर बहुत अधिक भरोसा करने के लिए प्रेरित किया है”। इस तरह के डेटासेट के साथ समस्या यह है कि वे अक्सर “सामाजिक रूढ़िवादिता, दमनकारी दृष्टिकोण, और अपमानजनक, या अन्यथा हानिकारक, हाशिए पर पहचान समूहों के संघों को दर्शाते हैं,” ब्लॉग के अनुसार।

पोस्ट में कहा गया है कि “हमारे प्रशिक्षण डेटा का एक सबसेट शोर और अवांछनीय सामग्री, जैसे अश्लील इमेजरी और जहरीली भाषा को हटाने के लिए फ़िल्टर किया गया था,”। लेकिन Google द्वारा उपयोग किया जाने वाला डेटासेट, जो कि LAION-400M है, जिसे “अश्लील इमेजरी, नस्लवादी गालियों और हानिकारक सामाजिक रूढ़ियों सहित अनुचित सामग्री की एक विस्तृत श्रृंखला के लिए जाना जाता है,” कंपनी नोट करती है।

Google स्वीकार करता है कि “एक जोखिम है कि इमेजेन ने हानिकारक रूढ़ियों और अभ्यावेदन को एन्कोड किया है, जो बिना किसी सुरक्षा उपायों के सार्वजनिक उपयोग के लिए इमेजेन को जारी नहीं करने के हमारे निर्णय का मार्गदर्शन करता है।”

अंत में, इमेजन अभी भी बहुत सीमित है जब लोगों को चित्रित करने वाली कला उत्पन्न करने की बात आती है, और यह ज्यादातर रूढ़िवादी परिणाम दे रही है। Google का कहना है कि इसमें “सामाजिक पूर्वाग्रह और रूढ़िवादिता है, जिसमें हल्के त्वचा वाले लोगों की छवियों को उत्पन्न करने की दिशा में एक समग्र पूर्वाग्रह शामिल है।” इसके अलावा, जब विभिन्न व्यवसायों को चित्रित करने के लिए कहा जाता है, तो पश्चिमी लिंग रूढ़ियों को प्रदर्शित करने की प्राथमिकता होती है।

Previous articleबॉडी हॉरर, क्रोनबर्ग और कान्स पर क्रिस्टन स्टीवर्ट
Next articleसेन्हाइज़र मोमेंटम ट्रू वायरलेस 3 रिव्यू: फ्लैगशिप TWS और भी बेहतर हो जाता है