Google I/O 2024: डीपमाइंड ने प्रोजेक्ट एस्ट्रा के साथ रीयल-टाइम कंप्यूटर विज़न-आधारित AI इंटरैक्शन प्रदर्शित किया

Google I/O 2024 के मुख्य भाषण सत्र में कंपनी को कृत्रिम बुद्धिमत्ता (AI) मॉडल और टूल की अपनी प्रभावशाली लाइनअप प्रदर्शित करने की अनुमति मिली, जिस पर वह कुछ समय से काम कर रही थी। पेश की गई अधिकांश सुविधाएं आने वाले महीनों में सार्वजनिक पूर्वावलोकन के लिए उपलब्ध हो जाएंगी। हालाँकि, इवेंट में पूर्वावलोकन की गई सबसे दिलचस्प तकनीक कुछ समय के लिए यहाँ नहीं होगी। Google DeepMind द्वारा विकसित, इस नए AI सहायक को प्रोजेक्ट एस्ट्रा कहा गया और यह वास्तविक समय, कंप्यूटर विज़न-आधारित AI इंटरैक्शन प्रदर्शित करता है।

प्रोजेक्ट एस्ट्रा एक एआई मॉडल है जो मौजूदा चैटबॉट्स के लिए बेहद उन्नत कार्य कर सकता है। Google एक ऐसी प्रणाली का अनुसरण करता है जहां वह अपने उत्पादन-तैयार मॉडलों को प्रशिक्षित करने के लिए अपने सबसे बड़े और सबसे शक्तिशाली AI मॉडल का उपयोग करता है। एआई मॉडल के एक ऐसे उदाहरण पर प्रकाश डालते हुए, जो वर्तमान में प्रशिक्षण में है, Google डीपमाइंड के सह-संस्थापक और सीईओ डेमिस हसाबिस ने प्रोजेक्ट एस्ट्रा का प्रदर्शन किया। इसका परिचय देते हुए उन्होंने कहा, “आज, हमारे पास एआई सहायकों के भविष्य के बारे में साझा करने के लिए कुछ रोमांचक नई प्रगति है जिसे हम प्रोजेक्ट एस्ट्रा कह रहे हैं। लंबे समय से, हम एक सार्वभौमिक एआई एजेंट बनाना चाहते थे जो रोजमर्रा की जिंदगी में वास्तव में मददगार हो सके।

हस्साबिस ने कंपनी द्वारा ऐसे एआई एजेंटों के लिए निर्धारित आवश्यकताओं का एक सेट भी सूचीबद्ध किया। उन्हें जटिल और गतिशील वास्तविक दुनिया के माहौल को समझने और उस पर प्रतिक्रिया देने की ज़रूरत है, और उन्हें संदर्भ विकसित करने और कार्रवाई करने के लिए जो देखते हैं उसे याद रखने की ज़रूरत है। इसके अलावा, इसे सिखाने योग्य और व्यक्तिगत भी होना चाहिए ताकि यह नए कौशल सीख सके और बिना किसी देरी के बातचीत कर सके।

उस विवरण के साथ, डीपमाइंड सीईओ ने एक डेमो वीडियो दिखाया जहां एक उपयोगकर्ता को कैमरा ऐप खोलकर स्मार्टफोन पकड़े हुए देखा जा सकता है। उपयोगकर्ता एआई के साथ बात करता है और एआई तुरंत प्रतिक्रिया देता है, विभिन्न दृष्टि-आधारित प्रश्नों का उत्तर देता है। एआई संदर्भ के लिए दृश्य जानकारी का उपयोग करने और आवश्यक जेनरेटर क्षमताओं से संबंधित प्रश्नों के उत्तर देने में भी सक्षम था। उदाहरण के लिए, उपयोगकर्ता ने एआई को कुछ क्रेयॉन दिखाए और एआई से अनुप्रास के साथ इसका वर्णन करने को कहा। बिना किसी देरी के, चैटबॉट कहता है, “क्रिएटिव क्रेयॉन ख़ुशी से रंगते हैं। वे निश्चित रूप से रंगीन रचनाएँ तैयार करते हैं।

लेकिन वह सब नहीं था। वीडियो में आगे यूजर खिड़की की तरफ इशारा करता है, जहां से कुछ इमारतें और सड़कें नजर आ रही हैं. जब पड़ोस के बारे में पूछा गया, तो एआई तुरंत सही उत्तर देता है। यह एआई मॉडल की कंप्यूटर विज़न प्रोसेसिंग की क्षमता और इसे प्रशिक्षित करने के लिए लगने वाले विशाल विज़ुअल डेटासेट को दर्शाता है। लेकिन शायद सबसे दिलचस्प प्रदर्शन तब था जब एआई से उपयोगकर्ता के चश्मे के बारे में पूछा गया। वे कुछ सेकंड के लिए स्क्रीन पर दिखाई दिए और वह पहले ही स्क्रीन छोड़ चुका था। फिर भी, AI अपनी स्थिति को याद रख सकता है और उपयोगकर्ता को इसके बारे में मार्गदर्शन कर सकता है।

प्रोजेक्ट एस्ट्रा सार्वजनिक या निजी पूर्वावलोकन में उपलब्ध नहीं है। Google अभी भी मॉडल पर काम कर रहा है, और उसे AI सुविधा के उपयोग के मामलों का पता लगाना है और यह तय करना है कि इसे उपयोगकर्ताओं के लिए कैसे उपलब्ध कराया जाए। यह प्रदर्शन AI द्वारा अब तक का सबसे हास्यास्पद कारनामा होता, लेकिन एक दिन पहले OpenAI के स्प्रिंग अपडेट इवेंट ने इसकी कुछ गड़गड़ाहट छीन ली। अपने कार्यक्रम के दौरान, OpenAI ने GPT-4o का अनावरण किया, जिसमें समान क्षमताओं और भावनात्मक आवाज़ों का प्रदर्शन किया गया, जिसने AI ध्वनि को अधिक मानवीय बना दिया।

Related

हाइबरनियन 3-0 मदरवेल

Google I/O 2024: डीपमाइंड ने प्रोजेक्ट एस्ट्रा के साथ रीयल-टाइम कंप्यूटर विज़न-आधारित AI इंटरैक्शन प्रदर्शित किया

Share this:

Related