Category:

News

VASA-1 Model Can Produce Video with 1 Photo and 1 Audio

Microsoft’s VASA-1 Generates Lifelike Talking Faces in Real-Time from Audio

In a groundbreaking development, Microsoft Researchers have unveiled VASA-1, a cutting-edge framework capable of generating ...

Read More

3 min read

Google Release Gemini 1.5 Pro to Public with Advanced Features

Google has announced the global launch of their next-generation Gemini 1.5 Pro model, now available ...

Read More

3 min read

Edit DALL·E images in ChatGPT

In a groundbreaking development, OpenAI has announced a series of updates that promise to revolutionize ...

Read More

3 min read

Voice Engine by OpenAI

OpenAI Shares Insights on Synthetic Voice Technology

OpenAI, a leading artificial intelligence research company, recently shared details and preliminary insights from a ...

Read More

3 min read

पेश है सोरा: ओपनएआई का नया टेक्स्ट-टू-वीडियो एआई मॉडल अग्रणी कृत्रिम बुद्धिमत्ता अनुसंधान संगठन, ओपनएआई ने अपनी नवीनतम एआई रचना - सोरा का अनावरण किया है। सोरा एक क्रांतिकारी टेक्स्ट-टू-वीडियो मॉडल है जो प्रभावशाली दृश्य गुणवत्ता के साथ टेक्स्ट संकेतों से मिनट-लंबे वीडियो तैयार कर सकता है। भौतिक संसार को समझना और उसका अनुकरण करना सोरा के पीछे मुख्य नवाचार एआई सिस्टम को प्राकृतिक भाषाओं को गहराई से समझना सिखाना है ताकि वे पाठ को अत्यधिक जटिल और सटीक वीडियो दृश्यों में अनुवाद कर सकें। ओपनएआई का लक्ष्य एआई को प्रशिक्षित करना है जो गति और इंटरैक्शन सहित वास्तविक, भौतिक दुनिया का अनुकरण कर सके। इसमें महारत हासिल करना कृत्रिम सामान्य बुद्धिमत्ता की दिशा में एक महत्वपूर्ण कदम हो सकता है। सोरा जटिल दृश्य निर्माण क्षमताओं का प्रदर्शन करता है - कई पात्रों, विशिष्ट गतियों और संकेतों में वर्णित सटीक पृष्ठभूमि विवरण के साथ वीडियो तैयार करता है। यह एकाधिक उत्पन्न वीडियो शॉट्स में भी चरित्र की पहचान, उपस्थिति, भावनाओं और पर्यावरणीय स्थिरता को बनाए रखता है। यह उन्नत भाषा व्याख्या और दृश्य निर्माण को प्रदर्शित करता है। प्रमुख मॉडल क्षमताएँ सोरा ने एआई-जनरेटेड वीडियो में उल्लेखनीय नए बेंचमार्क पेश किए: निरंतरता और सुसंगतता के साथ मिनट-लंबे वीडियो समान अक्षर/शैली दर्शाने वाले एकाधिक विशिष्ट जनरेट किए गए शॉट बारीक विवरण प्रदर्शित करने वाले जटिल बहु-चरित्र दृश्य पाठ्य संकेतों पर आधारित गतिशील गतियाँ और क्रियाएँ उचित प्रतिक्रियाएँ प्रदर्शित करने वाले भावनात्मक पात्र यह दृश्य गुणवत्ता, त्वरित पालन, कारण संबंधों और भौतिकी को समझने में मजबूत क्षमताओं को प्रदर्शित करता है। सोरा जनरेटिव कला के लिए DALL-E जैसे पिछले नवाचारों के आधार पर निर्माण करता है। वर्तमान सीमाएँ हालाँकि, समय के साथ जटिल शारीरिक अंतःक्रियाओं का सटीक अनुकरण करने में सोरा को अभी भी सीमाओं का सामना करना पड़ता है। उदाहरण के लिए, यह कारण-प्रभाव संबंधों को नजरअंदाज कर सकता है - काटने के बाद कुकी में काटने के निशान दिखाने में विफल होना। पोस्ट में समय के साथ संकेतों और सटीक कैमरा गतिविधियों में बाएं/दाएं स्थानिक जागरूकता के साथ संघर्ष पर भी प्रकाश डाला गया। ओपनएआई सुधार की आवश्यकता को स्वीकार करता है - लेकिन सोरा वास्तविक दुनिया के अनुप्रयोगों के साथ टेक्स्ट-टू-वीडियो एआई में गहन प्रगति का प्रतिनिधित्व करता है। तैनाती और सुरक्षा प्रयास संभावित दुरुपयोग को ध्यान में रखते हुए, ओपनएआई सोरा को पूरी तरह से लॉन्च करने से पहले सुरक्षा पर सक्रिय रूप से ध्यान दे रहा है। रेड टीम परीक्षक नुकसान के लिए प्रतिकूल परीक्षण कर रहे हैं - गलत सूचना और पूर्वाग्रह जैसे क्षेत्रों का आकलन कर रहे हैं। ओपनएआई नकली वीडियो का पता लगाने के लिए सोरा को मेटाडेटा और क्लासिफायर से भी लैस कर रहा है। इसके अतिरिक्त, अनुचित सामग्री को सीमित करने के लिए DALL-E के लिए स्थापित सुरक्षा उपायों का विस्तार सोरा तक भी किया जाएगा। यह कठोर वीडियो फ्रेम स्क्रीनिंग के साथ नीति-पालन पाठ विश्लेषण को जोड़ता है - पूर्व-पीढ़ी के उल्लंघन को अस्वीकार करता है। ओपनएआई ने लॉन्च के बाद सोरा को जिम्मेदारी से लागू करने में वैश्विक विशेषज्ञों के साथ मिलकर सहयोग करने का इरादा व्यक्त किया है। हालाँकि, सर्वोत्तम रोकथाम प्रयासों के बावजूद, लाभकारी और हानिकारक अनुप्रयोग अभी भी समय के साथ सामने आ सकते हैं। टेक्निकल डिटेल सोरा प्रसार मॉडल का उपयोग करता है जिसकी शुरुआत शोर से होती है जो धीरे-धीरे वीडियो में परिवर्तित हो जाता है। वास्तुकला की दृष्टि से, ट्रांसफार्मर एक एकीकृत प्रतिनिधित्व में विभिन्न संकल्पों और अवधियों में प्रशिक्षण को सक्षम बनाते हैं। DALL-E की पुनर्कथन तकनीक निर्देशों के पालन को बेहतर बनाने के लिए वर्णनात्मक कैप्शन को भी बढ़ावा देती है। टेक्स्ट-टू-वीडियो से परे, सोरा स्थिर छवियों को एनिमेट कर सकता है, मौजूदा वीडियो का विस्तार कर सकता है, और लापता फ्रेम भर सकता है - मल्टी-मोडल एप्लिकेशन प्रदर्शित कर सकता है। मौलिक रूप से, यह OpenAI के अनुसार भौतिकी और विश्व-सिमुलेशन आधारित कृत्रिम सामान्य बुद्धिमत्ता के लिए आधार तैयार करता है। निष्कर्ष सोरा एआई वीडियो जेनरेशन तकनीक और मल्टीमॉडल इंटेलिजेंस में एक महत्वपूर्ण विकास का नेतृत्व करता है। जबकि सुसंगत दीर्घकालिक पीढ़ी और सिमुलेशन में सुधार की अभी भी आवश्यकता है, यह पाठ से जटिल वीडियो निर्माण पर पहले से ही अभूतपूर्व महारत प्रदर्शित करता है। आगे बढ़ते हुए, जिम्मेदार परीक्षण और निरीक्षण महत्वपूर्ण होगा क्योंकि ओपनएआई वास्तविक दुनिया की नकल करने की दिशा में आगे बढ़ रहा है। कुछ सीमाओं के बावजूद, सोरा का लॉन्च एक महत्वपूर्ण क्षण का प्रतिनिधित्व करता है और हम उत्सुकता से इस एआई की प्रगति के साथ भविष्य के उन्नयन का इंतजार कर रहे हैं।

OpenAI, the leading artificial intelligence research organization, has unveiled its newest AI creation – Sora. ...

Read More

3 min read

Google Launches Gemini AI with New Advanced Paid Tier and Mobile Apps

Google made a series of major announcements today around its AI chatbot Gemini. The company ...

Read More

3 min read

Microsoft Goes All-In on AI with Major Copilot Upgrades

On the eve of the Super Bowl, Microsoft is doubling down on its bold vision ...

Read More

3 min read

Meta Open Sources Massive 70B Parameter AI Assistant for Developers

Meta has just open sourced the latest version of its AI coding assistant, Code Llama ...

Read More

3 min read

OpenAI Unleashes Enhanced GPT-4 and GPT-3.5 Turbo with Function Calling Capability

In a recent announcement, OpenAI revealed a series of exciting updates and improvements to its ...

Read More

3 min read

hi_INHindi