क्यों टेक्स्ट-टू-वीडियो अगली ‘बड़ी’ एआई चीज हो सकती है – टाइम्स ऑफ इंडिया



जब जेनेरेटिव एआई की बात आती है, तो सुर्खियों में केवल एक ही चीज हावी होती है – चैटजीपीटी। हालांकि, जेनेरेटिव की दुनिया में चैटजीपीटी जैसे भाषा मॉडल के अलावा और भी बहुत कुछ है। टेक्स्ट-टू-इमेज पहले से ही मुख्यधारा की बातचीत का हिस्सा बन रहा है, लेकिन बैकग्राउंड में बनाना जनरेटिव है ऐ पाठ को वीडियो में बदलने में सक्षम।
टेक्स्ट-टू-वीडियो AI क्या है?
सीधे शब्दों में कहें, तो आप केवल अपने शब्दों के आधार पर एआई-संचालित वीडियो उत्पन्न कर सकते हैं। हां, यह बिल्कुल ऐसा ही लगता है: पाठ में कुंजी और एआई मॉडल इसके आधार पर एक वीडियो उत्पन्न करेगा। यूएस-आधारित स्टार्टअप रनवे ने अपने जेन-2 मॉडल का प्रदर्शन किया, जो एक या दो कैविएट के साथ ऐसा करने में सक्षम है।
क्या यह कोई ‘नई’ बात है?
वास्तव में ऐसा नहीं है क्योंकि यह काफी हद तक Dall-E जैसा है – जिसे ChatGPT के रचनाकारों द्वारा विकसित किया गया है – और जनरेटिव AI भाषा मॉडल का उपयोग करके काम करता है। परिणाम काफी आकर्षक हैं और यह निश्चित रूप से दुनिया भर में कई लोगों को आकर्षित कर सकता है।
क्या ‘बिग टेक’ में शामिल नहीं है पाठ से वीडियो?
वे बहुत हैं। सितंबर 2022 में वापस, मेटा ने स्पष्ट रूप से नामित टूल मेक-ए-वीडियो का प्रदर्शन किया। केवल कुछ शब्दों या पाठ की पंक्तियों के साथ, मेक-ए-वीडियो जनरेटिव एआई का उपयोग करके वीडियो बनाता है लेकिन उन वीडियो में कोई आवाज नहीं थी। इसके बारे में मेटा के सीईओ मार्क जुकरबर्ग ने कहा था: “फ़ोटो की तुलना में वीडियो बनाना बहुत कठिन है क्योंकि प्रत्येक पिक्सेल को सही ढंग से उत्पन्न करने से परे, सिस्टम को यह भी अनुमान लगाना होगा कि वे समय के साथ कैसे बदलेंगे।
ठीक एक हफ्ते बाद और क्यू पर, Google ने एक समान मॉडल की घोषणा की। Google के जनरेटिव AI मॉडल को Imagen Video कहा जाता है। “टेक्स्ट प्रॉम्प्ट दिए जाने पर, इमेजन वीडियो बेस वीडियो जनरेशन मॉडल और इंटरलीव्ड स्थानिक और अस्थायी वीडियो सुपर-रिज़ॉल्यूशन मॉडल का उपयोग करके हाई डेफिनिशन वीडियो उत्पन्न करता है,” Google ने इसका वर्णन कैसे किया था।
Google ने फेनाकी नामक एक अन्य मॉडल भी प्रदर्शित किया, जिसका उद्देश्य टेक्स्ट इनपुट के आधार पर लंबे-चौड़े वीडियो बनाना है।
टेक्स्ट-टू-वीडियो AI के साथ क्या चुनौतियाँ हैं?
कई गुना। परिचालन से लेकर नैतिक तक, चुनौतियाँ बहुत अधिक हैं। शायद यही एक कारण है कि टेक्स्ट-टू-वीडियो पर काम करने वाले जनरेटिव एआई मॉडल के केवल डेमो सामने आए हैं। शुरुआत के लिए, पाठ के साथ एक वीडियो बनाना हास्यास्पद रूप से आसान और समान रूप से आकर्षक लग सकता है लेकिन सिर्फ शब्दों के साथ एक वीडियो बनाने की कल्पना करें। किसी को आदेशों के साथ अविश्वसनीय रूप से सटीक होना होगा या यह अस्पष्टता के बराबर वीडियो उत्पन्न कर सकता है।
इसके बाद नैतिक चुनौतियां आती हैं। गलत सूचनाओं के शस्त्रागार में एआई-जेनरेट किए गए वीडियो अगला हथियार हो सकते हैं। डीपफेक एक और भी बड़ी समस्या बन सकती है जिसका वर्तमान में सामना करना पड़ रहा है।
एआई के क्षेत्र में तेजी से हो रहे विकास को ध्यान में रखते हुए, टेक्स्ट-टू-वीडियो एक्सप्लोरेशन मोड से बाहर होने और मुख्यधारा बनने से पहले यह समय की बात हो सकती है।



News India24

Recent Posts

BCCI कॉन्ट्रैक्ट्स: श्रेयस अय्यर लौटने के लिए सेट, ईशान किशन को लंबे समय तक इंतजार करने की संभावना है

पंजाब किंग्स के कप्तान श्रेयस अय्यर को 2023-24 सीज़न में लापता होने के बाद अपने…

2 hours ago

नीतीश कुमार का JDU एक शर्त पर सहयोगी भाजपा के वक्फ बिल का समर्थन कर सकता है। यहाँ यह क्या है – news18

आखरी अपडेट:01 अप्रैल, 2025, 17:48 ISTJDU से राज्यसभा, राज्यसभा सांसद, उन्होंने कहा कि उनकी पार्टी…

2 hours ago