नयी दिल्ली:मेटा (पूर्व में फेसबुक) ने एक जेनरेटिव आर्टिफिशियल इंटेलिजेंस (एआई) मॉडल – “सीएम3लियोन” (उच्चारण गिरगिट की तरह) पेश किया है, जो टेक्स्ट-टू-इमेज और इमेज-टू-टेक्स्ट जनरेशन दोनों करता है।
मेटा ने एक ब्लॉगपोस्ट में कहा, “CM3leon पहला मल्टीमॉडल मॉडल है, जिसे टेक्स्ट-ओनली भाषा मॉडल से अनुकूलित रेसिपी के साथ प्रशिक्षित किया गया है, जिसमें बड़े पैमाने पर पुनर्प्राप्ति-संवर्धित पूर्व-प्रशिक्षण चरण और दूसरा मल्टीटास्क पर्यवेक्षित फाइन-ट्यूनिंग (एसएफटी) चरण शामिल है।” शुक्रवार को।
CM3leon की क्षमताओं के साथ, कंपनी ने कहा कि छवि निर्माण उपकरण अधिक सुसंगत इमेजरी का उत्पादन कर सकते हैं जो इनपुट संकेतों का बेहतर पालन करता है। मेटा के अनुसार, CM3leon को पिछले ट्रांसफार्मर-आधारित तरीकों की तुलना में केवल पांच गुना कंप्यूटिंग शक्ति और छोटे प्रशिक्षण डेटासेट की आवश्यकता होती है।
cre ट्रेंडिंग स्टोरीज़
सबसे व्यापक रूप से उपयोग किए जाने वाले छवि निर्माण बेंचमार्क (शून्य-शॉट MS-COCO) से तुलना करने पर, CM3Leon ने 4.88 का FID (फ़्रीचेट इंसेप्शन डिस्टेंस) स्कोर हासिल किया, जिससे टेक्स्ट-टू-इमेज निर्माण में एक नया अत्याधुनिक स्थापित हुआ और Google के टेक्स्ट-टू-इमेज मॉडल से बेहतर प्रदर्शन करते हुए, पार्टि।
इसके अलावा, टेक दिग्गज ने कहा कि CM3leon दृश्य-भाषा कार्यों की एक विस्तृत श्रृंखला में उत्कृष्टता प्राप्त करता है, जैसे कि दृश्य प्रश्न उत्तर देना और लंबी-फ़ॉर्म कैप्शनिंग। केवल तीन बिलियन टेक्स्ट टोकन के डेटासेट पर प्रशिक्षण के बावजूद, CM3Leon का शून्य-शॉट प्रदर्शन बड़े डेटासेट पर प्रशिक्षित बड़े मॉडलों की तुलना में अनुकूल है।
मेटा ने कहा, “उच्च गुणवत्ता वाले जेनरेटर मॉडल बनाने के लक्ष्य के साथ, हमारा मानना है कि विभिन्न कार्यों में सीएम3लियोन का मजबूत प्रदर्शन उच्च-निष्ठा छवि निर्माण और समझ की दिशा में एक कदम है।”
इसमें कहा गया है, “CM3leon जैसे मॉडल अंततः मेटावर्स में रचनात्मकता और बेहतर अनुप्रयोगों को बढ़ावा देने में मदद कर सकते हैं। हम मल्टीमॉडल भाषा मॉडल की सीमाओं की खोज करने और भविष्य में और अधिक मॉडल जारी करने के लिए तत्पर हैं।”