ByteDance ने लॉन्च किया नया एआई टूल, इमेज जनरेशन और एडिटिंग में मास्टर

Artificial-Intelligence

नई दिल्ली : चीन की टेक्नोलॉजी कंपनी ByteDance ने हाल ही में अपना नया मल्टीमॉडल आर्टिफिशियल इंटेलिजेंस (AI) मॉडल लॉन्च किया है, जिसे Bagel नाम दिया गया है। यह एक विजुअल लैंग्वेज मॉडल (VLM) है जो न सिर्फ तस्वीरों को समझ सकता है, बल्कि उन्हें जेनरेट (बनाना) और एडिट (संपादित) भी कर सकता है। सबसे बड़ी बात यह है कि कंपनी ने इसे ओपन-सोर्स कर दिया है और अब इसे GitHub और Hugging Face जैसे लोकप्रिय AI प्लेटफॉर्म्स से डाउनलोड किया जा सकता है।

मल्टीमॉडल इनपुट : टेक्स्ट और इमेज दोनों को एक साथ समझने और प्रोसेस करने में सक्षम।

14 बिलियन पैरामीटर्स : जिनमें से 7 बिलियन एक समय में सक्रिय रहते हैं।

इंटरलीव्ड ट्रेनिंग डेटा : टेक्स्ट और इमेज को एक साथ मिलाकर ट्रेन किया गया, जिससे Bagel दोनों के बीच बेहतर संबंध बना पाता है।

ByteDance का दावा है कि Bagel अन्य मौजूदा ओपन-सोर्स VLMs की तुलना में बेहतर इमेज एडिटिंग करता है। यह इमेज में भावनाएं जोड़ना, किसी एलिमेंट को हटाना, बदलना या जोड़ना, स्टाइल ट्रांसफर, फ्री-फॉर्म एडिटिंग, यानी बिना किसी सीमित ढांचे के बदलाव करना जैसे काम आसानी से कर सकता है।

Bagel को ऐसी ट्रेनिंग दी गई है जिससे वह दुनिया को विजुअल रूप में समझ सकता है- जैसे वस्तुओं के बीच संबंध, प्रकाश या गुरुत्वाकर्षण जैसे प्राकृतिक कारकों का प्रभाव आदि। ByteDance का कहना है कि उनके आंतरिक परीक्षणों में Bagel ने Qwen2.5-VL-7B (इमेज समझने में बेहतर), Janus-Pro-7B और Flux-1-dev (इमेज जनरेशन में बेहतर), Gemini-2-exp (GEdit-Bench टेस्ट में इमेज एडिटिंग में बेहतर प्रदर्शन) AI मॉडल्स को पीछे छोड़ा है।