Alibaba Cloud Önemli Bir Hamle Yaptı

30/08/2024

Üç Varyant Halinde Geliyor...

17:37:21

Alibaba Cloud, Gelişmiş Görme-Dil Modeli Qwen2-VL’yi Tanıttı

Alibaba Cloud, en son gelişmiş görme-dil modeli olan Qwen2-VL‘yi piyasaya sürdü. Bu model, görsel anlama, video anlama ve çok dilli metin-görüntü işlemeyi iyileştirmek amacıyla tasarlandı. Qwen2-VL, Meta‘nın Llama 3.1, OpenAI‘nin GPT-4o, Anthropic’in Claude 3 Haiku ve Google‘ın Gemini-1.5 Flash gibi önde gelen modellerle karşılaştırıldığında üçüncü taraf kıyaslama testlerinde etkileyici bir performans sergiliyor…

Bu modelin yeteneklerini denemek isteyenler için Hugging Face‘te bir demo da sunulmuş durumda.

Yeni Qwen2-VL, çok dilli el yazısı analizinden hareketsiz görüntülerdeki birden fazla nesnenin tanımlanmasına kadar geniş bir yelpazede olağanüstü görsel ve video analiz yetenekleri sunuyor. Ayrıca canlı videoları neredeyse gerçek zamanlı olarak analiz edebilir ve teknik destek gibi işlemler için özetler veya geri bildirimler sağlayabilir. Alibaba, bu modeli, AI’nın görsel verilerle etkileşimi konusunda yeni standartlar belirleyecek şekilde tasarladı.

Qwen araştırma ekibinin GitHub‘da yayımladığı bir blog yazısına göre, Qwen2-VL, statik görüntülerin ötesine geçerek video içeriğini özetleyebilir, soruları yanıtlayabilir ve gerçek zamanlı olarak canlı sohbet desteği sunabilir. Alibaba, ayrıca bu modelin 20 dakikadan uzun videoları analiz edip içerikle ilgili soruları yanıtlayabildiğini belirtiyor.

Qwen2-VL, farklı parametre boyutlarına sahip üç varyantla geliyor: Qwen2-VL-72B (72 milyar parametre), Qwen2-VL-7B ve Qwen2-VL-2B. 7B ve 2B varyantları, açık kaynaklı Apache 2.0 lisansı altında sunuluyor ve ticari amaçlarla kullanılabiliyor. Bu, işletmelerin bu modelleri daha esnek bir şekilde kullanmalarına olanak tanıyor. Ancak, en büyük 72B modeli henüz kamuya açıklanmadı ve ilerleyen zamanlarda Alibaba‘dan ayrı bir lisans ve API aracılığıyla sunulacak.

Alibaba‘nın Qwen Ekibi, Qwen2-VL‘nin başarısını temel alarak görsel dil modellerinin yeteneklerini daha da geliştirmeyi planlıyor. Ek modalitelerin entegrasyonu ve modellerin daha geniş bir uygulama yelpazesinde kullanımı üzerinde çalışmayı hedefliyorlar.

Qwen2-VL serisi, Qwen model ailesinin üzerine inşa edilerek birçok kilit alanda önemli iyileştirmeler sunuyor. Bu modeller, cep telefonları ve robotlar gibi cihazlara entegre edilerek görsel ortamlar ve metin talimatlarına dayalı otomatik işlemleri gerçekleştirebiliyor. Ayrıca, Qwen2-VL, üçüncü taraf yazılım, uygulama ve araçlarla entegre olarak işlev çağrısını destekliyor ve bu yazılımlardan bilgileri görsel olarak çıkarabiliyor.

Model, ayrıca Naive Dinamik Çözünürlük desteği sayesinde farklı çözünürlüklerdeki görüntüleri işleyebiliyor ve Çok Modlu Döner Konum Yerleştirme (M-ROPE) sistemi ile metin, görüntü ve videolardaki konum bilgilerini aynı anda yakalayıp entegre edebiliyor. Bu özellikler, modelin görsel verileri işleme ve anlama yeteneğini daha da ileriye taşıyor.