Sağlam Bir Alternatif Sunuyor...
08:32:02
Yeni Yüksek Kaliteli YZ Video Oluşturucu Pyramid Flow Piyasaya Sürüldü – ve Tamamen Açık Kaynak!
Yapay zekâ video oluşturma modellerinin sayısı, bu hafta piyasaya sürülen ve 10 saniyeye kadar yüksek kaliteli video klipler sunan Pyramid Flow ile artmaya devam ediyor – hızlı ve tamamen açık kaynak…
Pekin Üniversitesi, Pekin Posta ve Telekomünikasyon Üniversitesi ve Kuaishou Technology‘den araştırmacıların işbirliğiyle geliştirilen Pyramid Flow, iyi incelenmiş tescilli Kling AI video üreticisinin yaratıcısı olan tek bir AI modelinin, çoğu düşük çözünürlüklü olmak üzere aşamalı olarak video ürettiği ve yalnızca üretim sürecinin sonu için tam çözünürlüklü bir sürümü kaydettiği yeni bir teknikten yararlanıyor.
Ham kod olarak Hugging Face ve Github‘dan indirilebilir ve burada bir çıkarım kabuğunda çalıştırılabilir, ancak kullanıcının model kodunu kendi makinesinde indirip çalıştırmasını gerektirir.
Model yaratıcıları tarafından yayımlanan videolar, tescilli tekliflerinkine benzer şekilde inanılmaz derecede gerçekçi, yeterince yüksek çözünürlüklü ve ilgi çekici görünüyor. Çeşitli örnekleri Github proje sayfasında görebilirsiniz.
Gerçekten de Pyramid Flow şu anda indirilebilir ve kullanılabilir – hatta ticari/kurumsal amaçlar için bile – ve Runway‘in Gen-3 Alpha, Luma‘nın Dream Machine, Kling ve Haulio gibi sınırsız nesil abonelikleri olan kullanıcılar için yılda yüzlerce hatta binlerce dolara mal olabilen ücretli tescilli tekliflerle doğrudan rekabet etmek üzere tasarlanmıştır.
Çeşitli YZ video sağlayıcıları arasında kullanıcı kazanma yarışı devam ederken Pyramid Flow, gelişmiş video oluşturma yetenekleri arayan geliştiricilere, sanatçılara ve içerik oluşturuculara daha fazla verimlilik ve esneklik getirmeyi amaçlıyor.
YZ video üretimi, tipik olarak büyük uzamsal-zamansal alanların modellenmesini içeren, hesaplama açısından yoğun bir görevdir. Geleneksel yöntemler genellikle sürecin farklı aşamaları için ayrı modeller gerektirir, bu da esnekliği sınırlar ve eğitimin karmaşıklığını artırır.
Pyramid Flow, yüksek görsel kaliteyi korurken video üretiminin hesaplama maliyetini büyük ölçüde düşüren, video üretim sürecini bir dizi “piramit” aşaması olarak tamamlayan ve yalnızca son aşamanın tam çözünürlükte çalıştığı bir yöntem olan piramidal akış eşleştirme kavramı üzerine inşa edilmiştir.
Yazarlar arasında Yang Jin, Zhicheng Sun, Ningyuan Li, Kun Xu, Hao Jiang, Nan Zhuang, Quzhe Huang, Yang Song, Yadong Mu ve Zhouchen Lin yer alıyor. Bu araştırmacıların çoğu Pekin Üniversitesi‘ne bağlıyken, diğerleri Kuaishou Technology‘den.
Yazdıkları gibi, video üretimini farklı aşamalarda sıkıştırma ve optimize etme yeteneği, eğitim sırasında daha hızlı yakınsama sağlayarak Pyramid Flow‘un eğitim grubu başına daha fazla örnek üretmesine olanak tanıyor.
Örneğin, önerilen piramidal akış, geleneksel difüzyon modellerine kıyasla token sayısını dört kat azaltıyor ve bu da daha verimli bir eğitim sağlıyor.
Model, açık kaynaklı veri kümeleri üzerinde eğitilirken 768p çözünürlükte ve saniyede 24 kare hızında 5 ila 10 saniyelik videolar üretebiliyor. Makalede özellikle Pyramid Flow‘un eğitildiği belirtiliyor:
- LAION-5B, multimodal yapay zekâ araştırmaları için büyük bir veri kümesi.
- CC-12M, web’de taranan görüntü-metin çiftlerinden oluşan bir veri kümesi.
- Yüksek kaliteli, bulanık olmayan görüntüler içeren SA-1B.
- Metinden video oluşturma için yaygın olarak kullanılan video veri kümeleri olan WebVid-10M ve OpenVid-1M.
Yazarlar toplamda yaklaşık 10 milyon tek çekim videonun küratörlüğünü yapmıştır.
İzinli, lisanslı, ticari kullanım için açık kaynak
Pyramid Flow, telif hakkı bildiriminin korunması koşuluyla ticari uygulamalar, değişiklikler ve yeniden dağıtım dahil olmak üzere geniş bir kullanım yelpazesine izin veren MIT Lisansı altında yayımlanmaktadır.
Bu durum Pyramid Flow‘u, modeli tescilli sistemlere entegre etmek isteyen geliştiriciler ve şirketler için cazip bir seçenek haline getiriyor ve her ikisi de tescilli yapay zekâ video oluşturma teknolojilerini müşteriye veya çalışanlara yönelik uygulamalara entegre etmek isteyen geliştiriciler için ücretli uygulama programlama arayüzleri sunmaya çalışan Luma AI ve Runway‘e meydan okuyabilir.
Yine de bu tescilli modeller zaten geliştiriciler için uygun çıkarımlar olarak mevcuttur; Pyramid Flow‘un Hugging Face üzerine bir demo çıkarımı olsa da, bunun üzerine tam uygulamalar oluşturmak için uygun değildir ve kullanıcıların kendi çıkarım versiyonlarını barındırmaları gerekecektir ki bu da modelin kendisi “ücretsiz” olmasına rağmen maliyetli olabilir.
Ayrıca Pyramid Flow, verimlilik kazanmak, maliyetleri düşürmek ve yeni yaratıcı araçlar keşfetmek için yapay zekâdan yararlanmak isteyen film stüdyoları için de cazip olabilir. John Wick ve Twilight film serilerinin sahibi olan büyük film stüdyolarından Lionsgate, kısa bir süre önce Runway ile özel bir yapay zekâ video oluşturma modelini eğitmek için belirtilmemiş bir meblağ karşılığında anlaşma imzaladı. Ayrıca Titanic ve Terminator filmlerinin yönetmeni James Cameron, yapay zekâ video ve görüntü modeli sağlayıcısı Stability‘nin (Runway ile aynı sanatçılar tarafından açılan toplu davaya konu olan) yönetim kuruluna katıldı.
Pyramid Flow‘u kullanarak Lionsgate ya da başka bir film stüdyosu, üçüncü taraf bir şirkete ödeme yapmadan açık kaynak sürümüne ince ayar yapabilir. Bununla birlikte, bunu yapmak için gerekli olan geliştirici yeteneklerine ve bilgi işlem kaynaklarına sahip olmaları ya da bunlarla sözleşme yapmaları gerekecektir; bu da Runway gibi yerleşik yapay zekâ sağlayıcılarıyla ortaklık kurmayı daha cazip hale getirebilir, çünkü bu şirket ve onun gibi diğerleri zaten kendi bünyelerinde yapay zekâ mühendisliği yeteneklerine sahiptir.
Piramidal Akış Eşleştirmenin arkasındaki araştırma ekibi de açıklık ve erişilebilirlik konusunda bir taahhütte bulundu. Tüm kod ve model ağırlıkları, resmi proje sayfaları aracılığıyla halka ücretsiz olarak sunulacak ve dünyanın dört bir yanındaki araştırmacıların ve geliştiricilerin bu çalışmayı kullanabilmelerini ve geliştirebilmelerini sağlayacaktır.
Güçlü yönlerine rağmen Pyramid Flow‘un bazı sınırlamaları da var. Şimdilik, kamera açıları, ana kareler ve insan hareketleri gibi sinematik unsurlar üzerinde hassas kontrol sunan Runway Gen-3 Alpha gibi modellerde bulunan bazı gelişmiş ince ayar yeteneklerinden yoksundur. Benzer şekilde, Luma‘nın Dream Machine‘i de Pyramid Flow‘un hâl yakalamaya çalıştığı gelişmiş kamera kontrol seçenekleri sunuyor.
Dahası, Pyramid Flow‘un nispeten yeni piyasaya sürülmesi, ekosisteminin – sağlam olsa da – rakiplerininki kadar olgun olmadığı anlamına geliyor.
Yapay zekâ video oluşturma pazarı gelişmeye devam ettikçe, Pyramid Flow‘un piyasaya sürülmesi, Runway ve Luma gibi tescilli tekliflerle rekabet edebilecek daha erişilebilir, açık kaynaklı çözümlere doğru bir kaymaya işaret ediyor.
Şimdilik, kapalı modellerin maliyet ve sınırlamalarından kaçınmak isteyenler için sağlam bir alternatif sunarken, daha ticari muadilleriyle eşit düzeyde etkileyici video kalitesi sağlıyor.
Önümüzdeki aylarda geliştiriciler ve içerik oluşturucular muhtemelen Pyramid Flow‘un büyümesini yakından takip edecekler. Daha fazla iyileştirme ve optimizasyon potansiyeliyle, her yerdeki video içerik oluşturucularının cephaneliğinde başvurulacak bir araç haline gelebilir. Tüm şirketler ve araştırmacılar şu anda hem teknolojik üstünlük hem de kullanıcılar için mücadele ediyor.