Devasa Ücretsiz YZ Eğitim Veri Seti

12/12/2024

Yaklaşık Bir Milyon Kamu Malı Kitap...

16:23:14

Harvard, OpenAI ve Microsoft Tarafından Finanse Edilen Devasa Ücretsiz Yapay Zekâ Eğitim Veri Seti Yayımlıyor

Harvard Üniversitesi, Microsoft ve OpenAI‘nin finansmanıyla Kurumsal Veri Girişimi tarafından oluşturulan yaklaşık bir milyon kamu malı kitaptan oluşan yüksek kaliteli bir veri setinin yayımlandığını duyurdu. Meta’s Llama gibi yapay zekâ modellerini eğitmek için kullanılan Books3 veri setinden önemli ölçüde daha büyük olan bu veri seti, Shakespeare ve Dickens gibi yazarların eserlerini içeren çok çeşitli türler, diller ve zaman dilimleri içeriyor…

Girişim, genellikle yalnızca büyük teknoloji şirketlerinin erişebildiği içerik havuzlarına benzer şekilde, genel halk ve daha küçük yapay zekâ endüstrisi oyuncuları için seçilmiş içerik havuzlarına erişim sağlamayı amaçlıyor. Microsoft, yapay zekâ girişimleri için erişilebilir veri havuzları oluşturma taahhüdünün bir parçası olarak projeyi destekliyor, ancak mevcut yapay zekâ eğitim verilerini kamu malı alternatifleriyle değiştirmeyi planlamıyor.

Harvard‘ın halka açık dağıtım için Google ile işbirliği arayışında olduğu veri setinin yayımlanma yöntemi hâlâ tartışılıyor. Bu girişim, telif hakkı sorunlarından kaçınmak için kamu malı veri setleri oluşturmaya yönelik daha geniş bir eğilimin parçasıdır ve benzer projeler küresel olarak ortaya çıkmaktadır.

Fransız yapay zekâ girişimi Pleis, Common Corpus veri setini yayımladı ve yapay zekâ girişimi Spawning, kamuya açık bir görüntü veri seti başlattı. Bu çabalar, telif hakkıyla korunan materyallerin YZ modelleri oluşturmak için gerekli olduğu fikrine meydan okuyor, ancak bu veri kümelerinin mevcut YZ eğitim uygulamalarını önemli ölçüde değiştirip değiştirmeyeceği konusunda endişeler devam ediyor.

Harvard Üniversitesi, Microsoft ve OpenAI tarafından finanse edilen ve YZ model eğitimini desteklemek için yaklaşık bir milyon kamuya açık kitaptan oluşan yüksek kaliteli bir veri kümesi yayınlıyor.
Veri kümesi, Linux‘un temel bir işletim sistemi olarak hizmet etmesine benzer şekilde, YZ gelişimi için seçilmiş içeriğe eşit erişim sağlamayı amaçlamaktadır.
YZ eğitimi için telif hakkıyla korunan verilerin kullanımına ilişkin yasal belirsizlik devam etmektedir, ancak Harvard‘ınki gibi kamu malı veri kümeleri bu sorunları hafifletmek için geliştirilmektedir.
French Common Corpus ve Spawning’s Source.Plus gibi diğer girişimler de etik YZ model eğitimini desteklemek için kamu malı veri setleri oluşturmaktadır.