4.000'den Fazlasını Tanıyabiliyor...
00:17:57
Meta’nın yeni yapay zekâ modelleri 1.000’den fazla dilde konuşmayı tanıyabiliyor ve üretebiliyor…
Şu anda var olandan çok daha fazla dil için konuşma uygulamalarının geliştirilmesine yardımcı olabilirler…
Meta, 1.000’den fazla dil için konuşmayı tanıyabilen ve üretebilen yapay zeka modelleri oluşturdu – şu anda mevcut olanın on katı bir artış. Şirket, bunun kaybolma riski taşıyan dillerin korunmasına yönelik önemli bir adım olduğunu söylüyor.
Meta, modellerini kod barındırma hizmeti GitHub aracılığıyla halka açıyor. Açık kaynak haline getirmenin, farklı dillerde çalışan geliştiricilerin, herkesi anlayan mesajlaşma hizmetleri veya herhangi bir dilde kullanılabilen sanal gerçeklik sistemleri gibi yeni konuşma uygulamaları oluşturmalarına yardımcı olacağını iddia ediyor.
Dünyada yaklaşık 7.000 dil var, ancak mevcut konuşma tanıma modelleri bunlardan yalnızca 100 kadarını kapsamlı bir şekilde kapsıyor. Bunun nedeni, bu tür modellerin İngilizce, İspanyolca ve Çince dahil olmak üzere yalnızca az sayıda dil için mevcut olan büyük miktarlarda etiketli eğitim verisine ihtiyaç duyma eğiliminde olmasıdır.
Meta araştırmacıları bu sorunu, şirket tarafından 2020 yılında geliştirilen ve konuşma metinleri gibi büyük miktarlarda etiketli veriye ihtiyaç duymadan sesten konuşma kalıplarını öğrenebilen mevcut bir yapay zekâ modelini yeniden eğiterek aştı.
Bu modeli iki yeni veri seti üzerinde eğittiler: biri Yeni Ahit İncil‘inin ses kayıtlarını ve 1.107 dilde internetten alınan ilgili metni, diğeri ise 3.809 dilde etiketsiz Yeni Ahit ses kayıtlarını içeriyordu. Ekip, ses kayıtlarını eşlik eden metinle hizalamak için tasarlanmış bir algoritmayı çalıştırmadan önce kalitesini artırmak için konuşma sesini ve metin verilerini işledi. Daha sonra bu işlemi yeni hizalanmış veriler üzerinde eğitilmiş ikinci bir algoritma ile tekrarladılar. Araştırmacılar bu yöntemle algoritmaya, eşlik eden metin olmasa bile yeni bir dili daha kolay öğrenmeyi öğretebildiler.
Projede çalışan Meta‘da araştırmacı bilim insanı olan Michael Auli, “Bu modelin öğrendiklerini kullanarak çok çok az veriyle hızlı bir şekilde konuşma sistemleri oluşturabiliriz" diyor.
“İngilizce için çok sayıda iyi veri setimiz var ve birkaç dil için daha var, ancak örneğin 1.000 kişi tarafından konuşulan diller için buna sahip değiliz."
Araştırmacılar modellerinin 1.000’den fazla dilde konuşabildiğini ancak 4.000’den fazlasını tanıyabildiğini söylüyor.
Modelleri OpenAI Whisper da dahil olmak üzere rakip şirketlerin modelleriyle karşılaştıran araştırmacılar, 11 kat daha fazla dili kapsamasına rağmen kendi modellerinin hata oranının yarı yarıya olduğunu iddia ediyor.
Bununla birlikte ekip, modelin hala belirli kelimeleri veya ifadeleri yanlış yazma riski taşıdığı ve bunun da yanlış veya potansiyel olarak saldırgan etiketlerle sonuçlanabileceği konusunda uyarıyor. Ayrıca, konuşma tanıma modellerinin diğer modellere göre sadece %0,7 daha fazla olsa da daha fazla önyargılı kelime ürettiğini de kabul ediyorlar.
Araştırmanın kapsamı etkileyici olsa da, Afrika dilleri için doğal dil işleme üzerine çalışan bir kuruluş olan Masakhane‘de araştırmacı olan ve projede yer almayan Chris Emezue, yapay zekâ modellerini eğitmek için dini metinlerin kullanılmasının tartışmalı olabileceğini söylüyor.