Yapay zekâ Seslerini Medyaya Taşımaya Çalışıyor...
12:08:47
ElevenLabs’ın Yapay zekâ Ses Üreteci Artık Sesinizi 30 Dilde Taklit Edebilecek
ElevenLabs, yapay zekâlı ses üreticisinin beta aşamasından çıktığını, video oyunu ve sesli kitap yaratıcılarını ucuz ses teknolojileriyle destekleyeceğini söyledi…
Yeterince gerçekçi görsel deepfake’ler yaratmak için internetin başvurduğu şirketlerden biri haline gelen ElevenLabs, şimdi de sesinizi klonlama ve onu giderek artan çeşitlilikte dillerde konuşmaya zorlama yeteneğine sahip. ElevenLabs Salı günü yaptığı açıklamada, yeni ses klonlamasının artık Ukraynaca, Korece, İsveççe, Arapça ve daha fazlası dahil olmak üzere daha önce olduğundan 22 dili daha desteklediğini duyurdu…
ElevenLabs‘a göre, yeni Multilingual v2 modeli toplam 30 dilde “duygusal açıdan zengin" ses üretebileceğini vaat ediyor. Şirket, biri metinden sese modeli ve diğeri de ödeme yapan kullanıcıların bir tür ses konisi oluşturmak için modele kendi – veya başkalarının – konuşma parçalarını girerek bir sesi klonlamasına olanak tanıyan “VoiceLab" olmak üzere iki AI ses aracı sunuyor. V2 modeli ile kullanıcılar bu oluşturulan sesleri Yunanca, Malayca veya Türkçe konuşmaya başlayabilirler.
Hizmet Salı günü öğlen saatlerinde şirketin sitesinde yayıma girdi. Kullanıcıların çevrilen sesi duymak için metni yalnızca gerçek dilinde yazmaları gerekiyor ve şirket veya kullanıcılar tarafından oluşturulan herhangi bir ses klonuyla çalışması gerekiyor.
ElevenLabs platformu geçen yıl piyasaya sürüldükten sonra tartışmalardan payını aldı. Şirketin ilk beta platformu, 4Chan kullanıcılarının ünlüleri taklit etmek için sistemlerini kötüye kullandıklarını ve onları ırkçı, kadın düşmanı ve transfobik senaryolar söylemeye zorladıklarını gördü. Ayrıca yapay zekâ evangelistleri tarafından ses klonlama teknolojisinin yaygın kullanımından şikayet eden ses aktörlerine saldırmak için de kullanıldı. O zamandan beri ElevenLabs, kullanıcıların yalnızca kendi seslerini klonlayabilmelerini sağlamak için yeni önlemler entegre ettiğini iddia ediyor. Kullanıcıların konuşmalarını, daha sonra orijinal ses örneğiyle karşılaştırılan bir metin captcha istemiyle doğrulamaları gerekiyor.
Şirketin kurucu ortağı, eski Palantir yöneticisi Mati Staniszewski yaptığı açıklamada “Sonunda yapay zekânın yardımıyla daha da fazla dili ve sesi kapsamayı ve içeriğin önündeki dilsel engelleri ortadan kaldırmayı umuyoruz" dedi.
Beta’dan Çıkan ElevenLabs Yapay zekâ Seslerini Medyaya Taşımaya Çalışıyor
Yeni dil yeteneklerinin yanı sıra ElevenLabs, bu hamlenin yapay zekâ ses klonlama teknolojisinin artık beta aşamasında olmadığına işaret ettiğini ve şirketin teknolojiyi medya şirketlerinin kullanımına sunmak için daha derinlere indiğini iddia etti. Haziran ayında ElevenLabs, eski DeepMind başkanı, şimdi Inflection AI kurucu ortağı Mustafa Süleyman ile birlikte teknoloji kralı Andreesen Horowitz‘den 19 milyon dolar tohum fonu aldı.
ElevenLabs, ses klonlama teknolojisini şirketlerin sesli kitaplar, videolar ve hatta video oyunlarında NPC’leri seslendirmeleri için bir yol olarak tanıtıyor. Şirket, Hearts of Iron serisi ve yakında çıkacak olan The Lamplighters League gibi oyunların arkasındaki yayıncı Paradox Interactive ile bir anlaşma yaptığını iddia ediyor. Şirketin ses klonlama teknolojisi, teknolojinin işlerini baltalamak için kullanıldığından endişe eden oyun seslendirme sanatçıları tarafından açıkça belirtilmişti.
Kitaplar cephesinde ise Google ve Apple gibi teknoloji devleri yapay zekâ anlatımlı sesli kitapları yaygınlaştırmayı denediler. Apple’ın Books uygulaması, bazı içerikleri seslendirmek için “Archie" ve “Warren" gibi sıradan isimlere sahip anlatıcılara yer vermeye başladı. Sesli kitap dinleyenler, bu seslerin – daha iyi bir terim olmamakla birlikte – bir anlatının yükselişine ve düşüşüne gerçekten dikkat edebilen profesyonel seslendirme sanatçılarının stokuna kıyasla cansız olduğunu belirttiler. Oyuncular sendikası SAG-AFTRA ve Amerika Yazarlar Birliği şu anda grevde ve eğlence endüstrisi ile mevcut müzakerelerin büyük bir kısmı yapay zekâ üzerine odaklanmış durumda.
Ancak ElevenLabs, yapay zekâ seslerinin yayıncılık şirketlerine sesli kitap oluşturmada hem zaman hem de para tasarrufu sağlayabileceğini savunuyor. Pazartesi günü yayımlanan bir blog yazısında şirket, sesli kitap işlemede ince ayar yapmak için bir edebiyat ajansı ve küçük bir bağımsız yayıncılık şirketi olan Lukeman Literary ile birlikte çalıştığını duyurdu. Şirket, Lukeman‘ın tek bir sesli kitap üretmesinin eskiden “haftalar" sürdüğünü, ancak yapay zekâ ile bu sürenin sadece birkaç saate indiğini iddia etti.
Lukeman Literary, diğer kurgu eserlerin yanı sıra Rutger Hauer ve Dalai Lama gibi tanınmış isimlerin kitaplarının yayımlanmasına da yardımcı oldu. Lukeman, ajansının ve yayımcılık kollarının farklı olduğunu, bu nedenle ajansın temsil ettiği başlıkları yapay zekâ anlatımına dönüştürme planları olmadığını vurguladı. Yine de, yayımcılık işine gelince, “kalite" orada olmadığı için AI anlatımını asla benimsemediğini, ancak ElevenLabs‘ın özelliklerini test ettiğinden beri onu kullanacak kadar “nihayet etkilendiğini" söyledi. Ayrıca, bağımsız yazarlar için “yapay zekâ anlatımının bir nimet olduğunu" çünkü insan anlatımı yapmaktan çok daha ucuz olduğunu iddia etti.
Yapay zekâ sesinin nihayet prime time için yeterince iyi olduğunu ilan etmesine rağmen Lukeman, yapay zekânın seslendirme sanatçıları için “kesinlikle bir zorluk oluşturacağını" kabul etti, ancak “bazı" yazarların ve yayımcıların hâlâ gerçek bir insan tarafından seslendirilen sesli kitaplar isteyeceğini öne sürdü.