Görüntüleri Yeniden Oluşturabiliyor...
02:03:30
Yapay zekâ, insanların beyin taramalarını okuyarak gördüklerini yeniden üretiyor…
Yeni bir yapay zekâ sistemi, bir kişinin beyin aktivitesine dayanarak gördüğü görüntüleri yeniden oluşturabiliyor. Sinirbilimciler insan beyninin gözlerimizin gördüklerini nasıl zihinsel imgelere dönüştürdüğünü çözmeye çalışırken, yapay zekâ (YZ) bu başarıyı taklit etmede daha iyi hale geliyor.
Yaklaşan bir bilgisayarla görme konferansında sunulması planlanan yeni bir çalışma, yapay zekânın beyin taramalarını okuyabildiğini ve bir kişinin gördüğü görüntülerin büyük ölçüde gerçekçi versiyonlarını yeniden yaratabildiğini gösteriyor. Araştırmacılar, bu teknoloji geliştikçe, çeşitli hayvan türlerinin dünyayı nasıl algıladığını keşfetmekten, belki bir gün insan rüyalarını kaydetmeye ve felçli insanlarda iletişime yardımcı olmaya kadar çok sayıda uygulamaya sahip olabileceğini söylüyor.
Birçok laboratuvar, beyin taramalarını okumak ve bir deneğin yakın zamanda gördüğü insan yüzleri ve manzara fotoğrafları gibi görüntüleri yeniden oluşturmak için yapay zekâyı kullandı. Yeni çalışma, bir Alman grup tarafından geliştirilen ve 2022’de kamuya açıklanan Stable Diffusion adlı bir yapay zekâ algoritmasının bu amaçla ilk kez kullanıldığına işaret ediyor. Stable Diffusion, metin açıklamalarıyla ilişkili milyarlarca görüntü üzerinde eğitildikten sonra metin istemlerinden yeni görüntüler üreten DALL-E 2 ve Midjourney gibi diğer metinden görüntüye “üretici" YZ’lere benziyor.
Yeni çalışma için Japonya’daki bir grup, standart Stable Diffusion sistemine ek eğitim ekleyerek binlerce fotoğrafla ilgili ek metin açıklamalarını, bu fotoğraflar beyin taraması çalışmalarında katılımcılar tarafından gözlemlendiğinde ortaya çıkan beyin modellerine bağladı.
Büyük veri setleri üzerinde eğitilmesi gereken beyin taramalarını deşifre etmek için yapay zekâ algoritmalarını kullanan önceki çabaların aksine, Stable Diffusion, fotoğraf başlıklarını algoritmaya dahil ederek her katılımcı için daha az eğitimle daha fazlasını elde edebildi. Princeton Üniversitesi‘nde bilişsel sinirbilimci olan ve çalışmaya dahil olmayan Ariel Goldstein, bunun “beyni deşifre etmek" için metinsel ve görsel bilgileri birleştiren yeni bir yaklaşım olduğunu söylüyor.
Deneyde çalışan Osaka Üniversitesi‘nden sistem nörobilimcisi Yu Takagi‘ye göre yapay zekâ algoritması, beynin oksipital ve temporal loblar gibi görüntü algısıyla ilgili farklı bölgelerinden toplanan bilgileri kullanıyor. Sistem, beynin aktif bölgelerine giden kan akışındaki değişiklikleri tespit eden fonksiyonel manyetik rezonans görüntüleme (fMRI) beyin taramalarından elde edilen bilgileri yorumladı. İnsanlar bir fotoğrafa baktıklarında, temporal loblar ağırlıklı olarak görüntünün içeriği – insanlar, nesneler veya manzara – hakkındaki bilgileri kaydederken, oksipital lob ağırlıklı olarak içeriğin ölçeği ve konumu gibi düzen ve perspektif hakkındaki bilgileri kaydeder. Tüm bu bilgiler beyin aktivitesindeki tepe noktalarını yakalayan fMRI tarafından kaydedilir ve bu kalıplar daha sonra yapay zekâ kullanılarak bir taklit görüntüye dönüştürülebilir.
Yeni çalışmada araştırmacılar, Minnesota Üniversitesi tarafından sağlanan ve her biri 10.000 fotoğraftan oluşan bir seti görüntüleyen dört katılımcının beyin taramalarından oluşan çevrimiçi bir veri setini kullanarak Stable Diffusion algoritmasına ek eğitim eklediler. Aynı dört katılımcıdan alınan bu beyin taramalarının bir kısmı eğitimde kullanılmadı ve daha sonra YZ sistemini test etmek için kullanıldı.
Yapay zekâ tarafından üretilen her görüntü, televizyondaki paraziti andıran bir gürültü olarak başlıyor ve Kararlı Difüzyon algoritması bir kişinin bir fotoğrafa bakarkenki beyin aktivitesi örüntülerini eğitim veri setindeki örüntülerle karşılaştırarak gürültüyü ayırt edilebilir özelliklerle değiştiriyor. Sistem etkin bir şekilde görüntülenen fotoğrafın içeriğini, düzenini ve perspektifini gösteren bir görüntü oluşturuyor. Takagi, yeni sistemin öncekilerden daha verimli olduğunu, daha az ince ayar gerektirdiğini ve daha küçük bir veri setiyle eğitilebildiğini söylüyor.
Araştırmacılar, ağırlıklı olarak oksipital lobdaki beyin aktivitesinin, görüntülenen fotoğrafların düzenini ve perspektifini yeniden oluşturmak için yeterli bilgi sağladığını buldu. Ancak algoritma, gerçek fotoğraftaki saat kulesi gibi nesneleri yeniden canlandırmakta zorlandı ve bunun yerine soyut figürler yarattı. Japon ekip, bu sorunun üstesinden gelmek için bir yaklaşımın, algoritmayı daha fazla ayrıntıyı tahmin etmek için eğitebilecek daha büyük eğitim veri setleri kullanmak olacağını, ancak fMRI veri setinin bunun için çok sınırlı olduğunu söylüyor.
Araştırmacılar bunun yerine, Minnesota fMRI veri setindeki fotoğraflara eşlik eden resim başlıklarındaki anahtar kelimelerden yararlanarak bu sorunu aştılar. Örneğin, eğitim fotoğraflarından biri bir saat kulesi içeriyorsa, taramadan elde edilen beyin aktivitesi örüntüsü bu nesneyle ilişkilendirilecekti. Bu, aynı beyin örüntüsünün test aşamasında çalışma katılımcısı tarafından bir kez daha sergilenmesi durumunda, sistemin nesnenin anahtar kelimesini Stable Diffusion‘ın normal metin-imge oluşturucusuna besleyeceği ve beyin örüntüsünün gösterdiği düzen ve perspektifi izleyerek yeniden oluşturulan görüntüye bir saat kulesinin dahil edileceği ve gerçek fotoğrafın ikna edici bir taklidinin elde edileceği anlamına geliyordu.
Gerçek fotoğraf, yapay zekâ görüntüsü ve saatin daha eksiksiz bir yapay zekâ görüntüsü
Son olarak, araştırmacılar sistemlerini aynı katılımcıların oyuncak ayı, uçak, saat ve tren de dahil olmak üzere ayrı bir fotoğraf setini görüntüledikleri ek beyin taramaları üzerinde test ettiler. Bu görüntülerden elde edilen beyin örüntülerini, eğitim veri setindeki fotoğraflar tarafından üretilenlerle karşılaştıran yapay zekâ sistemi, yeni fotoğrafların ikna edici taklitlerini üretmeyi başardı.
Çalışmada yer almayan Amsterdam Üniversitesi‘nden nörobilimci Iris Groen, “Bu yeni yöntemin doğruluğu etkileyici" diyor.
Bununla birlikte, yapay zekâ sistemi yalnızca eğitim beyin taramalarını sağlayan aynı dört kişinin beyin taramaları üzerinde test edildi ve bunu diğer bireylere genişletmek, sistemin beyin taramaları üzerinde yeniden eğitilmesini gerektirecektir. Dolayısıyla, bu teknolojinin yaygın olarak erişilebilir hale gelmesi biraz zaman alabilir. Bununla birlikte Groen, “bu difüzyon modellerinin gerçekçi görüntüler üretme konusunda eşi benzeri görülmemiş bir yeteneğe sahip olduğunu" ve bilişsel sinirbilim araştırmaları için yeni fırsatlar yaratabileceğini savunuyor.
Osaka Üniversitesi‘nde bu çalışma üzerinde çalışan bir başka sistem nörobilimcisi Shinji Nishimoto, teknolojinin daha da geliştirilmesiyle hayal edilen düşünceleri ve rüyaları yakalamak için kullanılabileceğini ya da bilim insanlarının diğer hayvanların gerçekliği ne kadar farklı algıladıklarını anlamalarını sağlayabileceğini umuyor.