Sistem, 10 saniyelik kliplerle eğitildi
Teksas Üniversitesi’nden Doç. Dr. Yuhao Kang ve meslektaşları tarafından geliştirilen “Ses Manzarasından Görüntüye Yayılma Modeli”, 10 saniyelik sesli-görsel kliplerden oluşan bir veri kümesi üzerinde eğitildi.
Bu klipler, Kuzey Amerika, Asya ve Avrupa’daki kentsel ve kırsal sokakların YouTube videolarından alınan durağan görüntülerden ve ortam seslerinden oluşuyor. Derin öğrenme algoritmalarını kullanan sistem, hangi seslerin görüntülerdeki hangi öğelere karşılık geldiğinin yanında, hangi ses niteliklerinin hangi görsel ortamlara karşılık geldiğini de öğrendi. Eğitim tamamlandıktan sonra, sistemden 100 farklı sokak görüntüsü videosunun yalnızca kaydedilen ortam sesine dayanarak görüntüler üretmesi istendi ve her video için bir görüntü oluşturdu.
Dahası, oluşturulan görüntüler bilgisayar analizinde, gökyüzü, yeşil alanlar ve binaların göreceli oranlarının orijinal videolardakilerle güçlü bir şekilde ilişkili olduğu bulundu.
Hatta birçok durumda oluşturulan görüntüler, kaynak videoların güneşli, bulutlu veya gece gibi ışık koşullarını da yansıttı. Bu durum, geceleri azalan trafik gürültüsü veya gece böceklerinin sesleri gibi faktörlerle mümkün olmuş olabilir.
Teknolojinin, bir ses kaydının nerede yapıldığına dair kabataslak bir fikir edinmek gibi adli uygulamalarda kullanılabilme potansiyeline rağmen, çalışma daha çok sesin yer duygumuza nasıl katkıda bulunduğunu keşfetmeyi amaçlıyor.
Bilim insanları yakın zamanda Nature dergisinde yayınlanan makalelerinde çalışmanın önemini şu şekilde açıklıyor: “Sonuçlar, görsel ve işitsel algıların insan ruh sağlığı üzerindeki etkilerine dair bilgimizi artırabilir, kentsel tasarım uygulamalarına rehberlik edebilir ve topluluklardaki genel yaşam kalitesini iyileştirebilir.”