Google’ın yapay zeka araştırma laboratuvarı Google DeepMind, yapay zeka tabanlı video oluşturma aracı Veo 2’yi duyurdu. OpenAI Sora’ya meydan okuyan Veo 2 için Google, daha gerçekçi görüntüler ürettiğini söylüyor. Google aynı zamanda daha zengin, daha ayrıntılı fotoğraflar üretmek için görüntü oluşturma modeli Imagen 3’ü de güncelledi.
Veo 2, Google’ın geliştirme platformu VideoFX üzerinden erişime açıldı, ancak şu an için yalnızca bekleme listesine kayıt yaptıran ve doldurulan form sonrası erişim için onaylanan kullanıcılara sunuluyor.
Sora’dan daha iyi
Google, Veo 2’nin özellikle sinematografiye dair talimatlara uyum sağlama konusunda üstün olduğunu belirtiyor. Kullanıcılar modelden bir tür belirlemesini, özel bir lens seçmesini ya da sinematik efektler uygulamasını isteyebiliyor. Bu talepler doğrultusunda Veo 2, 4K (4096 x 2160 piksel) çözünürlüğe kadar 2 dakika uzunluğunda videolar oluşturabiliyor.
Bu, Sora’nın ulaşabildiği çözünürlüğün 4, sürenin ise 6 katından fazla. (Sora 1080p’ye kadar, 20 saniye uzunluğunda klipler üretebiliyor). Google DeepMind’dan Eli Collins, Google’ın Veo 2’yi “model geniş ölçekte kullanıma hazır hale geldikçe” Vertex AI geliştirici platformu aracılığıyla kullanıma sunacağını söyledi. Veo 2 ayrıca süre zarfında güncellenmeye devam edilecek.
Google’ın blog yazısına göre, model insan hareketleri ve ifadelerindeki ince detayları anlamada oldukça başarılı. Ancak şirket, modelin hala bazen fazladan parmak ya da anatomik hatalar gibi görsel “yanılmalar” yapabildiğini kabul ediyor. Yine de bu tür hataların önceki modellere göre ciddi oranda azaltıldığı ifade ediliyor. Veo 2 ile üretilen videolar, Google’ın yapay zekâ içeriklerini ayırt etmek için kullandığı SynthID isimli metadata filigranını taşıyor.
Veo 2, OpenAI’nin Sora modeline doğrudan rakip olarak konumlanıyor. Sora, uzun süren bir ön izleme sürecinin ardından kullanıcılara sunulmuş ve özellikle içerik üreticileri ve film yapımcıları için dikkat çekmişti. Ancak Sora’nın fizik kurallarını ihlal eden veya tutarsız sonuçlar üretmesi, kullanıcıların eleştirilerine neden olmuştu. Google’ın yaptığı iç testlerde, Veo 2’nin genel kullanıcı tercihi ve verilen talimatlara uygunluk gibi kriterlerde Sora’ya kıyasla daha iyi performans gösterdiği belirtiliyor.
Veo gibi, Veo 2 de bir metin istemi (örneğin, “Otoyolda yarışan bir araba”) veya metin ve bir referans görüntü verildiğinde videolar oluşturabiliyor. Daha iyi fizik ve kamera kontrolü anlayışına sahip olan model görüntüleri de daha net bir şekilde üretiyor. DeepMind ayrıca Veo 2’nin hareketi, akışkan dinamiklerini (kahvenin bir bardağa dökülmesi gibi) ve ışığın özelliklerini (gölgeler ve yansımalar gibi) daha gerçekçi bir şekilde modelleyebildiğini belirtiyor.
Imagen 3 güncellendi
Google ayrıca kısa süre önce web’deki Gemini sohbet robotu aracılığıyla kullanıma sunduğu görüntü modeli Imagen 3’ü daha gerçekçi olması ve daha parlak görüntüler sunması için güncelledi. Model artık fotoğraf gerçekçiliğinden empresyonizme, soyut sanattan animeye kadar birçok sanatsal tarzı daha doğru şekilde üretebiliyor.
Imagen 3, Gemini sohbet botu aracılığıyla kullanıcılara sunuluyor ve daha parlak, daha detaylı görseller üretme yeteneğine sahip. Google, modelin ayrıca komutları daha sadık bir şekilde takip edeceğini söyledi. Kullanıcılar yeni Imagen 3’e ImageFX üzerinden erişebilirler.