HABER

DALL-E NEDİR?
DALL-E NEDİR?

DALL-E, metin-görüntü çiftlerinden oluşan bir veri kümesi kullanarak metin açıklamalarından görüntüler oluşturmak üzere eğitilmiş GPT-3' ün 12 milyar parametreli bir sürümüdür. Hayvanların ve nesnelerin antropomorfize versiyonlarını oluşturmak, alakasız kavramları makul şekillerde birleştirmek, metin oluşturmak ve mevcut görüntülere dönüşümler uygulamak dahil olmak üzere çeşitli yeteneklere sahip olduğunu söyleyebiliriz.

GPT-3, dilin, çeşitli metin oluşturma görevlerini gerçekleştirmek için büyük bir sinir ağına talimat vermek için kullanılabileceğini gösteriyor. Image GPT, aynı tür sinir ağının yüksek doğruluklu görüntüler oluşturmak için de kullanılabiliyor. Bu bulguları, görsel kavramları dil yoluyla manipüle etmenin artık ulaşılabilir olduğunu gösterecek şekilde genişletiyor.

Genel Bakış

GPT-3 gibi DALL·E de bir dönüştürücü dil modelidir. Hem metni hem de görüntüyü 1280' e kadar jeton içeren tek bir veri akışı olarak alır ve tüm jetonları birbiri ardına üretmek için maksimum olasılık kullanılarak eğitilir. Bu eğitim prosedürü, DALL·E'nin yalnızca sıfırdan bir görüntü oluşturmasına değil, aynı zamanda metin istemiyle tutarlı bir şekilde, sağ alt köşeye uzanan mevcut bir görüntünün herhangi bir dikdörtgen bölgesini yeniden oluşturmasına olanak tanıyor.

Üretken modelleri içeren çalışmaların önemli ve geniş toplumsal etkiler potansiyeline sahip olması, gelecekte DALL·E gibi modellerin belirli iş süreçleri ve meslekler üzerindeki ekonomik etki, model çıktılarındaki yanlılık potansiyeli ve bu teknolojinin ima ettiği uzun vadeli etik zorluklar gibi toplumsal sorunlarla nasıl ilişkili olduğunu analiz etmeyi planlıyor.

Yetenekleri

DALL·E' nin dilin kompozisyon yapısını keşfeden çok çeşitli cümleler için makul görüntüler oluşturabildiğini görüyoruz. Bunu bir sonraki bölümde bir dizi etkileşimli görsel kullanarak gösteriyor. Görsellerdeki her başlık için gösterilen örnekler, CLIP ile yeniden sıralama yapıldıktan sonra 512 içerisinden ilk 32' si alınarak elde edilmiştir, ancak dışarıda görünen küçük resimler ve bağımsız görseller dışında herhangi bir manuel seçim kullanılmıyor.

Çoklu Nesne Çizimi

Birden fazla nesneyi, niteliklerini ve mekânsal ilişkilerini aynı anda kontrol etmek yeni bir zorluk sunarken, örneğin, "kırmızı şapka, sarı eldiven, mavi gömlek ve yeşil pantolon giyen bir kirpi" ifadesini düşünebiliriz. Bu cümleyi doğru bir şekilde yorumlamak için, DALL·E sadece her bir giysi parçasını hayvanla doğru bir şekilde oluşturmakla kalmadan, aynı zamanda (şapka, kırmızı), (eldiven, sarı), (gömlek, mavi) ve (pantolon, yeşil) çağrışımlarını da oluşturabiliyor. DALL·E' nin görseli konumlandırma, nesneleri istifleme ve çoklu öznitelikleri kontrol etme becerisini de gözlemlemiş oluyoruz.

DALL·E, az sayıda nesnenin nitelikleri ve konumları üzerinde bir miktar kontrol edilebilirlik sunarken, başarı oranı, başlığın nasıl ifade edildiğine bağlı olabilir. Daha fazla nesne tanıtıldıkça, DALL·E nesneler ve renkleri arasındaki ilişkileri karıştırabilir ve başarı oranı keskin bir şekilde düşer. Ayrıca, DALL·E' nin bu senaryolarda altyazının yeniden ifade edilmesiyle ilgili olarak kırılgan olduğunu da unutmamak gerekir. Alternatif, anlamsal olarak eşdeğer altyazılar genellikle doğru sonuç sağlamaz.

Perspektif ve Üç Boyutluluğu Görselleştirme

DALL·E' nin ayrıca bir sahnenin bakış açısı ve bir sahnenin oluşturulduğu 3B stil üzerinde kontrole izin verdiğini görüyoruz.

Bunu daha da ileri götürmek için, DALL·E' nin iyi bilinen bir figürün kafasını eşit aralıklı bir dizi açı dizisinden her açıda tekrar tekrar çizme yeteneğini test ediyoruz ve dönen kafanın düzgün bir animasyonunu kurtarabileceğimizi gözlemliyoruz.

Bağlamsal Ayrıntıları Çıkarma

Metni resimlere çevirme görevi yeterince belirtilmemiştir: tek bir resim yazısı genellikle sonsuz sayıda makul resme karşılık gelir, bu nedenle resim benzersiz bir şekilde belirlenmez. Örneğin, “gün doğumunda tarlada oturan bir kapibara resmi” başlığını düşünün. Kapibaranın yönüne bağlı olarak bir gölge çizmek gerekebilir, ancak bu ayrıntıdan asla açıkça bahsedilmez. DALL·E' nin eksik özellikleri çözme yeteneğini üç durumda inceleyebiliriz: stil, ayar ve zaman değişikliği! Aynı nesneyi çeşitli farklı durumlarda çizmek ve üzerinde belirli bir metnin yazılı olduğu bir nesnenin görüntüsünü oluşturmak DALL·E' nin muhteşem performansını gözler önüne seriyor.

DİĞER HABERLER