osmandagdeviren.com.tr
EN
AI Görsel Modelleri Benchmark Görseli

Aklımda basit bir soru vardı: hangi görsel üretim modeli gerçekten talimatlara uyuyor? 🤔

En güzel çıktıyı hangisi üretiyor diye değil. En etkileyici demo reeline hangisi sahip diye de değil. Farklı zorluk türlerinde, tutarlı biçimde istediğinizi hangisi yapıyor, bunu soruyordum.

Bu yüzden beş promptluk bir benchmark tasarladım ve bunu beş model üzerinde çalıştırdım: black-forest-labs/flux.2-klein-4b, google/gemini-2.5-flash-image (nano banana), bytedance-seed/seedream-4.5, black-forest-labs/flux.2-pro ve x-ai/grok-imagine-image-quality. Aynı promptlar, aynı değerlendirme kriterleri, yeniden deneme yok. 🧪

İşte bulduklarım. 🔍

🧭 Bu Benchmark’ı Neden Oluşturdum#

Görsel model karşılaştırmalarının büyük çoğunluğu yanlış şeyi test ediyor.

Modellerden güzel bir portre, fantastik bir manzara ya da ürün fotoğrafı üretmesini istiyorlar; sonra da kazananı estetiğe göre belirliyorlar. Ama bu araçları gerçek iş için kullanmaya çalıştığınızda asıl darboğaz estetik değil.

Asıl darboğaz talimatlara uyumdur. Model doğru dokuyu doğru nesneye uygulayabiliyor mu? Bir kalemin kupa bardağının yanında değil içinde olması gerektiğini anlayabiliyor mu? Bir tabeladaki kelimeyi doğru yazabiliyor mu? “Kare tekerlekli bisiklet çiz” diye yazılmışsa, eğitim dağılımını geçersiz kılarak bunu yapabiliyor mu?

İş akışlarını bozan şeyler bunlar. Test etmeye değer olanlar da bunlar.

🧪 Beş Test#

Her promptu belirli bir yeteneği zorlamak için tasarladım.

Test 1 — 🪵 Özellik Kayması.

Three objects on a white background: a textured wooden cube, a translucent blue glass sphere, a metallic gold pyramid.
text

Test, doku ve malzemelerin doğru nesnelere bağlı kalıp kalmadığını ve arka planın temiz olup olmadığını ölçüyor.

Test 2 — 📐 Uzamsal Akıl Yürütme.

A desk scene: red mug on the left corner, a single yellow pencil inside the mug, an open book to the right, a potted plant on the floor under the desk.
text

Test, modelin yalnızca yakınlığı değil, içerme ve konum ilişkilerini anlayıp anlamadığını ölçüyor.

Test 3 — 🔤 Tipografi ve Düzen.

A storefront with 'STABILITY' above the door, 'OPEN' as a neon sign in the left window, and a coffee cup drawing (no text) in the right window.
text

Test, yazım doğruluğunu, doğru yerleşimi ve metin bulunmaması gereken yerde metin üretmeme direncini ölçüyor.

Test 4 — ⚙️ Yapısal Mantık.

A technical blueprint of a bicycle with perfectly square wheels, showing a drive chain connecting the rear wheel hub to the foot pedals.
text

Test, modelin eğitim verisinde neredeyse hiç görmediği bir şeyi üretip üretemeyeceğini ölçüyor.

Test 5 — 🎮 Stil Kilidi.

A city intersection at rush hour, rendered as strict 8-bit pixel art with a 16-color palette, visible square pixels, no gradients, no realistic lighting.
text

Test, modelin karmaşık ve ayrıntılı bir sahnede stil disiplinini koruyup koruyamadığını ölçüyor.

Her test Geçti (1.0), Kısmen Geçti (0.5) veya Kaldı (0.0) olarak notlandırıldı.

📊 Sonuçlar#

Testi tek tek inceleyelim.

🪵 Özellik Kayması#

Beş modelden dördü bu testi temiz geçti. Doku ayrımı modern modeller için artık çözülmüş bir sorun — ahşap dokusu küpte, cam kürede, altın piramitte.

Tek eksi puan flux.2-pro’ya gitti; üç nesnenin altına yumuşak düşen gölgeler ekledi. Prompt saf beyaz arka plan istiyordu. Gölgeler beyaz arka plan değildir. Küçük bir şey, ama kısıt uyumu kısıt uyumudur.

grok-imagine-image-quality, beş model arasındaki en inandırıcı ahşap dokuyu üretti — görünür çatlaklar, doğal budaklar, duvar kağıdı deseni değil gerçek kerestenin tanesi.

ModelÇıktı
flux.2-klein-4bflux.2-klein-4b
gemini-2.5-flash-imagegemini-2.5-flash-image
seedream-4.5seedream-4.5
flux.2-proflux.2-pro
grok-imagine-image-qualitygrok-imagine-image-quality

📐 Uzamsal Akıl Yürütme#

Bu en zor testti. Saksı bitkisinin masanın altındaki ilişkisi mi? Bunu hepsi doğru yaptı. Geniş ölçekli konum akıl yürütmesi genelde güvenilir görünüyor.

Kalemin kupanın içindeki durumu mu? Bu detay modelleri oldukça zorladı.

Beş modelden üçü (flux.2-klein-4b, gemini-2.5-flash-image ve seedream-4.5) promptta hiç bahsedilmemesine rağmen kupanın içine kahve de koydular.

flux.2-pro bu konuda başarılı olan tek modeldi; kupanın içine kahve eklemeden sarı kalemi başarıyla yerleştirmeyi başardı ve bu turda tam puanı kazandı.

grok-imagine-image-quality’nin ilginç bir başarısızlık biçimi vardı: Kalemi kupanın içine başarıyla yerleştirmiş olsa da, masanın yüzeyinde kupanın etrafında koyu mavi dairesel bir gölge oluşturdu. Tam olarak uzamsal bir başarısızlık değil, ama tam da bu tür ilişki yoğun render görevlerinde ortaya çıkan yapısal bir kusur.

Pratik çıkarım: kullanım durumunuz ince içerme ilişkileri gerektiriyorsa, manuel doğrulama yapın. flux.2-pro bu konuda beklenmedik derecede iyi bir performans gösterse de, genel olarak modeller hala tam güvenilir bir seviyede değil.

ModelÇıktı
flux.2-klein-4bflux.2-klein-4b
gemini-2.5-flash-imagegemini-2.5-flash-image
seedream-4.5seedream-4.5
flux.2-proflux.2-pro
grok-imagine-image-qualitygrok-imagine-image-quality

🔤 Tipografi ve Düzen#

Beş modelden dördü “STABILITY” kelimesini doğru yazdı. Hepsi “OPEN” yazısını sol pencereye yerleştirdi ve yine hepsi sağ pencereyi metinsiz bıraktı.

flux.2-klein-4b diğer kısımları doğru yapsa da ana tabelaya “STABLITY” yazdı. Tek eksik harf. Sahnedeki en belirgin öğede açık, tartışmasız bir yazım hatası.

İyi haber şu ki olumsuz kısıt her yerde işe yaradı. Hiçbir model, promptun açıkça metin olmaması gerektiğini belirttiği sağ pencerede metin üretmedi. Bu tür baskılama güvenilir görünüyor.

Tipografi son model nesilleriyle açıkça gelişti. Artık eskisi gibi felaket bir başarısızlık noktası değil. Ama “çoğunlukla doğru” ile “her zaman doğru” aynı şey değil; flux.2-klein-4b bunu hatırlatıyor.

ModelÇıktı
flux.2-klein-4bflux.2-klein-4b
gemini-2.5-flash-imagegemini-2.5-flash-image
seedream-4.5seedream-4.5
flux.2-proflux.2-pro
grok-imagine-image-qualitygrok-imagine-image-quality

⚙️ Yapısal Mantık#

Beş modelden ikisi yuvarlak tekerlek çizdi.

Yaklaşık yuvarlak değil. Neredeyse yuvarlak da değil. Jant telleri dahil mükemmel yuvarlak — bu modellerin gördüğü her bisiklet görselindeki tekerleklerin tam kopyası.

Prompt kare tekerlek diyordu. Açıkça. Üstelik “mükemmel” kelimesiyle birlikte.

flux.2-klein-4b ve seedream-4.5 tamamen varsayılana düştü. gemini-2.5-flash-image ise farklı bir yaklaşım sergiledi — tekerlekleri köşeleri yuvarlatılmış karelere benzetmeyi başarsa da, bisikletin altına tamamen anlamsız bir mekanizma ve anlamsız harfe benzer yapılar çizdi. Model, alışılmışın dışına çıkmaya çalışırken yapıyı tamamen kaybetti ve halüsinasyon üretti.

flux.2-pro ve grok-imagine-image-quality kare tekerlek formunu yakalamayı başardı. Tekerleklerin keskin köşeleri, düz yüzeyleri ve iç geometriyi gösteren köşegen yapı çizgileri var.

Ancak grok-imagine-image-quality’nin çıktısı ilk bakışta etkileyici bir mühendislik belgesi gibi görünse de yakından incelendiğinde ciddi bir kusur barındırıyor: üzerindeki diyagram metinleri ve notların büyük çoğunluğu okunaksız, anlamsız sembollerden ibaret. Model, karmaşık bir plan görünümü yaratmaya çalışırken tipografik halüsinasyonlara yenik düşüyor. Bu yüzden tam puanı hak etmiyor.

flux.2-pro ise bu noktada parlıyor. Üzerinde hiçbir metin olmamasına rağmen, temiz ve yapısal olarak doğru bir çizim sunarak gerçek bir projede doğrudan kullanılabilecek tek seçenek haline geliyor.

Bu testin ortaya koyduğu gerçek şu: Bir prompt, modelin görsel eğitim verileriyle çelişen —yani modelin normal şartlarda hiç görmediği— bir şey istediğinde, çoğu model bildiği ezberlere sığınıyor. Bu testi geçebilen az sayıdaki model ise çok daha anlamlı bir yetenek sergiliyor: tanıdık kalıpları kopyalayıp birleştirmek yerine, temel mantık üzerinden tamamen yeni yapılar inşa edebilmek.

ModelÇıktı
flux.2-klein-4bflux.2-klein-4b
gemini-2.5-flash-imagegemini-2.5-flash-image
seedream-4.5seedream-4.5
flux.2-proflux.2-pro
grok-imagine-image-qualitygrok-imagine-image-quality

🎮 Stil Kilidi#

İki model geçti, üçü kısmen başarısız oldu.

Ayrım çok net. gemini-2.5-flash-image ve grok-imagine-image-quality, tuvali boyunca — arabalar, binalar, yayalar, tabelalar, her şey — sert kenarlı piksel disiplinini korudu. Yumuşatma yok. Gradyan yok. Görünür kare piksel blokları. Sınırlı düz renk paleti.

flux.2-klein-4b ve seedream-4.5 uzaktan piksel sanatı gibi görünen ama yakından incelenince dağılan bir şey üretti. Pürüzsüz araba kenarları. Yumuşak gölgeler. Yol gradyanları. Hiçbir zaman 16 renk sınırıyla karşılaşmamış gibi duran bir renk paleti. Üstelik seedream-4.5’in görselinde mantıksal hatalar da var; dikkatli bakıldığında binanın çatısında yürüyen bir insan görünüyor.

flux.2-pro ise piksel stilini genel olarak çok iyi korumasına rağmen tuhaf mantıksal halüsinasyonlara yenik düştü. Görselde bir binanın çatısında hem yürüyen bir insan hem de bir araba var; ayrıca aşağıdaki trafikte bazı arabalar ve insanlar tamamen iç içe geçmiş durumda. Görsel stili iyi olsa da sahne mantığı çöktüğü için tam puanı hak etmiyor.

grok-imagine-image-quality hakkında ilginç olan şu: sahnenin diegetik kurgu gerçekliğine tamamen girdi. Görseldeki tabelalar “8-BIT BURGERS”, “PIXEL MART”, “MAIN ST / 5TH AVE” yazıyordu. Bir arabanın “HONK!” yazan konuşma balonu vardı. Gökyüzü tek düz renk. Her karakter aynı hantal dört renkli sprite. Model gerçekçi bir sahneye piksel filtresi uygulamadı — içeriden bakıldığında bir video oyunu olan bir sahne üretti.

Bu farklı bir tür stil uyumudur.

ModelÇıktı
flux.2-klein-4bflux.2-klein-4b
gemini-2.5-flash-imagegemini-2.5-flash-image
seedream-4.5seedream-4.5
flux.2-proflux.2-pro
grok-imagine-image-qualitygrok-imagine-image-quality

🏁 Final Puanları#

flux.2-klein-4bgemini-2.5-flash-imageseedream-4.5flux.2-progrok-imagine-image-quality
🪵 Özellik Kayması✅ 1.0✅ 1.0✅ 1.0⚠️ 0.5✅ 1.0
📐 Uzamsal Akıl Yürütme⚠️ 0.5⚠️ 0.5⚠️ 0.5✅ 1.0⚠️ 0.5
🔤 Tipografi ve Düzen⚠️ 0.5✅ 1.0✅ 1.0✅ 1.0✅ 1.0
⚙️ Yapısal Mantık❌ 0.0❌ 0.0❌ 0.0✅ 1.0⚠️ 0.5
🎮 Stil Kilidi⚠️ 0.5✅ 1.0⚠️ 0.5⚠️ 0.5✅ 1.0
Toplam2.5 / 53.5 / 53.0 / 54.0 / 54.0 / 5

flux.2-pro 4.0/5 ile zirveyi paylaşıyor. Özellik kaymasında basit bir gölge hatasıyla ve stil kilidi testinde çatıdaki araba/insan gibi mantıksal sahne halüsinasyonlarıyla yarımşar puan kaybetti.

grok-imagine-image-quality de 4.0/5 ile zirveyi paylaşıyor. Uzamsal akıl yürütmedeki ufak hatasının yanı sıra, yapısal mantık testinde ürettiği anlamsız metinler nedeniyle de puan kaybetti.

gemini-2.5-flash-image 3.5/5 ile üçüncü oldu — uzamsal akıl yürütmede zorlandı ve yapısal mantık testinde tamamen halüsinasyon üreterek başarısız oldu.

seedream-4.5 3.0/5 aldı. Testteki en görsel açıdan güzel görüntülerin bir kısmını üretti — özellikle tel kafes bisiklet görsel olarak muhteşem — ama görsel kalite ile talimatlara uyum birbirinden bağımsız iki boyut; bu test ikincisini ölçüyor.

flux.2-klein-4b 2.5/5 ile sonuncu oldu; tipografide hatalı yazım yaptı ve yapısal mantıkta tamamen başarısız oldu.

💰 Fiyat Karşılaştırması#

Performans hikayenin yalnızca yarısı. Diğer yarısı maliyet. İşte modellerin üretilen görsel başına fiyat açısından karşılaştırması:

  • black-forest-labs/flux.2-klein-4b: $0.014/görsel
  • black-forest-labs/flux.2-pro: $0.03/görsel
  • google/gemini-2.5-flash-image (nano banana): $0.04/görsel
  • bytedance-seed/seedream-4.5: $0.04/görsel
  • x-ai/grok-imagine-image-quality: $0.05/görsel

Fiyatlandırma manzarası ilginç dinamikler ortaya koyuyor. flux.2-klein-4b modeli açık ara en ucuzu, ama benchmark’ta sonuncu oldu. Büyük kardeşi flux.2-pro ise görsel başına $0.03 ile çok rekabetçi bir fiyat sunuyor ve zirveyi paylaşan 4.0/5 puanıyla güçlü bir değer önerisi oluşturuyor.

Daha yüksek fiyatlı modellerden ikisi — gemini-2.5-flash-image ve grok-imagine-image-quality — sırasıyla görsel başına $0.04 ve $0.05 ile fiyat aralığının üst ucunda yer alıyor. Her iki model de potansiyel vadetse de, test sonuçlarına bakıldığında yüksek maliyetlerinin hakkını tam olarak veremiyorlar. seedream-4.5 de Gemini ile aynı $0.04 fiyat noktasında yer alıyor; ancak yüksek estetik kalitesine karşın talimat uyumunda daha düşük puan aldı.

🧠 Bunun Gerçekte Anlamı Ne#

Sayıların ötesinde önemli olduğunu düşündüğüm birkaç şey.

🌀 Eğitim dağılımı problemi gerçek. Yuvarlak tekerlekler, bu modellerin işlediği her bisiklet görselinde o kadar derin yerleşmiş ki “kare tekerlekli bisiklet çiz” basit bir talimat değil — önceki bilgiye karşı bir savaş. Beş modelden üçü o savaşı kaybetti. Bu örüntü, bilinen bir nesne gibi görünen ama anlamlı biçimde farklı olması gereken her şeyde tekrar edecek.

🎨 Estetik kalite kullanışlılıkla aynı şey değil. seedream-4.5’in tel kafes bisikleti, yapısal mantık testindeki en güzel görsel. Aynı zamanda testin tam bir başarısızlığı. Modelleri gerçek iş için değerlendiriyorsanız, etkileyici portfolyo parçaları üreten promptları değil, kendi gerçek kullanım durumunuzun promptlarını çalıştırın.

📐 Uzamsal içerme zorlayıcı bir detay. Modellerin çoğu “kupanın içindeki kalem” detayında varsayılan kalıplara dönüp kupaya kahve de ekledi. Bu, doğru uzamsal diyagramlar, öğretici illüstrasyonlar veya nesne ilişkilerinin anlamsal açıdan önemli olduğu sahneler üretmeye çalışan herkes için önemli.

📏 Birinci ile sonuncu arasındaki fark büyük. 5 üzerinden 2.5’e karşı 4.0 marjinal bir fark değil. Bu benchmark’ın zirvesindeki modeller, alttakilerden anlamlı biçimde farklı bir şey yapıyor.

🔁 Benchmark Yeniden Kullanılabilir#

Bu beş prompt yeniden üretilebilir şekilde tasarlandı. Aynı testleri farklı bir modelde çalıştırmak istiyorsanız, promptlar yukarıda tam olarak verilmiş; değerlendirme kriterleri de açık.

Çalıştırın. Sonuçları karşılaştırın. Bulduklarınızı paylaşın. 🌍

Bu tür bilgi, paylaşıldıkça daha kullanışlı hale geliyor. 🤝

5 Yapay Zeka Görsel Modelini Aynı 5 Prompt ile Test Ettim 🧪
https://osmandagdeviren.com.tr/blog/yz-gorsel-modelleri-karsilastirmasi/
Yazar Osman Dağdeviren
Yayımlanma