
14 Dil Modelini Türkçe ve İngilizce NER İçin Test Ettim 🔬
14 modeli Türkçe ve İngilizce NER görevi için kıyasladım — gerçek veriler, dürüst sonuçlar, sürpriz bir kazanan.
Neden NER’e Özel Model Yerine Genel Amaçlı Dil Modeli? 🤷#
spaCy ve Stanza tam olarak bunun için var. Hızlılar, ucuzlar ve bu iş için tasarlanmışlar. Sorun Türkçe morfolojisinde.
Türkçe sondan eklemeli bir dil. Bozbey gibi bir özel isim Bozbey’in, Bozbey’e biçimlerine bürünüyor. Ankara Adliyesi gibi bir kurum adı, yüzeyde Ankara’yla neredeyse hiç örtüşmüyor. Bursa Cumhuriyet Başsavcılığı içinde Bursa geçiyor, ama bunlar ayrı ayrı varlık değil — ikisini birden çıkarmak yanlış olur. Çoğunlukla İngilizce veriyle eğitilmiş hazır modeller bu morfolojiyle genellikle iyi başa çıkamıyor.
Bunun yerine OpenRouter üzerinden LLM tabanlı çıkarımı test ettim: tek API, tek prompt, iki dil.
Soru şu: özellikle Türkçe’de en iyi varlık F1’ini, en ucuza hangi model veriyor?
Adaylar 🏁#
OpenRouter kataloğundan 14 model; fiyatlar 10 Haziran 2026 itibarıyla (prompt/completion, $/milyon token):
| Model | Sağlayıcı | $/M Giriş | $/M Çıkış |
|---|---|---|---|
| Gemini 2.5 Flash | $0.30 | $2.50 | |
| DeepSeek V4 Flash | DeepSeek | $0.0983 | $0.1966 |
| DeepSeek V4 Pro | DeepSeek | $0.435 | $0.87 |
| Tencent Hy3 Preview | Tencent | $0.063 | $0.21 |
| MiniMax M3 | MiniMax | $0.30 | $1.20 |
| Xiaomi MiMo-V2.5 | Xiaomi | $0.14 | $0.28 |
| Xiaomi MiMo-V2.5-Pro | Xiaomi | $0.435 | $0.87 |
| Gemini 3.5 Flash | $1.50 | $9.00 | |
| Gemini 3.1 Flash Lite | $0.25 | $1.50 | |
| Gemma 4 31B | $0.12 | $0.36 | |
| GPT-4o-mini | OpenAI | $0.15 | $0.60 |
| GPT-5.4 mini | OpenAI | $0.75 | $4.50 |
| GPT-5.4 nano | OpenAI | $0.20 | $1.25 |
| Grok 4.3 | xAI | $1.25 | $2.50 |
Veri Seti 📋#
8 gerçek haber makalesi (4 İngilizce: BBC ×2, Guardian ×2; 4 Türkçe: TRT ×2, DW ×2), başlık ve ilk 1.400 karakter üzerinden elle etiketlendi.
Toplam 96 altın varlık: 20 kişi, 36 kuruluş, 40 konum.
Etiketleme kuralları katıydı ve her modele prompt içinde aktarıldı:
- Türkçe ekleri soy. Bozbey’in → Bozbey. Nokta.
- Ülke sıfatları yer adına dönüşür. “Endonezya adası” → Endonezya.
- İçe gömülü varlıklar ayrıca etiketlenmez. “Bursa Cumhuriyet Başsavcılığı”ndan ayrıca Bursa çıkarılmaz.
- Kısaltma-açılım çiftleri tek varlıktır. HSK = Hakimler ve Savcılar Kurulu; hangi biçimde gelirse gelsin eşleşme sayılır.
Veri seti küçük — bu ilk denemeydi. Sınır kararları her modeli eşit etkiliyor; mutlak sayılarda gürültü olsa bile karşılaştırma adil kalıyor.
Neyi Ölçtüm 📐#
- Her makale × her model için bir istek, aynı prompt (varlıkları çıkar,
{"entities": [{"name", "type"}]}döndür, standart biçim, tekrar yok, sıcaklık 0) - Mikro kesinlik / duyarlılık / F1 — 96 altın varlığın tamamı üzerinden
- Dile göre ayrı metrikler (tr / en)
- Her istek için OpenRouter fiyatlarına göre maliyet
- İstek başına ortalama yanıt süresi
- Verim: saniyede tamamlanan token sayısı
Test öncesi belirlenen karar kuralı: en yüksek genel mikro-F1 kazanır. 0.03 içinde eşitlik Türkçe F1 ile bozulur; devam ederse maliyet, sonra verim. Herhangi bir makalede geçerli JSON döndüremeyen model o makale için 0 duyarlılık alır — JSON güvenilirliği de sonucun parçası.
Sonuçlar 📊#
| Model | P | R | F1 | tr F1 | en F1 | Maliyet/8 | ms/istek | tok/s |
|---|---|---|---|---|---|---|---|---|
| Gemini 2.5 Flash 🏆 | 0.93 | 0.98 | 0.95 | 0.92 | 0.97 | $0.0077 | 2.434 | 135 |
| Gemini 3.5 Flash | 0.90 | 0.99 | 0.95 | 0.90 | 0.97 | $0.1830 | 12.456 | 198 |
| DeepSeek V4 Flash | 0.95 | 0.94 | 0.94 | 0.91 | 0.96 | $0.0030 | 21.081 | 77 |
| Grok 4.3 | 0.94 | 0.94 | 0.94 | 0.88 | 0.98 | $0.0235 | 5.041 | 175 |
| MiniMax M3 | 0.91 | 0.96 | 0.93 | 0.86 | 0.98 | $0.0171 | 30.125 | 53 |
| DeepSeek V4 Pro | 0.93 | 0.94 | 0.93 | 0.91 | 0.95 | $0.0201 | 41.021 | 63 |
| Gemini 3.1 Flash Lite | 0.89 | 0.96 | 0.92 | 0.85 | 0.97 | $0.0032 | 2.610 | 72 |
| Gemma 4 31B | 0.87 | 0.95 | 0.91 | 0.83 | 0.96 | $0.0015 | 14.313 | 24 |
| MiMo-V2.5-Pro | 0.88 | 0.93 | 0.90 | 0.86 | 0.93 | $0.0240 | 76.354 | 40 |
| MiMo-V2.5 | 0.87 | 0.88 | 0.87 | 0.76 | 0.95 | $0.0073 | 34.091 | 85 |
| GPT-4o-mini | 0.88 | 0.73 | 0.80 | 0.83 | 0.77 | $0.0012 | 2.538 | 55 |
| GPT-5.4 nano | 0.73 | 0.86 | 0.79 | 0.76 | 0.82 | $0.0029 | 2.651 | 79 |
| GPT-5.4 mini | 0.70 | 0.82 | 0.76 | 0.68 | 0.82 | $0.0089 | 2.237 | 75 |
| Tencent Hy3 Preview | 0.95 | 0.43 | 0.59 | 0.64 | 0.55 | $0.0094 | 100.047 | 55 |
(P: Kesinlik, R: Duyarlılık)
Bir model bitiş çizgisine ulaşamadı: Tencent Hy3 Preview, 8 isteğin 4’ünde 180 saniyelik zaman aşımına takıldı. Yanıt verebildiğinde kesinlik keskin bir 0.95 — ama makalelerin yarısında düşen bir modeli canlıya almak mümkün değil.
Dikkat Çekenler 👀#
Türkçe hâlâ farkı ortaya koyuyor#
Rekabetçi modellerde İngilizce F1 0.93–0.98 arasında sıkışmış durumda — artık çoğunlukla gürültü. Türkçe F1’i ise 0.68–0.91 arasına yayılıyor. Asıl fark burada.
En zor makale, 12 altın varlıklı bir Ankara yargı haberi oldu. “Ankara Cumhuriyet Başsavcılığı”, “Ankara Adliyesi” (konum değil, kuruluş olarak) ve “WhatsApp”ı birlikte temiz çıkaran tek bir model olmadı. Bu, klasik zor vaka: içine yerleştirilmiş yer adı taşıyan uzun kurumsal isimler ve araya giren bir tüketici markası.
GPT-5.4 kuşağı bu görevde sert düştü 📉#
gpt-5.4-mini, F1 0.76 ile sondan ikinciye indi; kesinlik 0.70’e çöktü. Yaklaşık 2.2 saniyede yanıt veriyor — görünürde hiç akıl yürütmeden — ve sistematik olarak fazla çıkarıyor. “Adalet Bakanı Akın Gürlek”i tek bir kişi varlığı olarak işliyor, unvan isme yapışıyor. Kurallara aykırı biçimde “Bursa Cumhuriyet Başsavcılığı”ndan ayrıca “Bursa” çıkarıyor. Türkçe ay adı “Haziran”ı konum olarak etiketliyor. Nano sürümü mini’yi açık ara geçiyor.
Eski model kendi haleflerini solladı 👻#
google/gemini-2.5-flash, F1 0.9543 ve Türkçe F1 0.9250 ile tüm alanı geride bıraktı — her iki eksende de birinci. Doğrudan halefleri Gemini 3.5 Flash ve Gemini 3.1 Flash Lite, Türkçe’de geride kaldı (sırasıyla 0.9048 ve 0.85).
Aynı gün. Aynı prompt. Aynı veri seti. Google’ın kendi yeni nesli onu yenemedi. Yapay zeka sektöründe “yeni” her zaman “belirli çıkarım görevlerinde daha iyi” anlamına gelmiyor.
Verim ve gecikme farklı hikayeler anlatıyor ⚡#
Grok 4.3 ve Gemini 3.5 Flash, 175–198 tok/s hızla 13 saniyenin altında yanıt veriyor. DeepSeek V4 Flash yalnızca 77 tok/s ve istek başına 21 saniyede kalıyor — akıl yürütme yükü. Gemini 2.5 Flash rahatça ortada duruyor: 135 tok/s, 2.4 saniye. Gecikmeye duyarlı uygulamalarda bu fark çok önemli; toplu işlemlerde ise büyük ölçüde önemsiz.
Karar ✅#
Kazanan: google/gemini-2.5-flash
Üç boyutta nasıl sonuçlandı:
Kalite 🎯 — Gemini 2.5 Flash en yüksek genel F1’e sahip (0.9543). Altı aday 0.03 içinde kalıyor: Gemini 3.5 Flash, DeepSeek V4 Flash, Grok 4.3, MiniMax M3, DeepSeek V4 Pro ve Gemini 3.1 Flash Lite. Türkçe F1 eşitliği bozuyor: Gemini 2.5 Flash 0.9250 ile önde, geri kalanların üzerinde. Başka bir ölçüte gerek kalmadı.
Maliyet 💰 — 8 makale için $0.0077 ($0.00096/makale). Alanın en ucuzu değil — DeepSeek V4 Flash 2.6× ucuz, $0.0030 — ama kazanan bu farka değiyor: tüm alanda hem en yüksek F1, hem de en yüksek Türkçe F1, ve yine de Gemini 3.5 Flash gibi premium seçeneklerin ($0.1830) çok altında.
Verim ⚡ — 135 tok/s, istek başına 2.4 saniye. Rekabetçi segmentte en hızlılar arasında. Grok 4.3 tok/s’de önde (175) ama kalitede geride. Gemini 2.5 Flash bu alanda hız, kalite ve maliyet dengesini en iyi kuran model.
Tek risk: önceki nesil bir model ve kullanım dışı kalma olasılığı en yüksek olan aday. Bu olursa doğal yedek DeepSeek V4 Flash — farklı sağlayıcı, aynı prompt üzerinde doğrulanmış F1 0.9424 / tr F1 0.9091, 8 makale için $0.0030 (2.6× ucuz, akıl yürütme nedeniyle istek başına 21s).
Dile Göre Yönlendirme 🗺️#
NER’i tespit edilen dile göre yönlendiriyorsanız, veriler dil başına farklı kazananlar gösteriyor:
| Dil | Ana Model | Yedek 1 | Yedek 2 |
|---|---|---|---|
| 🇹🇷 Türkçe | DeepSeek V4 Flash | Gemini 2.5 Flash | Grok 4.3 |
| 🇬🇧 İngilizce | Gemma 4 31B | DeepSeek V4 Flash | MiniMax M3 |
Neden genel kazanandan farklı?
- Türkçe ana modeli DeepSeek V4 Flash, Gemini 2.5 Flash değil — Türkçe F1 eşitlik penceresine aynı maliyet kuralını uyguladığımda DeepSeek ($0.0030) en ucuz geçerli seçenek oluyor: yalnızca 0.016 daha düşük Türkçe F1 ile 2.6× daha ucuz.
- İngilizce ana modeli Gemma 4 31B — İngilizce F1 eşitlik penceresinde yer alıyor (0.958), tüm alanda en ucuz ($0.0015/8 makale) ve açık ağırlıklı olduğu için çoklu sağlayıcı seçeneği var: kullanım dışı kalma riskine karşı en dayanıklı seçim. MiniMax M3’ün ham İngilizce F1’i daha yüksek (0.983) ama Gemma maliyette geçiyor.
- DeepSeek V4 Flash her iki zincirde de yedek — iki dilde de güçlü performans gösteriyor; dar gelirse tek model her ikisini de karşılayabilir.
Geriye Dönük Notlar 🔧#
8 makalelik veri seti, ciddi bir NLP benchmark standardına göre küçük sayılır. Buradaki modelleri birbirinden ayırmak için yeterliydi; Türkçe performansında sinyalin gürültü içinde kaybolmasına yol açacak kadar düşük bir varyans yoktu. Ancak mutlak F1 değerleri, varlık sınırlarına dair yorum farklarından kaynaklanan bir miktar etiket gürültüsü içeriyor.
Ortam değişirse testi yeniden çalıştırmak kolay: yeni adayları ekle, aynı script’i çalıştır, sonuçları karşılaştır.