14 Dil Modelini Türkçe ve İngilizce NER İçin Test Ettim 🔬 • osmandagdeviren.com.tr

Neden NER’e Özel Model Yerine Genel Amaçlı Dil Modeli? 🤷#

spaCy ve Stanza tam olarak bunun için var. Hızlılar, ucuzlar ve bu iş için tasarlanmışlar. Sorun Türkçe morfolojisinde.

Türkçe sondan eklemeli bir dil. Bozbey gibi bir özel isim Bozbey’in, Bozbey’e biçimlerine bürünüyor. Ankara Adliyesi gibi bir kurum adı, yüzeyde Ankara’yla neredeyse hiç örtüşmüyor. Bursa Cumhuriyet Başsavcılığı içinde Bursa geçiyor, ama bunlar ayrı ayrı varlık değil — ikisini birden çıkarmak yanlış olur. Çoğunlukla İngilizce veriyle eğitilmiş hazır modeller bu morfolojiyle genellikle iyi başa çıkamıyor.

Bunun yerine OpenRouter üzerinden LLM tabanlı çıkarımı test ettim: tek API, tek prompt, iki dil.

Soru şu: özellikle Türkçe’de en iyi varlık F1’ini, en ucuza hangi model veriyor?

Adaylar 🏁#

OpenRouter kataloğundan 14 model; fiyatlar 10 Haziran 2026 itibarıyla (prompt/completion, $/milyon token):

Model	Sağlayıcı	$/M Giriş	$/M Çıkış
Gemini 2.5 Flash	Google	$0.30	$2.50
DeepSeek V4 Flash	DeepSeek	$0.0983	$0.1966
DeepSeek V4 Pro	DeepSeek	$0.435	$0.87
Tencent Hy3 Preview	Tencent	$0.063	$0.21
MiniMax M3	MiniMax	$0.30	$1.20
Xiaomi MiMo-V2.5	Xiaomi	$0.14	$0.28
Xiaomi MiMo-V2.5-Pro	Xiaomi	$0.435	$0.87
Gemini 3.5 Flash	Google	$1.50	$9.00
Gemini 3.1 Flash Lite	Google	$0.25	$1.50
Gemma 4 31B	Google	$0.12	$0.36
GPT-4o-mini	OpenAI	$0.15	$0.60
GPT-5.4 mini	OpenAI	$0.75	$4.50
GPT-5.4 nano	OpenAI	$0.20	$1.25
Grok 4.3	xAI	$1.25	$2.50

Veri Seti 📋#

8 gerçek haber makalesi (4 İngilizce: BBC ×2, Guardian ×2; 4 Türkçe: TRT ×2, DW ×2), başlık ve ilk 1.400 karakter üzerinden elle etiketlendi.

Toplam 96 altın varlık: 20 kişi, 36 kuruluş, 40 konum.

Etiketleme kuralları katıydı ve her modele prompt içinde aktarıldı:

Türkçe ekleri soy. Bozbey’in → Bozbey. Nokta.
Ülke sıfatları yer adına dönüşür. “Endonezya adası” → Endonezya.
İçe gömülü varlıklar ayrıca etiketlenmez. “Bursa Cumhuriyet Başsavcılığı”ndan ayrıca Bursa çıkarılmaz.
Kısaltma-açılım çiftleri tek varlıktır. HSK = Hakimler ve Savcılar Kurulu; hangi biçimde gelirse gelsin eşleşme sayılır.

Veri seti küçük — bu ilk denemeydi. Sınır kararları her modeli eşit etkiliyor; mutlak sayılarda gürültü olsa bile karşılaştırma adil kalıyor.

Neyi Ölçtüm 📐#

Her makale × her model için bir istek, aynı prompt (varlıkları çıkar, {"entities": [{"name", "type"}]} döndür, standart biçim, tekrar yok, sıcaklık 0)
Mikro kesinlik / duyarlılık / F1 — 96 altın varlığın tamamı üzerinden
Dile göre ayrı metrikler (tr / en)
Her istek için OpenRouter fiyatlarına göre maliyet
İstek başına ortalama yanıt süresi
Verim: saniyede tamamlanan token sayısı

Test öncesi belirlenen karar kuralı: en yüksek genel mikro-F1 kazanır. 0.03 içinde eşitlik Türkçe F1 ile bozulur; devam ederse maliyet, sonra verim. Herhangi bir makalede geçerli JSON döndüremeyen model o makale için 0 duyarlılık alır — JSON güvenilirliği de sonucun parçası.

Sonuçlar 📊#

Model	P	R	F1	tr F1	en F1	Maliyet/8	ms/istek	tok/s
Gemini 2.5 Flash 🏆	0.93	0.98	0.95	0.92	0.97	$0.0077	2.434	135
Gemini 3.5 Flash	0.90	0.99	0.95	0.90	0.97	$0.1830	12.456	198
DeepSeek V4 Flash	0.95	0.94	0.94	0.91	0.96	$0.0030	21.081	77
Grok 4.3	0.94	0.94	0.94	0.88	0.98	$0.0235	5.041	175
MiniMax M3	0.91	0.96	0.93	0.86	0.98	$0.0171	30.125	53
DeepSeek V4 Pro	0.93	0.94	0.93	0.91	0.95	$0.0201	41.021	63
Gemini 3.1 Flash Lite	0.89	0.96	0.92	0.85	0.97	$0.0032	2.610	72
Gemma 4 31B	0.87	0.95	0.91	0.83	0.96	$0.0015	14.313	24
MiMo-V2.5-Pro	0.88	0.93	0.90	0.86	0.93	$0.0240	76.354	40
MiMo-V2.5	0.87	0.88	0.87	0.76	0.95	$0.0073	34.091	85
GPT-4o-mini	0.88	0.73	0.80	0.83	0.77	$0.0012	2.538	55
GPT-5.4 nano	0.73	0.86	0.79	0.76	0.82	$0.0029	2.651	79
GPT-5.4 mini	0.70	0.82	0.76	0.68	0.82	$0.0089	2.237	75
Tencent Hy3 Preview	0.95	0.43	0.59	0.64	0.55	$0.0094	100.047	55

(P: Kesinlik, R: Duyarlılık)

Bir model bitiş çizgisine ulaşamadı: Tencent Hy3 Preview, 8 isteğin 4’ünde 180 saniyelik zaman aşımına takıldı. Yanıt verebildiğinde kesinlik keskin bir 0.95 — ama makalelerin yarısında düşen bir modeli canlıya almak mümkün değil.

Dikkat Çekenler 👀#

Türkçe hâlâ farkı ortaya koyuyor#

Rekabetçi modellerde İngilizce F1 0.93–0.98 arasında sıkışmış durumda — artık çoğunlukla gürültü. Türkçe F1’i ise 0.68–0.91 arasına yayılıyor. Asıl fark burada.

En zor makale, 12 altın varlıklı bir Ankara yargı haberi oldu. “Ankara Cumhuriyet Başsavcılığı”, “Ankara Adliyesi” (konum değil, kuruluş olarak) ve “WhatsApp”ı birlikte temiz çıkaran tek bir model olmadı. Bu, klasik zor vaka: içine yerleştirilmiş yer adı taşıyan uzun kurumsal isimler ve araya giren bir tüketici markası.

GPT-5.4 kuşağı bu görevde sert düştü 📉#

gpt-5.4-mini, F1 0.76 ile sondan ikinciye indi; kesinlik 0.70’e çöktü. Yaklaşık 2.2 saniyede yanıt veriyor — görünürde hiç akıl yürütmeden — ve sistematik olarak fazla çıkarıyor. “Adalet Bakanı Akın Gürlek”i tek bir kişi varlığı olarak işliyor, unvan isme yapışıyor. Kurallara aykırı biçimde “Bursa Cumhuriyet Başsavcılığı”ndan ayrıca “Bursa” çıkarıyor. Türkçe ay adı “Haziran”ı konum olarak etiketliyor. Nano sürümü mini’yi açık ara geçiyor.

Eski model kendi haleflerini solladı 👻#

google/gemini-2.5-flash, F1 0.9543 ve Türkçe F1 0.9250 ile tüm alanı geride bıraktı — her iki eksende de birinci. Doğrudan halefleri Gemini 3.5 Flash ve Gemini 3.1 Flash Lite, Türkçe’de geride kaldı (sırasıyla 0.9048 ve 0.85).

Aynı gün. Aynı prompt. Aynı veri seti. Google’ın kendi yeni nesli onu yenemedi. Yapay zeka sektöründe “yeni” her zaman “belirli çıkarım görevlerinde daha iyi” anlamına gelmiyor.

Verim ve gecikme farklı hikayeler anlatıyor ⚡#

Grok 4.3 ve Gemini 3.5 Flash, 175–198 tok/s hızla 13 saniyenin altında yanıt veriyor. DeepSeek V4 Flash yalnızca 77 tok/s ve istek başına 21 saniyede kalıyor — akıl yürütme yükü. Gemini 2.5 Flash rahatça ortada duruyor: 135 tok/s, 2.4 saniye. Gecikmeye duyarlı uygulamalarda bu fark çok önemli; toplu işlemlerde ise büyük ölçüde önemsiz.

Karar ✅#

Kazanan: google/gemini-2.5-flash

Üç boyutta nasıl sonuçlandı:

Kalite 🎯 — Gemini 2.5 Flash en yüksek genel F1’e sahip (0.9543). Altı aday 0.03 içinde kalıyor: Gemini 3.5 Flash, DeepSeek V4 Flash, Grok 4.3, MiniMax M3, DeepSeek V4 Pro ve Gemini 3.1 Flash Lite. Türkçe F1 eşitliği bozuyor: Gemini 2.5 Flash 0.9250 ile önde, geri kalanların üzerinde. Başka bir ölçüte gerek kalmadı.

Maliyet 💰 — 8 makale için $0.0077 ($0.00096/makale). Alanın en ucuzu değil — DeepSeek V4 Flash 2.6× ucuz, $0.0030 — ama kazanan bu farka değiyor: tüm alanda hem en yüksek F1, hem de en yüksek Türkçe F1, ve yine de Gemini 3.5 Flash gibi premium seçeneklerin ($0.1830) çok altında.

Verim ⚡ — 135 tok/s, istek başına 2.4 saniye. Rekabetçi segmentte en hızlılar arasında. Grok 4.3 tok/s’de önde (175) ama kalitede geride. Gemini 2.5 Flash bu alanda hız, kalite ve maliyet dengesini en iyi kuran model.

Tek risk: önceki nesil bir model ve kullanım dışı kalma olasılığı en yüksek olan aday. Bu olursa doğal yedek DeepSeek V4 Flash — farklı sağlayıcı, aynı prompt üzerinde doğrulanmış F1 0.9424 / tr F1 0.9091, 8 makale için $0.0030 (2.6× ucuz, akıl yürütme nedeniyle istek başına 21s).

Dile Göre Yönlendirme 🗺️#

NER’i tespit edilen dile göre yönlendiriyorsanız, veriler dil başına farklı kazananlar gösteriyor:

Dil	Ana Model	Yedek 1	Yedek 2
🇹🇷 Türkçe	DeepSeek V4 Flash	Gemini 2.5 Flash	Grok 4.3
🇬🇧 İngilizce	Gemma 4 31B	DeepSeek V4 Flash	MiniMax M3

Neden genel kazanandan farklı?

Türkçe ana modeli DeepSeek V4 Flash, Gemini 2.5 Flash değil — Türkçe F1 eşitlik penceresine aynı maliyet kuralını uyguladığımda DeepSeek ($0.0030) en ucuz geçerli seçenek oluyor: yalnızca 0.016 daha düşük Türkçe F1 ile 2.6× daha ucuz.
İngilizce ana modeli Gemma 4 31B — İngilizce F1 eşitlik penceresinde yer alıyor (0.958), tüm alanda en ucuz ($0.0015/8 makale) ve açık ağırlıklı olduğu için çoklu sağlayıcı seçeneği var: kullanım dışı kalma riskine karşı en dayanıklı seçim. MiniMax M3’ün ham İngilizce F1’i daha yüksek (0.983) ama Gemma maliyette geçiyor.
DeepSeek V4 Flash her iki zincirde de yedek — iki dilde de güçlü performans gösteriyor; dar gelirse tek model her ikisini de karşılayabilir.

Geriye Dönük Notlar 🔧#

8 makalelik veri seti, ciddi bir NLP benchmark standardına göre küçük sayılır. Buradaki modelleri birbirinden ayırmak için yeterliydi; Türkçe performansında sinyalin gürültü içinde kaybolmasına yol açacak kadar düşük bir varyans yoktu. Ancak mutlak F1 değerleri, varlık sınırlarına dair yorum farklarından kaynaklanan bir miktar etiket gürültüsü içeriyor.

Ortam değişirse testi yeniden çalıştırmak kolay: yeni adayları ekle, aynı script’i çalıştır, sonuçları karşılaştır.