Yapay Zeka ile Triyaj ve Semptom Değerlendirme: 2026 Kanıt Panoraması

Yapay zeka tabanlı semptom değerlendirme araçları, vinyet ortamında klinisyenle eşdeğer triyaj doğruluğuna ulaşabiliyor; ancak gerçek-dünya validasyonu, aşırı-triyaj ve dağılım kayması sorunları çözülmüş değil.

Yazan: Op. Dr. Cem Akaltun · Güncellendi · ~12 dk okuma Klinik AI & Tıbbi LLM

Bir hasta gece yarısı göğüs ağrısıyla telefonunu açıp bir uygulamaya semptomlarını yazdığında ya da bir hekim, hasta gelmeden önce yapay zekânın hazırladığı bir ön değerlendirme raporunu okuduğunda, aslında modern tıbbın en hızlı büyüyen alanlarından biriyle karşı karşıyayız: yapay zekâ ile triyaj ve dijital semptom değerlendirme. Soru basit görünse de cevabı katmanlı: Bu araçlar gerçekten doğru aciliyet kararı verebiliyor mu, yoksa yalnızca akıcı ama güvenilmez metin mi üretiyorlar? 2025-2026 döneminde yayımlanan meta-analizler ve gerçek-dünya çalışmaları, bu sorunun cevabını ilk kez nicel ve dürüst bir temele oturtuyor.

İki Ayrı Görev: Triyaj ve Tanı Karıştırılmamalı

Bu alanı doğru okuyabilmek için iki kavramı ayırmak zorunludur. Tanı, hastanın hangi hastalığa sahip olduğunu belirlemektir. Triyaj ise hastanın ne kadar acil bakıma ihtiyacı olduğunu sınıflandırmaktır — örneğin "hemen acile git", "24 saat içinde hekim gör" ya da "evde takip et" gibi. Bu ayrım kritiktir, çünkü kanıtlar tutarlı biçimde gösteriyor ki dijital araçlar triyajda tanıdan daha başarılı.

Bu örüntü, alanın referans çalışması olan Wallace ve arkadaşlarının 2022 tarihli sistematik derlemesinde net biçimde ortaya konmuştu: dijital semptom kontrol araçlarının birincil tanı doğruluğu yalnızca %19-37,9 aralığındayken, triyaj doğruluğu %48,8-90,1 gibi çok daha geniş ve genelde daha yüksek bir bantta seyrediyordu. Buna karşın çalışmaların yaklaşık %69'u "suboptimal" (yetersiz) triyaj sergiliyordu. Bu rakamlar, sonraki yılların ölçü çıtasını belirledi.

Büyük Dil Modelleri Dengeyi Değiştirdi mi?

ChatGPT'nin 2022 sonunda yaygınlaşmasıyla beraber, kural-tabanlı semptom kontrolünden büyük dil modellerine (LLM) doğru hızlı bir geçiş yaşandı. Bu geçişin triyaj performansına etkisi, 2024-2026 döneminin en güçlü kanıt katmanı olan meta-analizlerde inceleniyor — ve sonuçlar tek bir yöne işaret etmiyor.

En kapsamlı çalışmalardan biri, Chen ve arkadaşlarının npj Digital Medicine dergisinde 2026'da yayımladığı, 50 çalışma ve 25 farklı LLM'i kapsayan meta-analiz. Bu çalışmanın çarpıcı bulgusu: triyaj doğruluğunda LLM'ler ile sağlık profesyonelleri arasında anlamlı fark yok (göreceli doğruluk 1,01; %95 GA 0,94-1,09). Yani büyük dil modelleri, en azından çalışma ortamında, klinisyenlerle eşdeğer triyaj kararı verebiliyor. Ancak aynı çalışmanın belki daha önemli bulgusu işbirliğine dair: LLM-destekli profesyonel, yalnız profesyonelden üstün (ilk-1 tanıda göreceli doğruluk 1,13; %95 GA 1,00-1,27). Bu, alanın en sağlam pozitif sinyali ve yapay zekânın değerinin "yerine geçme"de değil "karar desteği"nde olduğuna işaret ediyor.

Bu iyimser tabloyu dengeleyen kanıtlar da var. Gao ve arkadaşlarının BMC Emergency Medicine'de 2026'da yayımladığı, 15 çalışmalık meta-analiz, GPT-4 ve türevleri için havuzlanmış triyaj doğruluğunu 0,70 (%95 GA 0,58-0,81), optimize edilmiş sürümlerde 0,81 olarak buldu — GPT-3.5'in zayıf 0,51'ine kıyasla belirgin bir sıçrama. Ancak yazarlar açık bir uyarı koyuyor: GPT-4'ün insana üstünlüğü istatistiksel olarak kırılgan; duyarlılık analizinde anlamlılık belirli çalışmalara bağlı kalıyor ve heterojenite (I²) çok yüksek. Benzer biçimde Kaboudi ve arkadaşlarının 2024 meta-analizi, GPT-4.0 için 0,86 gibi yüksek bir doğruluk bildirse de funnel plot analizinde yayın yanlılığı sinyali veriyor — yani olumlu sonuçların yayımlanmaya, olumsuzların raflarda kalmaya meyilli olabileceğini gösteriyor.

KIRILGAN ÜSTÜNLÜK

Meta-analizler LLM triyajını klinisyenle eşdeğer bulsa da (göreceli doğruluk 1,01), bu üstünlük duyarlılık analizinde kayboluyor, heterojenite I²>%90 düzeyinde ve yayın yanlılığı sinyali var. "Eşdeğer" sonucu, "her bağlamda güvenilir" anlamına gelmez.

Sayılar Yan Yana: Karşılaştırmalı Doğruluk

Farklı araçların ve modellerin triyaj/tanı performansını yan yana koymak, abartısız bir değerlendirme için gereklidir. Aşağıdaki tablo, 2024-2026 döneminin başlıca çalışmalarından derlenmiş temsili rakamları sunuyor — her satırın bağlamı (vinyet mi, gerçek hasta mı) sütununda belirtilmiştir.

Araç / ModelGörevDoğrulukBağlam (Kaynak, Yıl)
LLM (havuz)Triyaj≈ klinisyen (gör. doğr. 1,01)Vinyet/MA (Chen, npj 2026)
GPT-4 türevleriTriyaj0,70 (opt. 0,81)Vinyet/MA (Gao, BMC 2026)
GPT-4.0Triyaj0,86 (I²=%93)Vinyet/MA (Kaboudi 2024)
ChatGPT-4oPediatrik triyaj%76,1Gerçek hasta (Frontiers 2026)
HemşirePediatrik triyaj%53,1Gerçek hasta (Frontiers 2026)
Platform24 (kural-tabanlı)Triyaj güvenliği%94Gerçek hatalı-triyaj vakaları (2025)
NHS 111 onlineTanı%80 (16/20)Vinyet (Cureus 2025)
ChatGPT (genel)Tanı (vinyet)%70Vinyet (Cureus 2025)
Semptom uygulamalarıÖz-triyaj%25,9-88,0SR (npj 2025)
LLM'lerÖz-bakım vakaları%10,8SR (npj 2025)

Gerçek Hasta Karşısında Sınav: Vinyetin Ötesi

Yukarıdaki rakamların çoğu "vinyet" — yani önceden hazırlanmış, temiz, standart vaka senaryoları — üzerinden elde edildi. Oysa gerçek hasta, semptomlarını dağınık, belirsiz ve günlük dille anlatır. Bu yüzden gerçek-dünya çalışmaları çok daha değerlidir, çünkü asıl sınav burada başlar.

Türkiye'den tek merkezli, prospektif bir pediatrik acil çalışması (Frontiers in Pediatrics, 2026; 1.505 gerçek çocuk hasta) bu konuda aydınlatıcı. ChatGPT-4o'nun triyaj doğruluğu %76,1 (%95 GA 73,9-78,2) iken hemşirelerin doğruluğu %53,1, Grok 3'ün ise %47,0 idi. Uyum katsayısı (Cohen κ) ChatGPT-4o için 0,69 (iyi), hemşire için 0,42, Grok 3 için 0,31 olarak ölçüldü. Ancak aynı çalışma kritik bir nüans getiriyor: kronik hastalığı olan çocuklarda hemşireler belirgin biçimde üstündü (%59,5 vs ChatGPT %28,3). Ayrıca Grok 3, en kritik vakaları (ESI-2) %97,7 duyarlılıkla yakalasa da özgüllüğü düşüktü ve %36,3 oranında aşırı-triyaj yaptı. Yazarların sonucu net: yapay zekâ hemşireyi desteklemeli, yerine geçmemeli.

Bir diğer önemli gerçek-dünya çalışması, Ada Health'in "dijital ön kapı" sistemini Portekiz'deki CUF hastane ağında değerlendiren prospektif post-market araştırması (npj Digital Medicine, 2026). Burada tedavi eden hekimler, sistemin aciliyet önerilerini ve raporlarını genel olarak uygun buldu; konsültasyon öncesi rapor okunduğunda hekim hazırlığı ve algılanan verimlilik arttı. Ancak dürüst olmak gerekirse, bu çalışma nicel tanı doğruluğunu değil, uygunluk ve algıyı ölçtü — kanıtın türü farklı, ama gerçek klinik ortamda olması değerini artırıyor.

Belki en zekice tasarlanmış validasyon ise Platform24'ün İsveç çalışması (Scand J Prim Health Care, 2025): araç, daha önce gerçekten yanlış triyajlanmış vakalardan türetilen 390 vinyette test edildi ve %91 doğruluk (%95 GA 88-94) ile %94 güvenlik (%95 GA 91-96) gösterdi. Yani sistem, insanların hata yaptığı zorlu vakalarda bile güvenli kaldı.

Başarısızlıklar ve Sistematik Riskler

Dürüst bir değerlendirme, başarıları kadar başarısızlıkları da net biçimde adlandırmalıdır. Kanıtlar, birkaç sistematik zayıflığa işaret ediyor.

Aşırı-triyaj ve öz-bakım körlüğü: 2025 tarihli kapsamlı bir sistematik derleme (npj Digital Medicine, 19 çalışma), LLM'lerin öz-bakım gerektiren (yani aslında evde halledilebilecek) vakalarda yalnızca %10,8 doğruluk gösterdiğini ortaya koydu. Bu, modellerin düşük-aciliyeti tanıyamadığı ve sistematik olarak hastaları gereğinden fazla acile yönlendirdiği anlamına gelir — kaynak israfı ve gereksiz kaygı yaratan ciddi bir sorun. Aynı derlemede acil vakalarda uygulamaların doğruluğu %74,5, LLM'lerin %66,7 idi.

Dağılım kayması (distribution shift): 2026 tarihli bir metodolojik ön-baskı (arXiv), küratör-vinyetlerdeki yüksek skorların, gerçek hasta-yazımı, kolokyal ve belirsiz girdide çöktüğünü öne sürüyor. Yazarlara göre değerlendirme formatı, model kapasitesinden daha çok triyaj başarısını belirliyor ve mevcut güvenlik kıyasları gerçek-dünya güvenilirliğini abartıyor olabilir. Bu bir ön-baskı olduğundan (hakem değerlendirmesinden geçmemiş) kanıt ağırlığı düşüktür, ancak uyarı dikkate değer.

Otomasyon yanlılığı ve yağcılık: Yapay zekâ okuryazarlığı eğitimi almış hekimlerin bile hatalı LLM önerilerini benimseyebildiği gösterilmiştir. Ayrıca LLM'ler "sycophancy" (yağcılık) eğilimi taşır — hastanın ya da klinisyenin ifade ettiği yanlış bir inanca uyum sağlayıp doğru bilgiyi geçersiz kılabilirler. Bu, klinik karar zincirinde sinsi bir risktir.

Alt-grup ve modalite zayıflıkları: Görsel girdi gerektiren durumlarda (örneğin dermatolojik bulgular) metin-tabanlı LLM'ler belirgin biçimde zayıf kalıyor; bir çalışmada dermatoloji yönlendirme doğruluğu %79,57'ye düşmüştü ve hataların %43,42'si "güncel semptom yerine öyküye aşırı güven"den kaynaklanıyordu. Küçük çocuklar ve kronik hastalar gibi alt-gruplarda performans düşüyor, dil/etnik yanlılık kanıtları mevcut.

Düzenleyici Manzara: Hangi Araç Tıbbi Cihaz?

Klinik kullanım açısından kritik bir ayrım, bir aracın tıbbi cihaz olarak onaylanıp onaylanmadığıdır. Burada tablo karışık. Avrupa'da Ada Health, EU-MDR kapsamında Sınıf IIa tıbbi cihaz sertifikasına sahip (TÜV SÜD); Infermedica'nın triyaj/intake/takip ürünleri ise Sınıf IIb olarak sertifikalı ve Birleşik Krallık'ta tanınıyor. Buna karşın ABD'de FDA, semptom-kontrol veya triyaj amaçlı genel LLM'leri henüz klinik triyaj cihazı olarak onaylamış değil; 2025 yaklaşımı, "Toplam Ürün Yaşam Döngüsü" (TPLC) ve "Önceden Belirlenmiş Değişiklik Kontrol Planı" (PCCP) üzerine kurulu. Aidoc'un CARE1 sistemi Şubat 2025'te ilk foundation-model temelli FDA onayını aldı — ancak bu bir görüntü-triyaj aracıdır, semptom-kontrol değil; bu ayrım net tutulmalıdır.

Pratik sonuç şudur: hastaların kendi başına kullandığı genel-amaçlı sohbet robotları (ChatGPT, Gemini gibi) tıbbi cihaz olarak onaylı değildir ve bu araçlar "triyaj" için kullanıldığında düzenleme kapsamı dışında kalır. Karşılaştırmalı çalışmalar da bu noktayı destekliyor: NHS 111 online gibi amaca-özel araçlar, genel-amaçlı LLM'lerden tutarlı biçimde üstün performans gösteriyor (Cureus 2025; NHS 111 acil tanımada 14/15, ChatGPT 12/15).

Yeni Nesil: GPT-5 ve Ajan-Tabanlı Sistemler

2025-2026 döneminde GPT-5 ailesi sahneye çıktı ve ön çalışmalar (medrxiv 2025) MedQA sınavında yetişkin sorularında %86,3, pediatride %88,5 doğruluk bildiriyor — GPT-4'e kıyasla daha yapılandırılmış tanı yolu ve daha güçlü güvenlik farkındalığı ile. Ajan-tabanlı sistemler (birden çok adımda akıl yürüten mimariler) bu temel çizgiyi de geçebiliyor (tanı doğruluğu %89,3 vs %84,6). Ancak bu rakamların büyük kısmı yine sınav-tipi ve vinyet ortamından geliyor; gerçek hasta validasyonu hâlâ eksik halka.

Sonuç

Yapay zekâ ile triyaj ve semptom değerlendirme, son iki yılda hızlı ve gerçek bir ilerleme kaydetti — ama bu ilerleme abartıdan arındırılmış biçimde okunmalıdır. Kanıtlanan: LLM tabanlı triyaj, vinyet ortamında klinisyenle eşdeğer doğruluğa ulaşabiliyor (göreceli doğruluk 1,01); klinisyen artı LLM kombinasyonu yalnız klinisyenden üstün (1,13); sertifikalı kural-tabanlı araçlar gerçek hatalı-triyaj vakalarında yüksek güvenlik gösterebiliyor (%94). Kanıtlanmayan ya da belirsiz: gerçek-dünya hasta yararı (sağlık kullanımını azaltma, sonuç iyileştirme) zayıf kanıtlanmış; LLM üstünlüğü kırılgan (duyarlılık analizinde kayboluyor, I²>%90, yayın yanlılığı); tanı hâlâ insan altında; öz-bakım vakalarında felaket düzeyinde aşırı-triyaj var.

Bu tablonun en tutarlı dersi şudur: yapay zekâ, klinisyenin yerine geçmek için değil, onu desteklemek için en güçlü. Genel-amaçlı sohbet robotları hasta tarafından "triyaj" amacıyla kullanıldığında düzenleme dışı ve riskli kalıyor; amaca-özel, sertifikalı, gerçek-dünyada doğrulanmış araçlar ise giderek olgunlaşıyor. Çelişen kanıtlar — "LLM eşdeğer" (Chen), "üstünlük kırılgan" (Gao), "amaca-özel araç üstün" (NHS 111) — tek bir başlıkta birleşmiyor; ve doğru tutum, bu çoğulluğu bağlama göre okumaktır. Sahadaki hekim için pratik mesaj sade: bu araçları bir karar-destek katmanı olarak değerlendirin, son sözü asla onlara bırakmayın, ve özellikle düşük-aciliyet kararlarında insan muhakemesini koruyun.

Kaynaklar

  1. Chen ve ark. Independent and collaborative performance of LLMs and healthcare professionals in diagnosis and triage. npj Digital Medicine. 2026. site
  2. Gao ve ark. Accuracy of ChatGPT in adult emergency department triage: a systematic review and meta-analysis. BMC Emergency Medicine. 2026. site
  3. Kaboudi ve ark. Diagnostic Accuracy of ChatGPT for Patients' Triage: Systematic Review and Meta-Analysis. Archives of Academic Emergency Medicine. 2024. site
  4. Shan ve ark. Comparing Diagnostic Accuracy of Clinical Professionals and Large Language Models. JMIR Medical Informatics. 2025. site
  5. Wang ve ark. Accuracy of LLMs When Answering Clinical Research Questions: Network Meta-Analysis. Journal of Medical Internet Research. 2025. site
  6. Pimenta ve ark. Appropriateness and utility of a clinical decision support system at the digital front door. npj Digital Medicine. 2026. site
  7. Ilicki ve ark. Evaluating a digital triage symptom checker using historical triage-related adverse events. Scandinavian Journal of Primary Health Care. 2025. site
  8. Patient Triage and Guidance in Emergency Departments Using LLMs: Multimetric Study. Journal of Medical Internet Research. 2025. site
  9. Should we leave paediatric emergency triage to AI? ChatGPT-4o versus Grok 3. Frontiers in Pediatrics. 2026. site
  10. Accuracy of online symptom assessment apps, LLMs, and laypeople for self-triage: systematic review. npj Digital Medicine. 2025. site
  11. Wallace ve ark. The diagnostic and triage accuracy of digital and online symptom checker tools: systematic review. npj Digital Medicine. 2022. site
  12. Ada Health. Medical quality and EU-MDR Class IIa certification. Düzenleyici belge. 2025. site
Bilgilendirme: Bu içerik yalnızca eğitim ve bilgilendirme amaçlıdır; tanı veya tedavi kararı yerine geçmez. Semptom kontrol ve triyaj uygulamaları bir hekim değerlendirmesinin yerini tutmaz. Acil belirtilerde (örneğin şiddetli göğüs ağrısı, nefes darlığı, bilinç değişikliği) vakit kaybetmeden acil sağlık hizmetine başvurulmalıdır.