Klinik Karar Destek Sistemlerinde Yapay Zeka: Neyi Başardı, Neyi Başaramadı?

Yapay zeka destekli klinik karar sistemleri ayrımsama gücünü ve süreç ölçütlerini iyileştirdi; ancak prospektif hasta-sonucu kanıtı, düşük yanlış-alarm yükü ve güvenilir insan-AI iş birliği hâlâ alanın çözülmemiş darboğazları.

Yazan: Op. Dr. Cem Akaltun · Güncellendi · ~12 dk okuma Klinik AI & Tıbbi LLM

Klinik karar destek sistemleri (KKDS), elektronik sağlık kayıtlarındaki verileri işleyerek hekime tanı, risk öngörüsü ve tedavi yönetiminde yol göstermeyi amaçlar. Son iki yılda yapay zeka ve büyük dil modellerinin (LLM) bu sistemlere girmesiyle alan hızla genişledi. Ancak 2025-2026 döneminin kanıtları dürüst bir tabloyu da beraberinde getiriyor: modellerin ayrımsama gücü (discrimination) belirgin biçimde arttı, fakat bunun hasta sonuçlarına (mortalite, morbidite) ne ölçüde yansıdığı, alarm yükünün ne kadar yönetilebildiği ve hekimle yapay zekanın gerçekten iyi bir ekip oluşturup oluşturamadığı hâlâ büyük ölçüde açık sorular. Bu yazı, en güncel randomize ve prospektif verilere dayanarak "neyin başarıldığını, neyin başarılamadığını" ayırmayı hedefliyor.

Sepsis erken uyarı: alanın en sınanmış vitrinindeki çelişki

Sepsis öngörüsü, KKDS'lerin en yoğun çalışıldığı alandır; çünkü erken müdahale hayat kurtarır ve elektronik veriler bol miktarda mevcuttur. Bu alandaki en güçlü olumlu kanıt, 2025'te yayımlanan SCREEN çalışmasıdır. Suudi Arabistan'da 5 hastane ve 45 serviste yürütülen bu basamaklı-kama küme randomize kontrollü çalışmaya (RKÇ) 60.055 hasta alındı. qSOFA tabanlı elektronik bir alarmın etkisi ölçüldü ve birincil sonuç olan 90 günlük hastane içi mortalitede düzeltilmiş göreli risk (aRR) 0,85 (%95 GA 0,77-0,93; P<0,001) bulundu (PubMed'e göre; Arabi ve ark., JAMA 2025). Laktat testi (aRR 1,30) ve intravenöz sıvı uygulaması (aRR 2,17) arttı, vazopresör ihtiyacı ve çok-ilaca-dirençli organizmalar azaldı.

Bu, elektronik sepsis taramasının mortaliteyi düşürebildiğini gösteren önemli bir dönüm noktasıdır. Ancak iki kritik nüans gözden kaçmamalı. Birincisi, SCREEN'deki alarm bir makine öğrenmesi modeli değil, kural tabanlı bir qSOFA eşiğiydi — yani "yapay zeka" değil, görece basit bir karar kuralı. İkincisi, çalışma zararsız değildi: code blue çağrıları, böbrek replasman tedavisi başlatma ve C. difficile enfeksiyonu arttı. Daha çok müdahale, her zaman daha iyi sonuç anlamına gelmiyor.

Makine öğrenmesi tabanlı modellere baktığımızda tablo daha temkinli. Yaygın kullanılan Epic Sepsis Model (ESM), ilk büyük dış validasyonunda (Wong ve ark., JAMA Internal Medicine 2021) yalnızca 0,63 AUC ile zayıf çıkmıştı. 2024'te iki acil serviste yapılan bağımsız bir değerlendirmede (Ostermayer ve ark., JAMIA Open) 6 saatlik pencerede duyarlılık %14,7, PPV %7,6 ve medyan uyarı öncülüğü 0 dakika bulundu — yani alarm, hekime klinik olarak çok az şey katıyordu.

2026'da yayımlanan, modelin güncellenmiş v2 sürümünün 4 ABD sağlık sistemini ve 227.091 başvuruyu kapsayan ilk büyük çok merkezli prospektif validasyonu ise nüanslı bir ilerleme gösterdi: kurum düzeyinde AUROC 0,82-0,92 aralığına yükseldi (JAMA Network Open 2026). Fakat aynı çalışma, %60 duyarlılık eşiğinde pozitif prediktif değerin yalnızca 0,13-0,26 aralığında kaldığını, kurumlar arası değişkenliğin yüksek ve alarm yükünün ağır olduğunu raporladı. Yazarların net mesajı: her kurum yerel validasyon yapmalı ve "alarm susturma" stratejileri uygulamalıdır. Yani ESM hikâyesi "kötü model" değil, "ayrımsama düzeldi ama klinik fayda ve PPV hâlâ kanıtlanmadı" olarak yeniden çerçevelenmelidir.

İki kaynak, iki sonuç — tek "doğru" yok

Sepsis KKDS'sinin mortaliteye etkisi konusunda kanıtlar yan yana okunmalıdır: SCREEN RKÇ kural-tabanlı bir alarmla mortaliteyi düşürdü (aRR 0,85); buna karşılık Epic ESM v1/v2 validasyonları makine öğrenmesi tabanlı bir modelin düşük PPV ve henüz kanıtlanmamış klinik fayda taşıdığını gösterdi. Bunlar farklı model tipleridir ve birbirini geçersiz kılmaz.

Yanlış alarm sorunu ve alarm yorgunluğu

Düşük PPV'nin doğal sonucu, çok sayıda yanlış alarmdır; bu da "alarm yorgunluğu" denilen, hekimin uyarıları görmezden gelmeye başladığı duruma yol açar. Sorunun büyüklüğü somut: bir sistematik derleme ve meta-analizde ilaç-ilaç etkileşim uyarılarında havuzlanmış geçersiz kılma (override) oranı %90 (%95 GA 85-95) bulundu (Health Informatics Journal 2024). Bu nedenle yeni nesil sepsis sistemleri "yanlış alarmı en aza indirmeyi" birincil tasarım hedefi yapıyor: prospektif COMPOSER-LLM hattı hasta-saati başına yalnızca 0,0086 yanlış alarm bildirirken, SepsisAI yoğun bakımda %3,18 yanlış-alarm oranı raporladı (PLOS Digital Health 2024). Alarm yükünü düşürmek, klinik güveni korumanın ön koşuludur.

Genel resim: teknik başarı ile klinik fayda arasındaki uçurum

Tek tek alanların ötesine geçip bütüne bakıldığında, 2026'da yayımlanan kapsamlı bir sistematik derleme ve meta-analiz çarpıcı bir tablo sunuyor. 17 uzmanlık alanından 50 çalışmayı değerlendiren bu analizde, prediktif yapay zeka tabanlı KKDS'lerin havuzlanmış AUC değeri 0,652 (%95 GA 0,562-0,743), duyarlılık 0,660 ve özgüllük 0,819 olarak bulundu (PLOS Digital Health 2026). Daha da önemlisi, çalışmaların %76'sı retrospektifti ve %64'ü yalnızca teknik metrik bildirip klinik iş-akışı verisi sunmuyordu. Yazarların ana vurgusu, teknik validasyon ile gerçek-dünya klinik faydası arasında kritik bir uçurum bulunduğudur.

Bu uçurum, başka alanlarda da görülüyor. Akut böbrek hasarında KKDS'leri değerlendiren 2024 tarihli bir meta-analiz (10 RKÇ, 18.355 hasta), tüm-neden mortalite ve böbrek replasman tedavisi açısından anlamlı bir yarar gösteremedi; yalnızca hiperkalemi insidansı azaldı ve eGFR seyri iyileşti (Renal Failure 2024). Negatif sonuçlar da en az pozitif sonuçlar kadar yol göstericidir.

Büyük dil modelleri: tanıda paradoks, yönetimde mütevazı katkı

Üretken yapay zekanın klinik muhakemeye etkisi, son dönemin en ilgi çekici ve en çelişkili bulgularını barındırıyor. Goh ve arkadaşlarının tanısal muhakeme RKÇ'sinde (PubMed'e göre; JAMA Network Open 2024) hekimler geleneksel kaynaklara ek olarak bir LLM (GPT-4) kullandığında tanısal performansta anlamlı fark görülmedi (düzeltilmiş fark +2 puan; P=0,60). Çarpıcı olan şu: LLM tek başına, hekim gruplarından 16 puan daha yüksek performans gösterdi (%95 GA 2-30; P=0,03) — ama bu üstünlük hekimle birleşince kayboldu. Bu, alanda "araçtan ekip arkadaşına" (tool to teammate) sorunu diye anılan, insan-AI iş birliğinin henüz çözülememiş olduğunu gösteren bir paradokstur.

Buna karşılık, aynı ekibin yönetim muhakemesi RKÇ'si (Nature Medicine 2025, 92 hekim) mütevazı ama anlamlı bir katkı buldu: LLM destekli grup, geleneksel kaynaklara göre +%6,5 (%95 GA 2,7-10,2; P<0,001) daha iyiydi. Tanı ile yönetim aynı şey değildir; faydanın göreve bağlı olduğu açıktır. Kaynak-kısıtlı ortamlarda etki daha büyük olabilir: Pakistan'da 60 hekimle yapılan bir çalışmada LLM desteği tanısal performansı %27,5 artırdı (Nature Health 2025) — yüksek gelirli ülke çalışmalarından belirgin biçimde daha yüksek bir etki.

Çalışma / SistemTasarımTemel sonuç
SCREEN (JAMA 2025)Küme RKÇ, n=60.05590 günlük mortalite aRR 0,85; ama code blue ve C. diff arttı
Epic ESM v2 (JAMA Netw Open 2026)Prospektif validasyon, n=227.091AUROC 0,82-0,92; PPV 0,13-0,26 (düşük), yüksek alarm yükü
Prediktif KKDS meta-analizi (2026)SR+meta, 50 çalışmaHavuzlanmış AUC 0,652; %76 retrospektif
Goh — tanı RKÇ (2024)RKÇ, 50 hekimHekime fayda yok; LLM tek başına +16 puan
Goh — yönetim RKÇ (2025)RKÇ, 92 hekimLLM destekli grup +%6,5
Otomasyon yanlılığı RKÇ (NEJM AI 2025)RKÇ, 44 hekimHatalı öneriyle doğruluk %84,9 → %73,3 (−14 puan)

Otomasyon yanlılığı: en ciddi ve en az çözülmüş risk

Belki de en uyarıcı bulgu, otomasyon yanlılığına ilişkindir. 2025'te yayımlanan bir RKÇ'de (NEJM AI), yapay zeka okuryazarlığı eğitimi almış 44 hekime 6 vinyet sunuldu ve bunların 3'üne kasıtlı olarak hatalı LLM önerileri yerleştirildi. Hatalı öneriye maruz kalan grupta tanısal doğruluk %84,9'dan %73,3'e düştü (düzeltilmiş 14,0 puanlık azalma); ilk-tercih doğruluğu ise %90,5'ten %76,1'e geriledi (−18,3 puan). Bunun anlamı sarsıcıdır: yapay zekayı eleştirel değerlendirme eğitimi almış ve danışma gönüllü olsa bile, model kendinden emin bir tonla yanlış olduğunda hekimler yanılgıya sürükleniyor. AI okuryazarlığı yardımcı oluyor, fakat otomasyon yanlılığına karşı bağışıklık sağlamıyor.

Düzenleyici manzara ve standart eksikliği

Düzenleyici çerçeve hızla olgunlaşıyor ama dengesiz. ABD'de yetkilendirilmiş yapay zeka etkin tıbbi cihaz sayısı Ağustos 2024'te yaklaşık 950 iken, Temmuz 2025 itibarıyla 1.250'yi aştı; bu cihazların büyük çoğunluğu radyoloji alanında. Çarpıcı bir boşluk ise şu: 1.016 yetkilendirmeyi inceleyen bir analizde cihazların %84,4'ü görüntü tabanlıyken, yalnızca 3 cihaz (%0,4) tablo/EHR tabanlıydı ve hiçbiri henüz LLM içermiyordu (npj Digital Medicine 2025). Yani sepsis skorları gibi EHR-tabanlı KKDS'lerin çoğu, FDA onayından ziyade "klinik karar desteği muafiyeti" altında işliyor — daha az düzenlenmiş bir alanda.

Uluslararası düzeyde, Dünya Sağlık Örgütü'nün Ocak 2024 tarihli büyük çok-modlu modeller kılavuzu bağımsız üçüncü-taraf denetimi ve zorunlu yayın-sonrası izlem dahil 40'tan fazla öneri getirdi. Avrupa Birliği Yapay Zeka Yasası ise tıbbi cihaz yapay zekasını "yüksek riskli" sınıfa koyuyor ve yüksek-risk yükümlülükleri 2026'da devreye giriyor. Buna rağmen alanın en büyük metodolojik açığı raporlama kalitesidir: değerlendirmeler DECIDE-AI kriterlerinin medyan yalnızca 3,5/17'sini karşılıyor. TRIPOD+AI ve DECIDE-AI gibi standartlara uyum, alanın güvenilirliği için kritik.

Görmezden gelinemeyecek bir teknik tehdit: veri kayması

Son olarak, dağıtılan modeller zamanla bozulur. Hasta demografisi, laboratuvar yöntemleri veya kodlama sistemleri değiştikçe (örneğin ICD-9'dan ICD-10'a geçiş) modelin performansı düşer; buna "veri kayması" (dataset shift) denir (Journal of Biomedical Informatics 2025). Bu, KKDS'lerin "kur ve unut" sistemleri olmadığını, sürekli izlem ve gerektiğinde yeniden eğitim gerektirdiğini gösterir. ESM v2'de AUROC'un kurumlar arasında 0,82-0,92 arasında değişmesi de aynı gerçeğin bir yansımasıdır: bir kurumda iyi çalışan model, başka bir kurumda yerel validasyon olmadan güvenilir değildir.

Sonuç

2025-2026 kanıtı, klinik karar destekte yapay zeka için ne kör bir iyimserliği ne de toptan bir reddi haklı çıkarıyor. Başarılan: Yapay zeka ve hatta basit kural tabanlı sistemler, süreç ölçütlerini (laktat, sıvı, antibiyotik zamanlaması) iyileştirebiliyor; en az bir büyük RKÇ (SCREEN) elektronik taramanın mortaliteyi düşürdüğünü gösterdi; LLM'ler izole testlerde yüksek tanısal doğruluk üretebiliyor ve yönetim kararına mütevazı katkı sağlayabiliyor. Başarılamayan: Prospektif, randomize, hasta-sonucu kanıtı hâlâ nadir; makine öğrenmesi tabanlı sepsis modellerinin klinik faydası gösterilemedi (düşük PPV, ağır alarm yükü); insan-AI iş birliği paradoksu çözülmedi; otomasyon yanlılığı, eğitimli hekimlerde bile doğruluğu 14 puan düşürebiliyor.

Pratik çıkarım nettir: bu sistemler hekimin yerine değil, dikkatli bir denetim altında yanında kullanılmalıdır. Her kurum kendi verisinde yerel validasyon yapmalı, alarm yükünü aktif yönetmeli, modellerin zamanla bozulmasını izlemeli ve standart raporlama çerçevelerine (TRIPOD+AI, DECIDE-AI) uymalıdır. Alanın asıl darboğazı artık daha yüksek AUC değil; prospektif klinik fayda kanıtı, güvenilir insan-AI iş birliği ve şeffaf, sürdürülebilir izlemdir. Yapay zeka klinikte gerçek bir yardımcı olma yolunda, ama bu yol henüz tamamlanmadı.

Kaynaklar

  1. Arabi YM, ve ark. Electronic Sepsis Screening Among Patients Admitted to Hospital Wards: A Stepped-Wedge Cluster Randomized Trial (SCREEN). JAMA. 2025;333(9):763-773. site
  2. Multicenter Prospective Validation of an Updated Proprietary Sepsis Prediction Model (Epic Sepsis Model v2). JAMA Network Open. 2026;9(2):e260181. site
  3. Ostermayer DG, ve ark. External validation of the Epic sepsis predictive model in 2 county emergency departments. JAMIA Open. 2024;7(4):ooae133. site
  4. Wong A, ve ark. External Validation of a Widely Implemented Proprietary Sepsis Prediction Model in Hospitalized Patients. JAMA Internal Medicine. 2021;181(8):1065-1070. site
  5. Waldock WJ, ve ark. Performance of predictive AI-based clinical decision support systems across clinical domains: a systematic review and meta-analysis. PLOS Digital Health. 2026;5(3):e0001310. site
  6. Effect of clinical decision support systems on clinical outcomes in acute kidney injury: a systematic review and meta-analysis. Renal Failure. 2024. site
  7. Goh E, ve ark. Large Language Model Influence on Diagnostic Reasoning: A Randomized Clinical Trial. JAMA Network Open. 2024;7(10):e2440969. site
  8. Goh E, ve ark. GPT-4 assistance for improvement of physician management reasoning: a randomized clinical trial. Nature Medicine. 2025. site
  9. Automation Bias in Large Language Model–Assisted Diagnostic Reasoning Among Physicians Trained in AI Literacy: A Randomized Clinical Trial. NEJM AI. 2025. site
  10. Singh K, Lotter W, ve ark. How AI is used in FDA-authorized medical devices: a taxonomy across 1,016 authorizations. npj Digital Medicine. 2025;8:388. site
  11. World Health Organization. Ethics and governance of artificial intelligence for health: guidance on large multi-modal models. WHO. 2024. site
  12. Override rate of clinical decision support drug-drug interaction alerts: a systematic review and meta-analysis. Health Informatics Journal. 2024. site
Bilgilendirme: Bu içerik yalnızca eğitim ve bilgilendirme amaçlıdır; tanı veya tedavi kararı yerine geçmez. Klinik karar destek sistemleri hekimin nihai kararını desteklemek için tasarlanır; uyarılar her zaman klinik bağlamda değerlendirilmelidir.