Tıbbi Büyük Dil Modelleri (LLM): Sınavı Geçti, Kliniği Kazandı mı?

Tıbbi büyük dil modelleri sınav benchmark'larında uzman düzeyini aştı; ancak gerçek hekim-yapay zeka iş birliğinin ölçülen faydası beklenenden çok daha mütevazı ve tutarsız. Güncel kanıtı dürüstçe okuyoruz.

Yazan: Op. Dr. Cem Akaltun · Güncellendi · ~12 dk okuma Klinik AI & Tıbbi LLM

Birkaç yıl önce tıbbi yapay zeka tartışması basit bir soru etrafında dönüyordu: Bir dil modeli ABD tabip sınavını (USMLE) geçebilir mi? Bugün bu soru fazlasıyla geride kaldı. Yeni nesil modeller bu sınavlarda yalnızca geçmekle kalmıyor, çoğu zaman ortalama bir hekimden daha yüksek puan alıyor. Asıl ilginç soru ise artık şu: Sınavda parlayan bir model, gerçek bir hastanın karşısında ya da bir hekimin yanında çalışırken aynı performansı gösteriyor mu? 2025-2026 döneminin en önemli kanıtları, bu iki dünyanın sandığımızdan çok daha farklı olduğunu gösteriyor.

Bu yazıda büyük dil modellerinin (LLM) tıptaki güncel durumunu abartısız bir biçimde ele alıyoruz: neyi gerçekten başardılar, hangi iddialar kanıtlanmadı ve klinik pratikte bizi bekleyen tuzaklar neler? Çelişen bulguları yan yana koyup, tek bir kaynağı "kesin doğru" ilan etmeden değerlendiriyoruz.

Benchmark'larda yeni nesil: GPT-5, Med-Gemini ve açık modeller

Standart sınavlar tarafında ilerleme çarpıcı oldu. Google'ın Med-Gemini modeli, USMLE tarzı MedQA testinde belirsizlik güdümlü web arama stratejisiyle %91,1 doğruluğa ulaşarak önceki en iyi sonucu (Med-PaLM 2) geçti. Buna karşılık aynı ekibin kritik bir dürüstlük notu var: MedQA sorularını yeniden etiketlediklerinde, soruların %7,4'ünü değerlendirmeye uygunsuz buldular — eksik bilgi içeren ya da birden fazla doğru yoruma açık sorular. Yani %91 ile %100 arasındaki mesafenin bir kısmı modelin değil, testin sınırından kaynaklanıyor.

Açık kaynak tarafında Google'ın 2025'te yayımladığı MedGemma ailesi öne çıkıyor; 27 milyar parametreli metin modeli MedQA'da %87,7 elde etti. Daha somut bir bulgu: Kör olmayan bir değerlendirmede, MedGemma-4B'nin ürettiği akciğer grafisi raporlarının %81'i, ABD board sertifikalı bir radyolog tarafından "benzer hasta yönetimine yol açacak doğrulukta" bulundu.

OpenAI cephesinde ise odak, eski USMLE testlerinden gerçekçi senaryolara kaydı. HealthBench — 26 uzmanlık ve 49 dilde, 5.000 hekim küratörlü senaryodan oluşan bir değerlendirme — bu yönelimin simgesi. Bu testin en zor alt kümesinde (HealthBench Hard) GPT-5'in düşünme modu %46,2 puan aldı; bu, OpenAI o3'ün %31,6'sına göre belirgin bir sıçramaydı. Üstelik OpenAI, zorlu konuşmalarda halüsinasyonların o3'e kıyasla yaklaşık 8 kat, acil durum senaryolarındaki hataların ise GPT-4o'ya göre 50 kattan fazla azaldığını bildirdi.

Yeni paradigma: Konuşan tanı koyucu yapay zeka

Statik bir soruyu cevaplamakla, bir hastayla konuşup anamnez almak çok farklı şeylerdir. Google'ın AMIE sistemi bu ikinci yeteneği hedefliyor. Nature'da 2025'te yayımlanan randomize, çift kör çalışmada AMIE, 159 vaka senaryosunda 20 birinci basamak hekimiyle karşılaştırıldı; uzman hekimlerin değerlendirdiği 32 eksenin 30'unda ve hasta aktörlerin değerlendirdiği 26 eksenin 25'inde en az hekimler kadar iyi ya da daha iyi bulundu, tanısal doğruluğu da daha yüksekti.

2026 başında Nature Medicine'da yayımlanan kardiyoloji çalışması ise daha gerçekçi bir kuruluma sahip: Olası herediter kardiyomiyopati şüpheli 107 gerçek vaka, EKG, ekokardiyografi ve kardiyak MR gibi ham verilerle 9 genel kardiyoloğa sunuldu. Alt-uzman değerlendiriciler, AMIE destekli değerlendirmeleri %46,7, yalnızca kardiyolog değerlendirmelerini ise %32,7 oranında tercih etti (P=0,02). Bu, modelin uzmanın yerini aldığını değil, uzmanı destekleyebildiğini gösteren erken ama umut verici bir kanıt.

En kritik soru: Hekim + yapay zeka gerçekten daha mı iyi?

Buraya kadar tablo parlak görünüyor. Ancak 2025-2026'nın en önemli bulgusu tam da burada beklentiyi sarsıyor. npj Digital Medicine'da 2026'da yayımlanan, 10 randomize çalışmayı birleştiren sistematik derleme ve meta-analiz çarpıcı bir sonuca varıyor: Hekim ile yapay zekanın birlikte çalıştığı düzenlerin, güçlü bir yapay zekanın tek başına performansını evrensel olarak geçemediğini gösteriyor. Tanısal doğrulukta birleştirilmiş etki anlamlı çıkmadı; kompozit kalite skorlarında küçük bir iyileşme görülse de öngörü aralığı o kadar genişti ki gerçek dünyada zarar olasılığını bile dışlamıyordu. Hatta 106 çalışmayı kapsayan daha geniş bir analiz, insan-yapay zeka ekiplerinin ortalamada en iyi tek ajandan daha kötü sonuç verdiğini buldu.

İŞ BİRLİĞİ PARADOKSU

Bir yapay zeka tek başına mükemmel olabilir; bir hekim tek başına yetkindir; ama ikisini bir araya getirmek otomatik olarak en iyi sonucu vermiyor. Sorun çoğu zaman modelde değil, insan-yapay zeka etkileşiminin nasıl tasarlandığında. Goh ve arkadaşlarının JAMA Network Open'da yayımlanan randomize çalışmasında, GPT-4 erişimi olan hekim grubu (%76) ile kontrol grubu (%74) arasında anlamlı fark yokken (P=0,60), GPT-4 yalnız başına her iki hekim grubundan da yüksek puan aldı.

Gerçek dünyadan iyi haber: Penda Health

Tablonun olumlu tarafı da var ve bu kez simülasyon değil, sahadan geliyor. Kenya'da Penda Health klinikleri ile OpenAI'ın yürüttüğü "AI Consult" çalışması, 2025'in Ocak-Nisan döneminde Nairobi'deki 15 klinikte yaklaşık 39.849 hasta ziyaretini kapsadı. Yapay zekanın arka planda sessiz bir asistan olarak (yeşil/sarı/kırmızı uyarılarla) çalıştığı bu kurulumda, yapay zeka destekli ziyaretlerde tanısal hatalar %16, tedavi hataları %13, anamnez hataları ise %32 azaldı. Aradaki fark, modelin hekimin yerine geçmesi değil; hekimin akışını bozmadan, kritik anlarda uyarması. Yine de bu çalışmanın hakem değerlendirmeli bir dergide değil, kurum raporu ve ön baskı (preprint) olarak yayımlandığını not etmek gerekir.

Klinik dökümantasyon: En hızlı yayılan kullanım

LLM'lerin en sessiz ama en yaygın klinik uygulaması, hasta görüşmesini otomatik nota döken "ortam dinleyen" (ambient) asistanlar oldu. 2024 itibarıyla ABD hastanelerinin %31,5'i elektronik sağlık kaydına entegre üretken yapay zeka kullanmaya başlamıştı; piyasada 100'den fazla araç (Abridge, DAX Copilot, Suki, Nabla gibi) bulunuyor. Bir validasyon çalışmasında bu araçların not üretiminde %1,47 halüsinasyon ve %3,45 atlama (eksik bilgi) oranı ölçüldü. Önemli bir düzenleyici boşluk şu: Bu araçların hiçbiri FDA onaylı tıbbi cihaz değil; klinik karar destek muafiyetiyle çalışıyorlar.

Sınırlar ve dürüst çerçeve

Övgü dolu manşetlerin gölgede bıraktığı bulgular, klinik kullanım için en az başarılar kadar önemli:

Sınav skoru ≠ klinik yeterlilik. CRAFT-MD değerlendirmesinde, GPT-4'ün doğruluğu hazır vaka tariflerinde %82 iken, hastayla dinamik bir konuşma simülasyonuna geçildiğinde %62,7'ye düştü. Bilgiyi kendi başına toplamak zorunda kalan model belirgin biçimde zayıfladı.

LLM'ler hâlâ uzman hekimin gerisinde olabiliyor. JMIR Medical Informatics'te yayımlanan, 30 çalışma ve 4.762 vakayı kapsayan meta-analizde klinik profesyoneller genel olarak LLM'leri geçti; ancak heterojenlik çok yüksekti (I²=%77) ve çalışmaların üçte ikisi yüksek bias riski taşıyordu. Bu da kesin bir hüküm vermeyi zorlaştırıyor.

Beceri yitimi (de-skilling) somut bir risk. The Lancet Gastroenterology & Hepatology'de 2025'te yayımlanan çok merkezli gözlemsel çalışma, yapay zeka destekli kolonoskopiye düzenli maruz kalan endoskopistlerde, yapay zeka olmadan adenom saptama oranının %28,4'ten %22,4'e düştüğünü (yaklaşık %20 göreli azalma) gösterdi. Otomasyona aşırı güvenin ölçülmüş bir bedeli bu.

Halüsinasyon bitmedi. Göreve göre değişmekle birlikte, bazı dökümantasyon görevlerinde faktüel hata oranları %26-36'ya kadar çıkabiliyor; MedHallu gibi özel benchmark'larda en iyi modeller bile "zor" tıbbi halüsinasyonları saptamakta zorlanıyor.

BulguÖlçümKaynak / Çalışma tipi
Med-Gemini, MedQA doğruluğu%91,1 (sorulardan %7,4'ü etiket sorunlu)arXiv, ürün raporu
GPT-5, HealthBench Hard%46,2 (o3: %31,6)OpenAI benchmark
AMIE kardiyolojide tercih edilme%46,7 vs %32,7 (P=0,02)Nature Medicine, RKÇ (107 vaka)
Hekim + GPT-4 vs hekim yalnız%76 vs %74 (P=0,60; fark yok)JAMA Netw Open, RKÇ
GPT-4: statik vaka → dinamik konuşma%82 → %62,7CRAFT-MD değerlendirmesi
Penda Health, tanısal hata azalması%16 (tedavi %13, anamnez %32)Gerçek dünya, 39.849 ziyaret
Kolonoskopide de-skillingAdenom saptama %28,4 → %22,4Lancet Gastro, gözlemsel

Düzenleme ve yönetişim

Düzenleyici çerçeve hızla şekilleniyor. FDA'nın yapay zeka etkin tıbbi cihaz listesi Ağustos 2024'te 950 iken Temmuz 2025'te 1.250'yi aştı. 2025'te Aidoc'un CARE1 modeli, FDA onayı alan ilk foundation-model temelli klinik yapay zeka oldu. Dünya Sağlık Örgütü, Ocak 2024'te büyük çok-modlu modeller için 40'tan fazla öneri içeren bir etik ve yönetişim kılavuzu yayımladı; Avrupa Birliği'nin Yapay Zeka Yasası ise tıbbi uygulamaların çoğunu "yüksek risk" sınıfına yerleştiriyor. Yine de üretken yapay zekaya özgü standartlar — özellikle modellerin sürekli güncellendiği bir ortamda — hâlâ olgunlaşma aşamasında.

Sonuç

Tıbbi büyük dil modelleri için 2025-2026 dönemi, "süpermen doktor" anlatısından daha olgun ve daha alçakgönüllü bir kanıt temeline geçişin dönemi oldu. Gerçekten başarılanlar var: Modeller standart sınavlarda ve kontrollü vinyetlerde uzman düzeyine ulaştı (Med-Gemini %91,1, AMIE'nin eksenlerin büyük çoğunluğunda eşit/üstün performansı); Penda Health gibi gerçek kurulumlarda ölçülebilir hata azalması sağlandı; dökümantasyon iş yükü hafifledi. Ama kanıtlanmayanlar da en az bunlar kadar öğretici: Sınav skoru klinik yeterliliğin garantisi değil, hekim ile yapay zekayı birleştirmek otomatik olarak daha iyi sonuç vermiyor, halüsinasyon ve beceri yitimi ölçülmüş gerçek risklerdir ve kanıtın çoğu hâlâ "klinik-yakını" simülasyondan geliyor, gerçek hasta başından değil.

Pratik çıkarım nettir: LLM'ler bugün, hekimi destekleyen ama yerini almayan; arka planda sessizce çalışan, çıktısı daima bir uzman tarafından doğrulanan araçlar olarak en yüksek değeri üretiyor. Bu alanın asıl mühendislik sorusu artık "model ne kadar zeki?" değil, "insan ile yapay zeka birlikte nasıl güvenle çalışır?" sorusudur. Cevap, modelin parametre sayısında değil, klinik akışın ve denetimin tasarımında saklı.

Kaynaklar

  1. Bedi S, ve ark. Human–large language model collaboration in clinical medicine: a systematic review and meta-analysis. npj Digital Medicine. 2026. site
  2. Goh E, ve ark. Large Language Model Influence on Diagnostic Reasoning: A Randomized Clinical Trial. JAMA Network Open. 2024;7(10):e2440969. site
  3. McDuff D, ve ark. Towards conversational diagnostic artificial intelligence (AMIE). Nature. 2025. site
  4. Google DeepMind. A large language model for complex cardiology care (AMIE). Nature Medicine. 2026. site
  5. Karşılaştırmalı meta-analiz. Comparing Diagnostic Accuracy of Clinical Professionals and Large Language Models. JMIR Medical Informatics. 2025. site
  6. Saab K, ve ark. Capabilities of Gemini Models in Medicine (Med-Gemini). arXiv 2404.18416. 2024. site
  7. Google Research. MedGemma: our most capable open models for health AI development. Google Research Blog. 2025. site
  8. OpenAI. Introducing HealthBench (GPT-5 HealthBench Hard). OpenAI. 2025. site
  9. Korom R, ve ark. AI-based Clinical Decision Support for Primary Care: A Real-World Study (Penda Health). arXiv 2507.16947. 2025. site
  10. Budzyń K, ve ark. Endoscopist deskilling risk after exposure to artificial intelligence in colonoscopy. The Lancet Gastroenterology & Hepatology. 2025. site
  11. Dünya Sağlık Örgütü (WHO). AI ethics and governance guidance for large multi-modal models. WHO News. 2024. site
  12. Pandya A, ve ark. MedHallu: A Benchmark for Detecting Medical Hallucinations in LLMs. arXiv 2502.14302. 2025. site
Bilgilendirme: Bu içerik yalnızca eğitim ve bilgilendirme amaçlıdır; tanı veya tedavi kararı yerine geçmez. Büyük dil modellerinin tıbbi çıktıları her zaman yetkin bir hekim tarafından doğrulanmalı; bu modeller otonom klinik karar aracı olarak kullanılmamalıdır.