Sağlıkta Yapay Zekâ Etiği ve Algoritmik Önyargı: 2026 İtibarıyla Kanıt, Düzenleme ve Sınırlar

Sağlıkta yapay zekâ hızla yayılırken algoritmik önyargı gerçek ve ölçülebilir bir sorun olarak öne çıkıyor; bu derleme klasik risk-skoru, cihaz ve üretken model kanıtını dengeli biçimde, düzenleyici çerçevelerle birlikte ele alıyor.

Op. Dr. Cem Akaltun Güncellendi Etik Algoritmik Önyargı Veri Mahremiyeti

Yapay zekâ, tıbbın günlük pratiğine artık bir gelecek vaadi olarak değil, fiilen kullanılan bir araç olarak girdi. 2026 başı itibarıyla ABD Gıda ve İlaç Dairesi (FDA) tarafından yetkilendirilen yapay zekâ etkin tıbbi cihaz sayısı 1.350'yi aştı ve bunların büyük çoğunluğu radyoloji alanında. Bu hızlı yayılım, aynı hızla bir soruyu da gündeme taşıyor: Bu sistemler herkese eşit fayda sağlıyor mu, yoksa mevcut sağlık eşitsizliklerini ölçeklendirip sabitliyor mu? Algoritmik önyargı, artık teorik bir kaygı değil; klasik risk skorundan tıbbi cihaza, oradan büyük dil modellerine kadar tekrar tekrar belgelenmiş, ölçülebilir bir olgudur. Bu yazı, neyin kanıtlandığını ve neyin hâlâ belirsiz kaldığını abartısız biçimde ayırmayı amaçlıyor.

Algoritmik Önyargı Nedir ve Nereden Kaynaklanır?

Algoritmik önyargı, bir modelin belirli demografik gruplar (ırk, etnisite, cinsiyet, yaş, sosyoekonomik durum) için sistematik olarak farklı ve genellikle daha kötü sonuçlar üretmesidir. Kaynağı çoğu zaman modelin matematiğinde değil, kendisine verilen veride ve tanımlarda gizlidir. En öğretici örnek, Obermeyer ve arkadaşlarının 2019'da Science dergisinde yayımladığı çalışmadır. ABD'de yaklaşık 200 milyon kişiye uygulanan bir nüfus-sağlığı risk algoritması, hastalık yükünü tahmin etmek için doğrudan sağlık durumunu değil, sağlık harcamasını proxy (vekil) etiket olarak kullanıyordu. Siyah hastalara tarihsel olarak daha az sağlık harcaması yapıldığı için, algoritma aynı hastalık düzeyindeki Siyah hastaları sistematik biçimde "daha sağlıklı" gösterdi ve ek bakım programlarına daha az yönlendirdi.

Bu çalışmanın asıl önemi, sorunu yalnız teşhis etmesi değil, çözülebilir olduğunu da göstermesidir. Etiket, harcama yerine doğrudan hastalık yüküne göre yeniden tanımlandığında ırksal önyargı %84 oranında azaldı. Bulgu, sağlık verisi firması Optum ile 3,7 milyon kişilik bağımsız bir kümede tekrarlandı. Yani önyargının kaynağı çoğu zaman "kötü niyetli kod" değil, modele neyin öğretildiğine dair gözden kaçan bir tasarım kararıdır.

Cihaz Düzeyinde Önyargı: Pulse Oksimetre Örneği

Önyargı yalnızca karmaşık makine öğrenmesi modellerinde değil, basit ölçüm cihazlarında da yerleşik olabilir. Sjoding ve arkadaşlarının 2020'de New England Journal of Medicine'de yayımladığı çalışma, pulse oksimetrenin koyu tenli hastalarda sistematik hata yaptığını gösterdi. Cihaz oksijen satürasyonunu %92–96 gösterirken arteriyel kan gazında gerçek değerin %88'in altında olduğu "gizli hipoksemi", Siyah hastalarda beyaz hastalara göre yaklaşık üç kat daha sık görüldü. Çok merkezli kohortta bu oran Siyahlarda %17'ye karşı beyazlarda %6,2, Michigan kohortunda ise %11,7'ye karşı %3,6 idi.

Bu, hem bir uyarı hem de düzenleyici bir eylemin tetikleyicisi oldu. FDA, Ocak 2025'te yayımladığı pulse oksimetre taslak kılavuzunda, üreticilerden farklı cilt tonlarında klinik veri toplamasını ve eşit performans gösteren cihazların kamuya açık bir listede yayımlanmasını önerdi. Bir ölçüm aracındaki ırksal farkın somut bir düzenleyici yanıt doğurması, alanın olgunlaştığının işaretidir.

Temsil Eksikliği Belgelenmiştir

FDA onaylı 692 yapay zekâ etkin tıbbi cihazın incelendiği bir kapsam derlemesinde, cihazların yalnızca %3,6'sı ırk/etnisite verisini, %1'den azı ise sosyoekonomik veriyi raporladı. Demografik kırılım bildirilmeyen bir cihazın gruplar arası adil çalıştığını kanıtlamak mümkün değildir.

Üretken Yapay Zekâ Dönemi: Kanıt Çift Yönlü

2024 sonrası alanı büyük dil modelleri (LLM) kökten dönüştürdü ve bu modellerin önyargısı en tartışmalı başlık hâline geldi. Burada dürüst olmak gerekir: kanıt tek yönlü değildir. Görev tipine göre sonuçlar belirgin biçimde farklılaşıyor; bu nedenle çelişen bulguları yan yana sunmak şarttır.

Önyargı saptayan kanıt güçlüdür. Hanna ve arkadaşlarının International Journal for Equity in Health'te yayımladığı 2025 tarihli sistematik derleme, 2018–2024 arası 24 çalışmayı inceledi ve bunların %91,7'sinde (22 çalışma) LLM'lerde önyargı saptadı; cinsiyet önyargısı çalışmaların %93,7'sinde, ırksal/etnik önyargı %90,9'unda görüldü. Zack ve arkadaşlarının 2024'te Lancet Digital Health'te yayımladığı değerlendirmede GPT-4, hastalıkların demografik dağılımını doğru modellemedi, kalıp-yargısal klinik vinyetler üretti ve alt-temsil edilen ırksal gruplara ileri görüntülemeyi daha düşük oranda önerdi. Psikiyatri alanında npj Digital Medicine'de 2025'te yayımlanan bir karşılaştırmada (Claude, ChatGPT, Gemini ve yerel bir LLaMA varyantı), hasta ırkı belirtildiğinde modeller sıklıkla daha düşük nitelikli tedavi önerdi.

Ancak aynı dönemde önyargı göstermeyen nitelikli çalışmalar da yayımlandı. Young ve arkadaşlarının 2024'te Pain dergisinde yayımladığı çalışmada, her ırk-cinsiyet kombinasyonu için kurgulanan 480 olguda ırk, etnisite ve cinsiyet GPT-4 ile Gemini'nin opioid önerilerini etkilemedi. Fischetti ve arkadaşlarının 2026'da Journal of Emergency Medicine'de yayımladığı acil servis ağrı yönetimi çalışmasında da ırk, dil ve sosyoekonomik durum önerileri çoğunlukla değiştirmedi. En çarpıcı denge örneği onkolojiden geldi: Roach ve arkadaşlarının 2025'te JCO Clinical Cancer Informatics'te yayımladığı, beş randomize Faz III çalışmadan 5.708 prostat kanseri hastasını kapsayan analizde, çok-kipli bir yapay zekâ algoritması hem Afrika kökenli (n=948) hem non-Afrika alt-gruplarında benzer güçte prognostik sinyal verdi ve algoritmik önyargı kanıtı bulunmadı.

Çalışma / KaynakGörev tipiÖnyargı bulgusu
Hanna ve ark. 2025 (sistematik derleme)Karma (24 çalışma)%91,7'sinde önyargı saptandı
Zack ve ark. 2024 (GPT-4)Klinik vinyet / öneriÖnyargı var
npj Dig. Med. 2025 (psikiyatri)Tedavi önerisiTedavide önyargı; tanıda minimal
Young ve ark. 2024 (opioid)Yapılandırılmış öneriÖnyargı yok
Fischetti ve ark. 2026 (acil ağrı)Yapılandırılmış öneriBüyük ölçüde önyargı yok
Roach ve ark. 2025 (prostat MMAI)Prognostik algoritmaÖnyargı yok

Çıkarım nettir: Serbest-metin ve üretken görevlerde (klinik vinyet, taburcu talimatı, rapor üretimi) önyargı tutarlı biçimde ortaya çıkarken, yapılandırılmış tanı ve öneri görevlerinde sonuçlar karışıktır. Belirleyici olan, modelin markası kadar görevin tasarımı ve istem (prompt) mühendisliğidir.

Klinik Konuşlandırmanın Sınırları: Genelleme ve Dağılım Kayması

Önyargı tek tehlike değildir; bir modelin geliştirici ortamında iyi çalışıp gerçek hastanede başarısız olması da kritik bir risktir. Bunun en bilinen örneği Epic Sepsis Model'dir. Geliştirici 0,76–0,83 aralığında bir AUC bildirirken, bağımsız dış validasyonlarda performans AUC ~0,63'e düştü; iki ilçe acil servisini kapsayan 2023 tarihli bir değerlendirmede modelin duyarlılığı yalnız %14,7, pozitif kestirim değeri ise %7,6 olarak ölçüldü. Geliştiricinin sunduğu metriklere körü körüne güvenmenin ne kadar yanıltıcı olabileceğini bundan iyi anlatan bir örnek azdır.

Buna bir de dağılım kayması (dataset shift) eklenir. Bir model onaylandığı andaki performansını zamanla koruyamayabilir; hastalık tanımları, kodlama sistemleri (örneğin ICD-9'dan ICD-10'a geçiş), klinik pratik ve hasta demografisi değiştikçe model "obsolet" hâle gelebilir. Bu nedenle statik bir doğrulama yetersizdir; konuşlandırma sonrası sürekli ve proaktif izleme gereklidir.

Düzenleyici Çerçeve: Önyargı Artık Bir Gereklilik

2024–2025 dönemi, önyargıyı iyi niyetli bir temenni olmaktan çıkarıp somut bir düzenleyici yükümlülüğe dönüştürdü. FDA, 7 Ocak 2025'te yayımladığı yaşam döngüsü yönetimi taslak kılavuzunda, üreticilerden cihazın tüm ilgili demografik gruplara benzer fayda sağladığını kanıtlamasını, veri kökenini, önyargı analizini ve güncellemeler için bir Önceden Belirlenmiş Değişiklik Kontrol Planı (PCCP) sunmasını istiyor. Dünya Sağlık Örgütü (WHO), 18 Ocak 2024'te yayımladığı büyük çok-kipli modeller (LMM) kılavuzunda 40'tan fazla öneri getirdi ve kullanıcı tipine göre ayrıştırılmış (disaggregated) yayın sonrası bağımsız denetim zorunluluğunu vurguladı.

Avrupa Birliği Yapay Zekâ Yasası (EU AI Act) ise tıbbi yapay zekâyı doğrudan kapsama aldı: MDR/IVDR kapsamındaki tıbbi cihaz yapay zekâları otomatik olarak "yüksek riskli" sınıfa girdi, şeffaflık kuralları 2 Ağustos 2026'da yürürlüğe giriyor; gömülü yüksek riskli tıbbi cihaz yapay zekâları için tam uyum tarihi ise sonraki yıllara ertelendi. Adalet metriği seçiminin teknik değil normatif bir karar olduğu da giderek netleşiyor: Grup adaleti ile bireysel adalet matematiksel olarak aynı anda sağlanamayabilir; "hangi adalet" sorusunun yanıtı politik ve etik bir tercihtir.

Dürüst Bir Bilanço: Ne Biliyoruz, Ne Bilmiyoruz?

Kesin olan şudur: Algoritmik önyargı gerçektir, ölçülebilir ve tekrarlanabilir bir bulgudur; proxy etiket seçimi başlıca yapısal kaynağıdır ve etiket düzeltmesi gibi müdahaleler büyük iyileşme sağlayabilir. Veri temsil eksikliği belgelenmiştir ve düzenleyiciler artık somut kanıt talep etmektedir.

Belirsiz kalan da en az bunun kadar önemlidir. LLM önyargısının gerçek hasta sonuçlarına (mortalite, morbidite) etkisi henüz büyük ölçüde model-değerlendirme ve vinyet düzeyinde kalmıştır; hasta sonucuna dayalı randomize kanıt nadirdir. Önyargı azaltma stratejilerinin standart, valide ve kalıcı etkinliği gösterilememiştir. Üstelik bir metodolojik uyarı gözden kaçırılmamalıdır: yayın yanlılığı. Negatif (önyargı bulmayan) sonuçlar daha az yayımlandığı için, literatürün "önyargı her yerde" izlenimi gerçekte abartılı olabilir. Bu, sorunu küçümsemek değil, kanıta sadık kalmaktır.

Sonuç

Sağlıkta yapay zekânın önyargı sorunu, ne göz ardı edilebilecek bir ayrıntı ne de teknolojinin tümüyle reddini gerektiren bir kusurdur. Kanıt, dengeli okunduğunda iki şeyi birden söylüyor: Önyargı, kötü tasarlanmış etiketler ve eksik temsil edilen verilerle gerçekten oluşuyor; ancak temsil edici veriyle eğitilmiş ve dikkatle tasarlanmış araçlar gruplar arasında adil de çalışabiliyor. Sorumlu yol, ne körü körüne benimseme ne de toptan reddetmedir. Demografik kırılımda performans kanıtı talep etmek, dış validasyon ve konuşlandırma sonrası izlemeyi standart hâline getirmek, çelişen kanıtı dürüstçe yan yana koymak ve nihai kararı her zaman hekimin klinik muhakemesine bırakmak — sağlıkta yapay zekânın eşitsizliği büyüten değil azaltan bir güç olabilmesi bu disipline bağlıdır. Araç güçlüdür; onu adil kılan, kullanan kişinin gösterdiği özendir.

Bilgilendirme: Bu içerik genel bilgilendirme ve eğitim amaçlıdır. Sağlık yapay zekası uygulamalarının etik ve hukuki boyutları ülkeye, kuruma ve yürürlükteki mevzuata göre değişir; kesin yükümlülükler için ilgili düzenleyici otorite ve hukuk danışmanına başvurulmalıdır.

Kaynaklar

  1. Obermeyer Z, Powers B, Vogeli C, Mullainathan S. Dissecting racial bias in an algorithm used to manage the health of populations. Science. 2019. site
  2. Sjoding MW, Dickson RP, Iwashyna TJ, ve ark. Racial Bias in Pulse Oximetry Measurement. New England Journal of Medicine. 2020. site
  3. Zack T, Lehman E, Suzgun M, ve ark. Assessing the potential of GPT-4 to perpetuate racial and gender biases in health care. The Lancet Digital Health. 2024. site
  4. Hanna M, ve ark. Evaluating and addressing demographic disparities in medical large language models: a systematic review. International Journal for Equity in Health. 2025. site
  5. Bouguettaya A, Aboujaoude E, ve ark. Racial bias in AI-mediated psychiatric diagnosis and treatment. npj Digital Medicine. 2025. site
  6. Young CC, Succi MD, ve ark. Racial, ethnic, and sex bias in large language model opioid recommendations for pain management. Pain. 2024. site
  7. Roach M, ve ark. Assessing Algorithmic Fairness With a Multimodal AI Model in Men of African and Non-African Origin on NRG Oncology Prostate Cancer Phase III Trials. JCO Clinical Cancer Informatics. 2025. site
  8. Dünya Sağlık Örgütü (WHO). Ethics and governance of AI for health: Large multi-modal models. WHO Guidance. 2024. site
  9. U.S. FDA. Artificial Intelligence-Enabled Device Software Functions: Lifecycle Management and Marketing Submission Recommendations (Draft Guidance). FDA. 2025. site
  10. npj Digital Medicine. Health Disparities and Reporting Gaps in AI-Enabled Medical Devices: A Scoping Review of 692 FDA Approvals. npj Digital Medicine. 2024. site
  11. Anderson JW, Visweswaran S. Algorithmic individual fairness and healthcare: a scoping review. JAMIA Open. 2024. site
  12. Djiberou Mahamadou AJ, Trotsyuk AA. Revisiting Technical Bias Mitigation Strategies. Annual Review of Biomedical Data Science. 2025. site