Üretken yapay zekâ (AI) sistemlerinin klinikte güvenli biçimde kullanılabilmesi için gereken muhakeme becerilerine henüz sahip olmadığı ortaya çıktı. Kapsamlı bir araştırma, büyük dil modellerinin (LLM) tanı sürecinin kritik aşamasında ciddi sorunlar yaşadığını gözler önüne serdi.
Boston merkezli, ABD’nin en büyük sağlık sistemlerinden biri kabul edilen kâr amacı gütmeyen bir hastane ve araştırma ağı olan Mass General Brigham’da görevli ekibin bulguları, yapay zekâ sohbet botlarının kapsamlı klinik veri sunulduğunda tanı doğruluğunu artırabildiğini ancak vakaların yüzde 80’inden fazlasında uygun bir ayırıcı tanı üretmeyi başaramadığını ortaya koydu.
Açık erişimli tıp dergisi JAMA Network Open’da yayımlanan çalışmanın sonuçları, büyük dil modellerinin klinik kullanım için gereken muhakeme yetkinliklerinin gerisinde kaldığını gösterdi.
Çalışmanın ortak yazarı Marc Succi, “Süregelen iyileştirmelere rağmen, hazır paket büyük dil modelleri gözetimsiz şekilde klinik düzeyde devreye sokulmaya hazır değil.” dedi.
Succi, klinik muhakemenin merkezinde yer alan ve kendisinin “tıbbın sanatı” olarak nitelendirdiği ayırıcı tanıyı yapay zekânın henüz taklit edemediğini vurguladı.
Ayırıcı tanı, sağlık profesyonellerinin benzer belirtiler gösteren diğer olgulardan ayırt ederek bir hastalığı saptamasında ilk adımı oluşturuyor.
Modeller nasıl test edildi?
Araştırmacılar, Claude, DeepSeek, Gemini, GPT ve Grok’un en güncel sürümlerinin aralarında yer aldığı toplam 21 büyük dil modelini mercek altına aldı.
Modeller, PrIME-LLM adıyla geliştirilen yeni bir değerlendirme aracı kullanılarak 29 standartlaştırılmış klinik vaka senaryosu üzerinden sınandı. Araç; ilk tanının konulması, uygun tetkiklerin istenmesi, kesin tanıya ulaşılması ve tedavinin planlanması gibi klinik muhakemenin dört farklı aşamasında modellerin performansını ölçüyor.
Ekip, klinik sürecin gerçek işleyişini simüle etmek için modellere önce hastanın yaşı, cinsiyeti ve belirtileri gibi temel bilgileri sundu; ardından fizik muayene bulguları ve laboratuvar sonuçları kademeli olarak eklendi.
Gerçek klinik pratikte bir sonraki aşamaya geçilebilmesi için ayırıcı tanı kritik öneme sahip. Ancak araştırma kapsamında, modeller ayırıcı tanı aşamasında başarısız olsalar dahi ilerlemelerine izin verildi ve süreci devam ettirebilmeleri için ek veriler sağlandı.
Sonuçlar, dil modellerinin kesin tanı aşamasında yüksek doğruluk oranlarına ulaştığını; buna karşın ayırıcı tanı üretmede ve belirsiz durumlarla baş etmede zayıf kaldığını ortaya koydu.
Çalışmanın yazarlarından Arya Rao, LLM’lerin adım adım test edilmesinin onları birer sınav çözücü olmaktan çıkararak gerçek bir doktorun yerine koyduğunu belirtti. Rao, modellerin tüm veriler elde edildiğinde kesin tanıda oldukça başarılı sonuçlar verdiğini, ancak bilginin sınırlı olduğu başlangıç aşamalarında belirgin biçimde zorlandığını söyledi.
Araştırmacıların tespitine göre tüm modeller, vakaların yüzde 80’inden fazlasında uygun bir ayırıcı tanı oluşturmayı başaramadı. Kesin tanı başarı oranı ise modele bağlı olarak yaklaşık yüzde 60 ile yüzde 90’ın üzeri arasında değişti.
Modellerin büyük bölümü, metne ek olarak laboratuvar sonuçları ve görüntüleme verilerinin sunulmasıyla doğruluk oranlarını yukarı çekti. Performans tablosunda Grok 4, GPT-5, GPT-4.5, Claude 4.5 Opus, Gemini 3.0 Flash ve Gemini 3.0 Pro, en başarılı modeller arasında yer aldı.
Sağlık profesyonellerinin rolü hâlâ belirleyici
Yazarlar, sürümler arasındaki iyileştirmelere ve muhakemeye yönelik optimizasyonlara rağmen, hazır paket büyük dil modellerinin güvenli kullanım için gereken zekâ düzeyine henüz ulaşmadığını ve gelişmiş klinik muhakemeyi sergileme konusunda sınırlı kaldığını vurguladı.
Succi, “Bulgularımız, sağlık alanında kullanılan büyük dil modellerinin hâlâ sürece dâhil bir insana ve çok sıkı denetime ihtiyaç duyduğunu bir kez daha gösteriyor.” dedi.
Çalışmada yer almayan İspanya Aile ve Toplum Hekimliği Derneği’nin Yapay Zekâ ve Dijital Sağlık çalışma grubundan Susana Manso García ise bulguların kamuoyu açısından net bir mesaj içerdiğini ifade etti.
García, “Çalışmanın bizzat kendisi, bunların [dil modellerinin] gözetim olmaksızın klinik kararlar almak için kullanılmaması gerektiğinde ısrar ediyor. Bu nedenle yapay zeka umut verici bir araç olsa da insan klinik yargısı vazgeçilmez olmaya devam ediyor.” dedi.
García ayrıca “Kamuya yönelik öneri ise bu teknolojileri temkinli kullanmak ve herhangi bir sağlık sorunuyla karşılaşıldığında mutlaka bir sağlık profesyoneline başvurmak.” ifadelerini kullandı.