Araştırma: Yapay zekâ tıbbi karar almada doktorlarla yarışıyor
Araştırma: Yapay zekâ tıbbi karar almada doktorlarla yarışıyor
Araştırma: Yapay zekâ tıbbi karar almada doktorlarla yarışıyor
Araştırmacılar, bir yapay zeka modelinin tanıdan hasta yönetimi tavsiyelerine kadar çoğu tıbbi akıl yürütme görevinde doktorları geride bıraktığını ortaya koydu.
Yeni bir araştırmaya göre, yapay zekâ modelleri acil bakımda tıbbi karar verme konusunda hekimleri geride bıraktı.
ABD'deki Harvard Tıp Fakültesi ile Beth Israel Deaconess Tıp Merkezi'nden araştırmacılar, geniş bir yelpazedeki klinik akıl yürütme görevlerinde yapay zekâyı hekimlerle karşılaştırdı.
Elde ettikleri bulgulara göre, büyük dil modelleri (LLM'ler), mevcut bilgilere dayanarak acil serviste karar verme, olası tanıları belirleme ve izlenecek bir sonraki tedavi adımlarını seçme gibi pek çok görevde hekimlerden daha iyi performans gösterdi.
Çalışmanın ortak kıdemli yazarı ve Harvard Tıp Fakültesi'nde profesör olan Arjun Manrai, “Yapay zekâ modelini neredeyse tüm kıstaslara karşı test ettik ve bu model hem önceki modelleri hem de hekimlerden oluşan temel grubumuzu geride bıraktı,” dedi.
“Ancak bu, yapay zekâ bakım kalitesini mutlaka artıracağı anlamına gelmiyor; nerede ve nasıl devreye sokulması gerektiği hâlâ yeterince incelenmiş değil ve yapay zekanın klinik pratiğe etkisini değerlendirmek için acilen sıkı, ileriye dönük klinik çalışmalar yapılmasına ihtiyaç var.”
Yapay zekâ modeli nasıl test edildi?
Araştırmacılar önce, 2024'te piyasaya sürülen OpenAI'nin akıl yürütme modeli o1-preview'u değerlendirdi; yayımlanmış olgu tartışmalarının yanı sıra gerçek hayattan acil servis kayıtlarını da içeren çeşitli klinik vakaları bu modele verdiler.
Yapay zekâ, deneylerin çoğunda, özellikle de tedavi planlaması, klinik akıl yürütme, dokümantasyon ve sınırlı bilgiyle çalışılan gerçek acil servis ortamlarında insan hekimlerden daha iyi sonuç verdi.
Çalışmanın ortak ilk yazarı, Beth Israel Deaconess'te dahiliye alanında klinik araştırma görevlisi olan Peter Brodeur, “Modeller giderek daha yetenekli hale geliyor. Eskiden modelleri çoktan seçmeli testlerle değerlendirirdik. Artık sürekli olarak yüzde 100'e yakın puan alıyorlar ve tavana vurduğumuz için ilerlemeyi takip edemez durumdayız,” dedi.
Bir testte, araştırmacılar o1 ve GPT-4o adlı büyük dil modellerinden, standart bir acil servis ortamında, ilk triyajdan yatış kararına kadar uzanan farklı aşamalarda hastaları değerlendirmelerini istedi.
Her aşamada modele yalnızca o anda mevcut olan bilgiler verildi ve olası tanıları sıralaması ile bir sonraki adımda ne yapılması gerektiğini önermesi istendi.
Yapay zekâ ile insan hekimler arasındaki en büyük fark, hastaya ilişkin bilgilerin en sınırlı olduğu triyaj aşamasında görüldü.
İnsan hekimlerde olduğu gibi, yapay zekâ modellerinin de ellerindeki bilgi arttıkça tanısal başarı oranları yükseldi.
“Klinik karar destek süreçlerinde yapay zekadan yararlanmak kimi zaman yüksek riskli bir girişim olarak görülse de bu araçların daha yaygın kullanımı, tanı hatalarının, gecikmelerin ve hizmete erişim sorunlarının yol açtığı insani ve mali bedelleri azaltmaya yardımcı olabilir,” denildi.
Daha fazla araştırmaya ihtiyaç var
Araştırmacılar, bu teknolojilerin gerçek hayat koşullarında değerlendirilmesi için ileriye dönük klinik çalışmalar yapılması ve sağlık sistemlerinin bilgi işlem altyapısına yatırım yaparak yapay zekâ araçlarının klinik iş akışlarına güvenli biçimde entegre edilebileceği çerçeveler geliştirmesi çağrısında bulundu.
“Bir model en olası tanıyı doğru koyabilir ama aynı zamanda hastayı riske atabilecek gereksiz tetkikler de önerebilir,” diyen Brodeur, “Performans ve güvenliğin değerlendirilmesinde nihai ölçütün insan olması gerekir.”
Çalışmanın bazı sınırlılıkları da var. Yazarlar, araştırmanın yalnızca model performansını yansıttığını ve ağırlıklı olarak o1 modelinin önizleme sürümüne odaklandığını, o günden bu yana OpenAI'nin o3 modeli gibi daha yeni sürümlerin piyasaya çıktığını belirtti.
Yazarlar, “Performansın yeni modellerle korunmasını ya da daha da iyileşmesini beklesek de, farklı modeller arasında performansın nasıl değiştiğini ortaya koymak ve insanların LLM'lerle nasıl iş birliği yapabileceğini incelemek için daha fazla çalışma yapılması gerektiğini düşünüyoruz,” diye yazdı.