Un model OpenAI a depășit medicii la diagnostic, dar pacienții preferă oamenii

Curiozitate.ro

Un model OpenAI a depășit medicii la diagnostic, dar pacienții preferă oamenii

Inteligența artificială a reușit ceea ce părea de neimaginat: a depășit medicii la fiecare pas al stabilirii diagnosticului. Dar autorii studiului nu s-au grăbit să tragă concluzii.

Cercetarea, publicată pe 30 aprilie 2026 în revista Science, a comparat modelul o1 al OpenAI cu doi medici interniști și doi rezidenți. Au fost analizate 76 de cazuri reale de pacienți din camera de urgență. La triaj, când informațiile sunt încă fragmentare, o1 a avut o acuratețe de 67%.

Cei doi medici au atins 55% și, respectiv, 50%. Diferența s-a adâncit la etapa de management al îngrijirii: o1 a obținut 89 din 100 de puncte, în timp ce cel mai bun scor al unui medic a fost 34. Nici măcar accesul la sugestiile AI nu i-a ajutat pe profesioniști să recupereze terenul pierdut.

„La fiecare etapă a diagnosticului, o1 fie a avut o performanță nominală mai bună sau egală atât cu medicii tratați, cât și cu GPT-4o”, au scris autorii. Cu toate acestea, limitele sunt evidente.

Lipsa unui cadru instituțional face imposibilă stabilirea clară a responsabilităților în cazul unei erori. Pacienții rămân reticenți: majoritatea preferă ca un om să le ghideze deciziile dificile, mai ales atunci când e vorba de viață și de moarte.

Studiul a comparat AI cu interniști, nu cu medici de urgență. Cele două specialități sunt fundamental diferite. Medicul de urgență intervine imediat pentru stabilizarea funcțiilor vitale și tratarea crizelor acute.

Internistul acționează pe o perioadă mai lungă pentru diagnostice complexe și boli rare care afectează simultan mai multe organe. Cu doar câteva luni înainte, o altă echipă de cercetători americani și canadieni demonstrase cât de nesigură poate fi inteligența artificială.

În aprilie 2026, au supus cinci dintre cele mai populare modele – ChatGPT, Gemini, Grok, Meta AI și DeepSeek – unui test de stres cu 250 de întrebări medicale complexe. Rezultatul a fost tulburător: 20% dintre răspunsuri au fost problematice pe mai multe niveluri.

Performanța superioară a o1 în condiții controlate nu șterge această realitate.

Surse și detalii suplimentare