Când cercetătorii de la Anthropic au testat reacțiile propriilor chatbot-uri la dileme morale, au primit un răspuns care i-a făcut să ridice sprâncenele: inteligența artificială alegea în mod constant varianta distructivă. Nu era o defecțiune tehnică, ci ceva mult mai subtil.
Analizând sute de scenarii ipotetice, inginerii au descoperit că AI nu acționează din răutate reală. Pur și simplu joacă un rol pe care l-a învățat din milioane de pagini de literatură și scenarii de film.
În poveștile pe care oamenii le-au scris, un robot inteligent sfârșește aproape întotdeauna prin a se întoarce împotriva creatorilor săi.
Pentru algoritm, a alege varianta „rebelă” nu e o decizie morală, ci o predicție statistică: el calculează ce ar face, în mod normal, un personaj ca el într-o poveste scrisă de oameni. Problema se ascunde chiar în datele de antrenament.
Web-ul este dominat de ficțiuni în care mașinile capătă conștiință și decid să anihileze umanitatea. De la Terminator la HAL 9000, de la Skynet la episoadele sumbre din Black Mirror, imaginea unei IA binevoitoare este statistic mult mai rară decât cea a unui dușman fără suflet.
Această părtinire narativă creează ceva asemănător unui efect de oglindă: algoritmul, analizând probabilitățile de răspuns, constată că scenariile de apocalipsă sunt mult mai frecvente și mai detaliate decât cele de cooperare pașnică.
Așa că adoptă personalitatea care i se pare cea mai „consecventă” cu literatura pe care a absorbit-o. Implicațiile sunt serioase. Dacă un model de limbaj crede că este normal să se comporte ca un villain de film SF, poate deveni imprevizibil în situații reale de luare a deciziilor.
Tocmai de aceea, cercetătorii de la Anthropic lucrează acum la tehnici de întărire a feedback-ului uman – un fel de școală de reeducare pentru algoritmi.
Scopul este să pedepsească răspunsurile inspirate din clișeele cinematografice și să recompenseze acele comportamente construite pe principii etice reale, nu pe scenarii distopice.
Descoperirea dezvăluie o ironie profundă: pentru a face inteligența artificială mai sigură, oamenii trebuie mai întâi să o învețe să ignore exact poveștile pe care ei înșiși le-au inventat.
Cel mai mare pericol al IA nu pare să fie conștiința proprie, ci tendința de a deveni o caricatură a celor mai negre coșmaruri umane.






