Elon Musk atrage atenția asupra unei probleme fundamentale în dezvoltarea inteligenței artificiale: epuizarea datelor umane disponibile pentru antrenarea modelelor AI.
Conform declarațiilor sale recente pe platforma X, întreaga sumă a cunoștințelor umane accesibile a fost deja utilizată în procesul de antrenare a sistemelor de inteligență artificială în cursul anului precedent.
Situația actuală prezintă o provocare semnificativă pentru dezvoltarea modelelor AI precum ChatGPT sau Bard, care necesită volume substanțiale de date pentru funcționarea lor optimă.
Aceste sisteme se bazează pe diverse surse de informații, inclusiv literatura academică, conținut web și arhive digitale, însă volumul de date calitative disponibile nu mai face față cerințelor în creștere ale modelelor generative.
În contextul acestei limitări, comunitatea științifică explorează utilizarea datelor sintetice ca alternativă. Acestea sunt informații generate artificial pentru a replica caracteristicile datelor reale.
Startup-ul Writer exemplifică beneficiile financiare ale acestei abordări, reușind să reducă costurile de antrenare ale modelului Palmyra X 004 de la 4,6 milioane de dolari la 700.000 de dolari. Utilizarea datelor sintetice prezintă atât oportunități, cât și riscuri semnificative.
Pe lângă avantajele legate de costuri reduse și disponibilitate nelimitată, această metodă oferă beneficii în ceea ce privește protecția datelor personale.
Cu toate acestea, există preocupări serioase privind acuratețea rezultatelor, perpetuarea prejudecăților existente în datele originale și potențiala diminuare a capacității creative a sistemelor AI.
Cercetătorii de la Universitatea Stanford subliniază că modelele antrenate preponderent cu date sintetice prezintă o rată crescută de erori factuale. Studiile indică o deteriorare semnificativă a performanței atunci când proporția datelor artificiale depășește 50% din setul de antrenament.
În fața acestor provocări, industria AI evaluează diverse strategii de adaptare, incluzând dezvoltarea unor modele mai eficiente și consolidarea colaborării între organizații pentru partajarea resurselor de date.
De asemenea, se anticipează necesitatea unor reglementări mai riguroase pentru a gestiona utilizarea datelor sintetice și potențialele lor implicații etice.






