O nouă inovație în domeniul inteligenței artificiale, botezată V-JEPA de către Meta, demonstrează o capacitate remarcabilă: aceea de a dezvolta o intuiție fizică a mediului înconjurător.
Acest model AI, după ce a vizionat milioane de videoclipuri, este acum capabil să reacționeze cu o formă de „uimire” atunci când un eveniment contravine legilor naturale ale lumii reale, într-un mod similar cu un copil uman.
Modelul de inteligență artificială Video Joint Embedding Predictive Architecture (V-JEPA) a fost prezentat de Meta la începutul anului 2024. Compania îl consideră un pas crucial în progresul inteligenței artificiale și în capacitatea acesteia de a înțelege lumea la un nivel mai profund.
Particularitatea sa constă în inspirația directă din dezvoltarea cognitivă a bebelușilor. Practic, inteligența artificială urmărește videoclipuri, deduce regularități fizice și apoi le compară cu realitatea.
De exemplu, atunci când un obiect dispare ca prin magie, V-JEPA semnalează inconsecvența, exact ca un copil. Pentru sistemul AI, incidentul nu respectă logica pe care a învățat-o, generând ceea ce este numit o „eroare de predicție”, echivalentul matematic al surprizei.
Micha Heilbron, cercetător în științe cognitive la Universitatea din Amsterdam, a subliniat într-un articol din Quanta Magazine, publicat pe 3 octombrie 2025, că „Literatura de specialitate în dezvoltare ne arată că bebelușii nu au nevoie de mult timp de expunere pentru a învăța acest tip de fizică intuitivă.
Experiența de față este foarte convingătoare, deoarece demonstrează că un model poate reuși acest lucru, fără a porni de la o cunoaștere pre-programată.”
Spre deosebire de alte sisteme AI de uz general, precum ChatGPT sau Gemini, care analizează videoclipurile pixel cu pixel, V-JEPA operează într-un „spațiu latent”.
Acesta reprezintă un nivel superior de abstractizare, permițându-i să înțeleagă numeroase concepte legate de obiectele prezente în imagini: pozițiile relative, morfologia, continuitatea temporală și, desigur, mișcările și interacțiunile.
Astfel, inteligența artificială este capabilă să stabilească relații temporale și cauzale. Este vorba despre o învățare auto-supervizată, în care sistemul AI descoperă singur regulile realității și își construiește reprezentări interne.
Oamenii de știință de la Meta au testat V-JEPA folosind protocolul IntPhys, o referință pentru raționamentul fizic intuitiv vizual.
Sistemul AI a obținut o rată de succes de 98%, în timp ce alte modele de viziune artificială, precum ViViT de la Google și TimeSformer de la Facebook AI, au depășit cu greu 50%. Aceste rezultate, creditate lui Zhang și colaboratorilor în arXiv, 2024, subliniază performanța sa.
Cu toate acestea, unii observatori afirmă că V-JEPA nu a depășit încă stadiul meta-cogniției. Altfel spus, inteligența artificială nu poate încă evalua cât de fiabilă este anticiparea sa. Acest aspect amintește de un copil care ghicește corect, dar nu știe când s-ar putea înșela și de ce.
În plus, V-JEPA are o memorie limitată la doar câteva secunde, ceea ce o împiedică să înțeleagă situații care se desfășoară în timp, așa cum o fac în mod natural oamenii.
Deși V-JEPA impresionează din punct de vedere tehnic, nu se poate afirma încă faptul că acest model AI manifestă „conștiință” sau o veritabilă „înțelegere”. Deocamdată, inteligența artificială nu înțelege lumea, dar reușește să o modeleze.
În ciuda limitărilor, V-JEPA mimează într-un fel procesul care permite emergența conștiinței, inclusiv predicția, observația și confruntarea.
Diferența față de om rămâne enormă, deoarece chiar dacă sistemul AI mimează procesul care duce la conștiință, ceea ce reprezintă o bază a cogniției umane este doar o succesiune de operații statistice fără intenții pentru mașină.
Cu alte cuvinte, inteligența artificială învață fără să știe că învață și, evident, ignoră propria existență.






