De ceva timp, a apărat ideea că modelele generative precum ChatGPT, care învață despre lume prin replicarea – generarea – ei, pot construi într-adevăr modele ale lumii.
Cu alte cuvinte, cu o imitație suficientă a datelor din lumea reală, fie sub formă de text sau videoclipuri, modelul surprinde adevăratul sens al lumii.
Dar avem un exemplu de produs care încearcă să realizeze această viziune?
Sigur! Avem Google Genie 2, un model care preia o secvență de cadre video și acțiunea unui utilizator și generează noul cadru bazat pe cadrele anterioare și acțiunea; este un predictor al lumii într-un mediu de joc.
Cu alte cuvinte, dacă cadrul anterior descrie un bot de navigație și utilizatorul face clic pe butonul din dreapta, următoarele cadre pe care le generează modelul descriu barca care navighează spre dreapta.

Asta are sens! Pentru ca un model să genereze ceea ce va avea loc în continuare, trebuie să-l înțeleagă, nu? Și răspunsul este poate… dar ar putea însemna și nu.
Cel mai mare argument împotriva acestui lucru este că într-adevăr nu are sens că trebuie să generați fiecare detaliu într-un scenariu pentru a-l înțelege.
Cel puțin așa au fost create modelele lumii (world models), deoarece nu este nevoie să generăm fiecare frunză a unui copac în detalii perfecte pentru a ști că este un copac; reprezentarea noastră internă a „ceea ce este un copac” este mult mai simplificată.
Dar care este reprezentarea ta despre un copac?
Ei bine, este foarte simplu: închide ochii și imaginează-ți un copac; aceasta este reprezentarea ta despre ceea ce este un copac. Așa vede „modelul lumii” copacii.
Dacă te gândești la asta o secundă și încerci să-l desenezi, reprezentarea ta a unui copac va fi ceva asemănător schiței din dreapta – în sensul de a fi simplificat, în timp ce, în realitate, un copac real este lucrul din stânga jos, cu un nivel infinit de detalii pe care creierul tău pur și simplu nu îl poate reține:

Putem vedea că lucrul din dreapta este un copac; forma, frunzele, trunchiul… în ciuda faptului că lipsesc foarte multe detalii.
Cu toate acestea, asta nu îl face mai puțin un copac, deoarece ideea este că nu trebuie să înfățișați un copac complet detaliat în mintea dvs. pentru a ști ce este un copac, deoarece ați stocat aspectele cruciale care sunt suficiente pentru a îndeplini acest criteriu.
Altfel spus, nu trebuie să desenați fiecare frunză din cele 200.000 pe care le poate avea un copac matur; reprezentarea modelului nostru mondial despre „ce este un copac” stochează doar elementele esențiale pe care, atunci când îl desenăm sau îl vizualizăm în creierul nostru, știm (și cei din jurul nostru uitându-se și la desen) că este un copac și nu altceva. Deci, dacă un model al lumii se referă la stocarea doar a componentelor esențiale a ceea ce este fiecare lucru (imaginați-vă efortul de a stoca un obiect perfect până la mm din fiecare obiect din univers) pentru a prezice cum se vor comporta, antrenarea unui AI pentru a genera acele detalii precise de fiecare dată, așa cum încearcă majoritatea modelelor AI, nu are prea mult sens.