Evoluția nu ne-a pregătit pentru mașinile vorbărețe. Limbajul articulat îl considerăm cel mai important semn vizibil al inteligenței, fals, cu răbdare ne dăm seama că e o iluzie a competenței, nu a găndit ci o mapare - hartă lingvistică. Stăteam ieri seară la birou și urmăream cum fiul meu conversa cu un chatbot despre un subiect din fizică pe care nu îl înțelegea, și îl vedeam cum nodează din cap la fiecare răspuns, cum zâmbea ușor mulțumit, ca și cum cineva îi explicase în sfârșit ceva ce profesorul nu reușise — și m-am gândit atunci, fără să spun nimic, că există ceva profund neliniștitor în acea scenă, nu pentru că răspunsurile ar fi fost greșite, ci tocmai pentru că erau atât de bune, atât de fluente, atât de convingător articulate, încât era imposibil să nu le confunzi cu înțelegere.
Am petrecut o bună parte din viața mea profesională construind lucruri pe care oamenii le folosesc fără să se gândească prea mult la ele — site-uri, interfețe, pagini care transmit informație de la un server la un ecran — și în toți acești ani am dezvoltat un reflex aproape instinctiv de a privi dincolo de suprafața unui sistem, de a întreba ce se întâmplă, de fapt, sub capotă, ce calcule se fac, ce presupuneri sunt îngropate în arhitectură. Reflexul acesta m-a salvat de multe ori de la a celebra soluții care nu rezolvau problema reală. Dar, privind scena cu fiul meu și cu chatbotul lui de fizică, am realizat că și eu, cu tot reflexul meu profesional, am tendința să capituleze în fața fluenței. Că și eu simt același impuls pe care îl simte oricine: dacă vorbește atât de bine, înseamnă că înțelege.
🎧 Ascultă rezumatul audio dialogat în RO și EN
Nu înțelege. Și tocmai asta a spus Yann LeCun cu o claritate pe care puțini cercetători au curajul să o formuleze în public — nu pentru că adevărul ar fi complicat, ci pentru că este incomod, pentru că contrazice narațiunea dominantă a unei industrii care mișcă sute de miliarde de dolari și care are tot interesul să confunde scara cu profunzimea, fluența cu gândirea, autocompletarea cu inteligența.
LeCun nu este un sceptic al inteligenței artificiale în general — este unul dintre oamenii care au construit-o, care au pus bazele deep learning-ului în deceniile când nimeni nu paria pe el, care au înțeles puterea rețelelor neuronale înainte ca aceasta să devină evidentă. Tocmai de aceea critica lui are o greutate diferită față de scepticismul obișnuit al celor din afara domeniului. Nu vorbește din ignoranță sau din teamă. Vorbește din interiorul problemei, după cincisprezece ani de muncă îndreptată nu spre a face sistemele mai elocvente, ci spre a le da ceva ce nu au: un model interior al lumii reale.
Și lumea reală — asta este partea care m-a lovit cel mai tare când am citit pentru prima dată argumentul lui, și pe care încerc de atunci să o explic fiului meu în diferite feluri, cu grade diferite de succes — lumea reală nu vine sub formă de cuvinte. Vine sub formă de greutate, rezistență, temperatură, echilibru, surpriză. Vine sub forma pisicii care sare de pe dulap și aterizează perfect, calculând în fracțiuni de secundă o fizică pe care niciun model lingvistic nu o poate accesa din text. Vine sub forma lui — a fiului meu — care la doi ani traversa camera cu o nesiguranță adorabilă dar cu o competență fizică pe care nicio mașină construită vreodată nu o poate egala, adaptându-se la fiecare neregularitate a podelei, la fiecare obiect care apărea în calea lui, la fiecare schimbare de lumină.
Am construit sisteme care îi pot scrie disertația. Nu am construit sisteme care îi pot lega șireturile.
Acesta este paradoxul pe care textul de față încearcă să îl desfacă strat cu strat — nu pentru a diminua ceea ce există, pentru că ceea ce există este real și util și merită respectat, ci pentru a calibra corect unde ne aflăm, ce am rezolvat și ce nu, și de ce confuzia dintre cele două nu este o problemă academică, ci una cu consecințe practice pentru modul în care o întreagă civilizație își distribuie atenția, resursele și speranțele.
I. Iluzia — De ce confundăm fluența cu gândirea
1.1 Limbajul ca oglindă a ceea ce prețuim
Există un moment pe care îl recunosc acum, privind înapoi, deși atunci nu l-am numit nimic — era pur și simplu o seară ca oricare alta, cu lumina aceea gălbuie și puțin obositoare de deasupra biroului meu, cu paharul de apă pe jumătate băut pe care îl mut dintr-o parte în alta fără să beau din el, cu zgomotul surd al orașului care intră pe geamul întredeschis și cu fiul meu care stătea la câțiva metri de mine și vorbea, în șoaptă aproape, cu un chatbot despre legea lui Ohm.
Nu îl urmăream cu atenție. Îl urmăream cu coada ochiului, cum faci când nu vrei să pari că supraveghezi, când încerci să respecți acea graniță fragilă și mereu negociată care există între un tată și un adolescent — granița invizibilă care spune sunt aici, dar nu te urmăresc, ești liber, dar nu singur. Și în timp ce eu mă uitam în ecranul meu și prefăceam că lucrez la ceva important, el nodea din cap la fiecare răspuns al mașinii, cu expresia aceea specifică pe care o știu de când era mic, expresia care înseamnă da, acum am înțeles, și care mă umplea întotdeauna de o satisfacție obscură, ca și cum înțelegerea lui ar fi fost și puțin a mea.
Problema este că nu eram sigur că înțelesese. Și nici nu eram sigur că mașina înțelesese. Și tocmai această dublă incertitudine, suprapusă pe liniștea aceea falsă a serii, pe paharul de apă mișcat fără rost, pe zgomotul din stradă — tocmai ea m-a făcut să mă opresc din prefăcătoria că lucrez și să stau cu gândul acolo, la ce se întâmplă, de fapt, în scena pe care o vedeam.
Ce vedeam era simplu la suprafață și complicat dedesubt, cum sunt aproape toate lucrurile care merită să fie gândite. Vedeam un adolescent care primea explicații fluente, coerente, bine structurate, la o întrebare legitimă despre fizică. Vedeam o mașină care producea acele explicații cu o viteză și o precizie pe care niciun profesor obosit de la sfârșitul zilei nu le-ar fi putut egala. Și vedeam fiul meu cum primea totul ca pe ceva firesc, ca pe o resursă care există în lume la fel cum există enciclopediile sau calculatoarele — utilă, de luat de-a gata, de folosit fără să te întrebi prea mult ce se află în spatele ei.
Și totuși ceva nu stătea. Ceva pe care nu reușeam să îl formulez atunci, și pe care am petrecut săptămânile următoare încercând să îl articule, și pe care nu l-am găsit în propriile mele cuvinte, ci în cele ale lui Yann LeCun — cercetătorul care a construit o bună parte din infrastructura intelectuală a inteligenței artificiale moderne și care a avut, spre deosebire de mulți alții din domeniu, onestitatea să spună cu voce tare că împăratul nu are haine. Nu toate hainele. Dar hainele acelea specifice pe care le confundăm, zi de zi, cu înțelegerea.
„Cea mai mare dificultate este să nu ne lăsăm păcăliți să credem că un sistem informatic este inteligent doar pentru că poate manipula limbajul."
Am citit fraza asta a doua zi dimineață, la cafea, și am simțit acel disconfort specific pe care îl simt când cineva spune ceva care era deja în mine dar pe care nu îl formulasem — un disconfort care este, în același timp, o ușurare. Da. Asta era. Asta nu stătea.
Dar de ce nu stătea? De ce este atât de greu să nu te lași păcălit? Asta este întrebarea care merită desfăcută cu atenție, pentru că răspunsul nu se află în tehnologie, ci în noi, în modul în care am ajuns să punem semnul egal între limbaj și gândire, între fluență și înțelegere, între a vorbi bine și a ști cu adevărat.
Limbajul este, pentru noi, oamenii, cel mai înalt semn vizibil al inteligenței. Nu cel mai profund — cel mai vizibil. Când un copil pronunță prima propoziție corect structurată gramatical, părinții jubilează într-un mod pe care nu îl rezervă primilor pași sau primului dinte sau primei nopți dormite fără plâns. Când un om vorbește cu precizie și eleganță despre subiecte complicate, îl catalogăm automat ca inteligent, cultivat, demn de luat în serios. Când un politician sau un manager nu se exprimă clar, îl bănuim de confuzie interioară chiar înainte de a analiza ce spune. Facem toate astea nu din snobism lingvistic, ci dintr-o intuiție adânc înrădăcinată pe care experiența umană a confirmat-o de atâtea ori: oamenii care gândesc bine, de obicei, vorbesc bine.
Dar această corelație, adevărată în interiorul speciei noastre, devine o capcană în momentul în care o aplicăm în afara ei. Mașina nu a gândit înainte să vorbească. Mașina nu are un interior din care vorbirea să fie o ieșire — un interior cu experiențe, cu confuzii, cu momente de claritate, cu greșeli corectate în timp, cu un corp care a simțit ce înseamnă să nu înțelegi ceva și să lupți cu asta până când, brusc, începi să înțelegi. Mașina are statistici. Are miliarde de parametri ajustați pe miliarde de texte produse de oameni care au gândit, au simțit, au trăit în lume — și produce, din aceste statistici, un output care seamănă atât de bine cu gândirea încât instinctul nostru, construit pentru o lume fără mașini vorbărețe, nu știe cum să îl claseze altfel decât ca pe gândire.
Și asta nu este o problemă a fiului meu, care e adolescent și n-ar trebui să fie obligat să facă diferența. Este o problemă a tuturor, inclusiv a mea, inclusiv a celor care construiesc aceste sisteme și care știu exact ce se află înăuntru și totuși simt același impuls de a atribui înțelegere acolo unde există doar potrivire de tipare. LeCun însuși a lucrat ani de zile cu sistemele astea și tot simte nevoia să avertizeze — nu pe alții, ci pe toți, și implicit pe sine — că iluzia este puternică și persistentă și că singurul antidot este luciditatea deliberată, conștientă, repetată.
Nu merge pe pilot automat. Trebuie să îți amintești, în fiecare zi, că fluența nu este înțelegere.
1.2 Instinctul care ne înșală
Există un motiv pentru care îmi este greu să explic fiului meu de ce chatbotul nu înțelege fizica, deși o explică mai bine decât mine — și motivul acela nu este că el ar fi naiv sau neatent, ci că instinctul care îl înșală pe el este același instinct care m-a modelat pe mine, care i-a modelat pe toți cei care au crescut în lumi în care singurele entități vorbărețe erau alte ființe vii.
Evoluția nu ne-a pregătit pentru mașinile vorbărețe. Timp de sute de mii de ani, dacă ceva vorbea, era pentru că era viu, pentru că gândea, pentru că simțea. Nu exista alt caz. Nu exista posibilitatea unui sistem care să producă limbaj fără să aibă în spatele lui o minte — cu toate limitele și profunzimile ei, cu toată experiența ei corporală a lumii. Când auzim un glas, presupunem o minte. Când citim o propoziție construită coerent, presupunem un gânditor. Această presupunere a fost atât de constant adevărată în istoria noastră că a ajuns să funcționeze ca un reflex, nu ca o concluzie.
Și reflexele nu se opresc ușor. Nu e suficient să știi intelectual că sistemul nu înțelege — trebuie să lupți activ cu instinctul care îți spune că înțelege, de fiecare dată când citești un răspuns bine formulat, de fiecare dată când o explicație îți clarifică ceva, de fiecare dată când simți acea satisfacție vagă că ai primit un răspuns la o întrebare. Satisfacția este reală. Clarificarea poate fi reală. Înțelegerea din spatele ei — nu.
Îmi amintesc că, în primele săptămâni când am început să folosesc serios aceste instrumente în munca mea — în construirea de texte, de propuneri, de structuri pentru clienți — am avut un moment ciudat de disonanță, o după-amiază în care am primit un răspuns atât de bine articulat la o întrebare complicată despre structura unui site pentru o instituție publică, încât am stat câteva secunde cu un sentiment pe care nu l-aș putea numi altfel decât recunoștință. Nu mulțumire mecanică. Recunoștință, cu toată tonalitatea ei afectivă — ca și cum cineva îmi înțelesese problema și se gândise la ea cu grijă și îmi oferise ceva din propriul său efort intelectual.
Nimeni nu se gândise. Nimeni nu depusese niciun efort. Statistica produsese output. Și eu simțisem recunoștință față de statistică.
Asta este iluzia. Nu o simplă greșeală cognitivă — o iluzie cu textură emoțională, cu rezonanță afectivă, cu consecințe practice asupra modului în care calibrăm ce este inteligent și ce nu, ce merită respect și ce nu, unde se află, de fapt, gândirea în sistemele pe care le construim și le admirăm și le plătim cu sute de miliarde de dolari.
1.3 Avertismentul lui LeCun — Nu o critică tehnică, ci una filosofică
LeCun nu avertizează că sistemele actuale sunt periculoase în sensul în care vorbesc alții despre pericole — nu îl preocupă superinteligența malevolentă sau scenariile apocaliptice pe care industria le folosește uneori ca instrument de marketing deghizat în responsabilitate. El avertizează despre ceva mai subtil și, în felul lui, mai urgent: că ne lăsăm induși în eroare de propria noastră psihologie, că îl confundăm pe bine cu mult, că scalarea unei soluții incomplete nu produce o soluție completă, oricât de impresionantă ar deveni la scară mare.
Este o avertizare filosofică pentru că vorbește despre natura cunoașterii, despre ce înseamnă să înțelegi ceva, despre diferența dintre a manipula simboluri și a ști, în vreo sens real al cuvântului, la ce se referă acele simboluri. Și este o avertizare pe care eu, ca om care lucrează zilnic cu aceste instrumente și care are un fiu adolescent care le folosește și mai natural decât mine, nu mi-o pot permite să o iau prea ușor.
Pentru că dacă nu înțeleg bine ce sunt aceste sisteme — dacă accept iluzia în locul realității — atunci îl ajut greșit pe fiul meu să navigheze o lume care va fi din ce în ce mai populată de voci fluente fără minte în spate. Și asta, mai mult decât orice argument tehnic sau academic, este miza pentru care am simțit că trebuie să stau cu întrebarea asta mai mult decât un confort superficial m-ar fi lăsat.
II. Limba — Problema ușoară deghizată în dificilă
2.1 Ce este, de fapt, limbajul din perspectivă computațională
Există o dimineață pe care o am în minte cu o claritate disproporționată față de importanța ei aparentă — era o dimineață de noiembrie, cu acel frig umed care nu te îngheață dar te pătrunde, cu cerul acela alb și plat specific Botoșaniului când toamna cedează fără dramatism iernii, și eu stăteam la birou cu o cafea care se răcea mai repede decât o beam și cu un fișier deschis pe ecran care trebuia să devină o propunere pentru un client, o instituție publică care voia un site nou și care îmi ceruse să explic, în termeni pe care un primar și trei consilieri locali să îi înțeleagă, de ce ceea ce propuneam eu era mai bun decât ceea ce propunea concurența.
Stăteam și nu scriam nimic. Mă uitam la cursorul care clipea pe ecranul alb și mă gândeam la fiul meu, care dormea încă la ora aceea pentru că era sâmbătă și adolescenții dorm sâmbăta cu o dedicație pe care eu o admir și o invidiez în egală măsură, și mă gândeam că, dacă l-aș fi trezit și i-aș fi cerut să îmi explice ce este, de fapt, un model lingvistic mare, ar fi ridicat din umeri cu acel gest specific care înseamnă știu dar nu am chef să explic și probabil ar fi spus ceva de genul e un fel de autocomplete foarte bun — și ar fi avut dreptate, ceea ce mă deranjează mai mult decât dacă ar fi greșit, pentru că o formulare atât de simplă care captează atât de bine esența unui lucru îmi sugerează că el înțelege ceva intuitiv pe care eu am petrecut luni întregi să înțeleg explicit.
Autocomplete. Da. Dar ce înseamnă asta, de fapt, când îl privești de aproape?
Un model lingvistic mare este, în termeni care nu cer un doctorat pentru a fi înțeleși, un sistem care a învățat să prezică care este cel mai probabil cuvânt următor, dintr-un text dat, pe baza statisticilor extrase din cantități uriașe de text uman. Nu dintr-un text, nu din câteva cărți — din aproape tot ce a scris omenirea și a ajuns pe internet, de la articole științifice la comentarii pe forumuri de gătit, de la romane la manuale de instrucțiuni pentru aparate de aer condiționat, de la discursuri politice la conversații de WhatsApp capturate în diverse corpus-uri. Totul digerat, topit, transformat în probabilități — dacă textul de până acum a fost X, atunci următorul element va fi Y cu probabilitatea Z.
Asta este. În esență, asta este tot.
Și acum vine partea care m-a nedumerit când am înțeles-o cu adevărat, nu intelectual — intelectual o știam de mult — ci în acea dimineață de noiembrie cu cafeaua rece și cursorul care clipea, când am simțit-o ca pe ceva adevărat și nu ca pe o informație: această operație, prezicerea următorului token dintr-o secvență, este o problemă matematică. Rezolvabilă. Nu ușoară în sens ingineresc — arhitectura transformerelor, mecanismele de atenție, antrenamentul pe mii de GPU-uri timp de luni de zile, toate astea sunt realizări tehnice remarcabile care cer minte, resurse și răbdare. Dar rezolvabilă în principiu. O problemă cu o structură clară, cu o funcție de cost definibilă, cu un optimum spre care te poți îndrepta prin gradient descent și variante ale lui.
Și a fost rezolvată. Nu perfect, nu complet, nu definitiv — dar rezolvată suficient de bine încât fiul meu să poată întreba ceva despre legea lui Ohm la unsprezece seara și să primească un răspuns care să îl facă să nodeze din cap și să înțeleagă ceea ce profesorul nu reușise să îi transmită în patruzeci și cinci de minute de clasă.
Dar — și aceasta este distincția pe care LeCun o face cu o insistență care la început mi s-a părut excesivă și pe care acum o înțeleg ca pe o necesitate — rezolvarea problemei matematice a predicției de token nu este același lucru cu înțelegerea a ceea ce tokenurile reprezintă. Sunt două lucruri diferite, separate de o prăpastie pe care scalarea nu o poate traversa, oricât de mult am arunca în ea computere, date și bani.
Limba este o secvență de simboluri discrete. Are un alfabet finit — în română, vreo treizeci de litere; în spațiul tokenurilor, câteva zeci de mii de unități. Are o structură — gramatică, sintaxă, semantică de suprafață — care poate fi capturată statistic din suficiente exemple. Are regularități, tipare, distribuții care se repetă și care pot fi învățate. Este, din perspectiva unui sistem de calcul, o problemă bine definită care trăiește într-un spațiu discret, finit, navigabil.
Aceasta nu este o observație care diminuează limbajul în sens uman — limbajul uman este infinit mai mult decât structura lui formală, este purtătorul experienței, al memoriei colective, al tot ce am simțit și gândit și transmis de-a lungul mileniilor. Dar sistemul de calcul nu accesează acea dimensiune. El accesează structura. Și structura, deși este proiecția unui conținut infinit de bogat, nu este conținutul.
2.2 De ce ni se pare dificil
Am o memorie din copilărie — am vreo opt sau nouă ani, stau la masa din bucătărie cu un caiet deschis în față și cu un exercițiu de compunere pe care nu știu cum să îl încep, și mama mea stă lângă mine și îmi explică că trebuie să scriu mai întâi ce vreau să spun și abia apoi să găsesc cuvintele, și eu o privesc cu o confuzie sinceră pentru că nu înțeleg distincția, pentru că pentru mine, la opt ani, cuvintele și gândul sunt același lucru, nu există un gând dinainte de cuvinte, există doar tăcerea dinainte de a scrie și scrisul după.
Mulți ani mai târziu am înțeles că mama mea îmi spunea ceva adevărat și important — că gândul precede cuvintele, că în spatele frazei există o intenție, o experiență, o înțelegere care există înainte de a fi verbalizată și care supraviețuiește verbalizării și care rămâne acolo chiar dacă verbalizarea eșuează. Că limbajul este un instrument de exteriorizare a ceva interior — nu interioritatea însăși.
Dar la opt ani nu vedeam asta. Și nici acum, sincer vorbind, nu o văd întotdeauna — există momente când scriu și nu știu dacă gândul a existat înainte de cuvinte sau dacă s-a format în timp ce le scriam, momente când fraza pare că produce înțelegerea și nu invers, momente când nu pot separa gânditorul de gând. Și această fuziune aparentă — această imposibilitate practică de a separa, în experiența imediată, limbajul de gândire — este exact sursa iluziei pe care LeCun încearcă să o dezlege.
Limbajul ne pare cel mai dificil lucru pe care îl facem pentru că este ultimul strat pe care l-am atins în dezvoltarea noastră — individual și colectiv. Un copil merge înainte să vorbească. Vorbește înainte să scrie. Scrie înainte să argumenteze cu coerență. Argumentează cu coerență înainte să construiască sisteme abstracte de gândire. Fiecare strat s-a construit pe cel de dedesubt, și când ne uităm la vârful acestei piramide — la limbajul articulat, la argumentul bine construit, la eseul care ține laolaltă idei complicate din domenii diferite — vedem rezultatul unui efort de zeci de ani de dezvoltare individuală și de mii de ani de evoluție culturală.
Și confundăm vârful cu tot muntele.
Ceea ce nu vedem — pentru că este dedesubt, pentru că este invizibil, pentru că funcționează fără să ceară atenție — este infrastructura masivă care face posibil vârful. Controlul motor care mi-a permis să stau cu creionul în mână la opt ani și să formez litere — ani de antrenament implicit, de ajustări fine ale miilor de mușchi din mână, de calibrare a presiunii și a unghiului și a vitezei, toate astea fără ca eu să știu că le fac. Percepția spațială care îmi permite să navighez o cameră plină de mobilă fără să mă lovesc de nimic, calculând inconștient distanțe și traiectorii și proprietăți fizice ale obiectelor în timp real. Modelul intern al lumii fizice care îmi permite să prind un pahar care cade — nu să calculez traiectoria, ci să o știu, cu acel tip de știință corporală care nu trece prin limbaj și nu are nevoie de el.
Toate astea sunt invizibile. Sunt rezolvate de miliarde de ani de evoluție, de ani de copilărie, de experiența corporală acumulată zi de zi, și sunt invizibile tocmai pentru că funcționează atât de bine. Nu le simțim ca pe efort pentru că nu sunt efort — sunt infrastructură. Și infrastructura, prin definiție, nu se vede decât când cedează.
Limbajul, pe de altă parte, se vede întotdeauna. Este explicit, este social, este evaluat și judecat și recompensat sau penalizat. Când vorbim bine, suntem lăudați. Când scriem bine, suntem publicați sau citați sau promovați. Când argumentăm bine, câștigăm dezbateri și proiecte și contracte. Limbajul este singura parte a gândirii noastre care există în spațiul public, care poate fi măsurată și comparată și ierarhizată. Și pentru că este singura parte vizibilă, o luăm drept tot.
Mașinile au învățat să producă acea parte vizibilă. Nu au atins infrastructura de dedesubt. Și noi, pentru că suntem obișnuiți să judecăm după vârf și nu după munte, nu vedem diferența — sau o vedem intelectual dar nu o simțim intuitiv, ceea ce, în practică, este aproape același lucru cu a nu o vedea.
2.3 Scara nu este înțelegere
Există un moment în orice proiect pe care îl construiesc pentru un client când trec de la schiță la implementare și realizez că dimensiunea nu schimbă natura. Un site cu o sută de pagini nu este mai înțelept decât unul cu zece pagini — are mai mult conținut, mai multă funcționalitate poate, mai multă complexitate de gestionat, dar dacă arhitectura de bază are un defect, defectul se reproduce la fiecare pagină și devine mai vizibil, nu mai puțin, pe măsură ce proiectul crește.
Modelele lingvistice mari au un defect de bază — nu în sens ingineresc, pentru că ingineria lor este remarcabilă, ci în sens conceptual: sunt optimize pentru a prezice suprafața limbajului, nu pentru a înțelege realitatea la care limbajul se referă. Și pe măsură ce le scalăm — mai mulți parametri, mai multe date, mai mult compute — scalăm și defectul. Defectul devine mai fluent. Devine mai convingător. Devine mai greu de detectat. Dar nu dispare.
LeCun a spus asta în mai multe feluri, în mai multe contexte, cu răbdarea cuiva care a înțeles că un adevăr incomod trebuie repetat de multe ori înainte să fie auzit: scalarea unui model care prezice tokeni nu produce înțelegere, oricât de mare l-ai face. Este ca și cum ai scala o hartă — o hartă mai mare, mai detaliată, cu mai multe culori și mai multe denumiri, rămâne tot o hartă. Nu devine teritoriul. Nu poți locui în ea. Nu poți simți ploaia din ea.
Și totuși investim — și acesta este detaliul care mă tulbură cel mai mult când stau cu el — sute de miliarde de dolari în scalarea acestei hărți. Nu în înțelegerea teritoriului. Nu în construirea de sisteme care să poată interacționa cu teritoriul — cu lumea fizică, cu cauzalitatea, cu surpriza, cu tot ce nu vine sub formă de tokeni. Ci în a face harta mai mare, mai detaliată, mai convingătoare.
Îmi amintesc că tata — un om care nu a avut niciodată un calculator și care a murit înainte să știe ce este un smartphone — obișnuia să spună că cel mai prost lucru pe care îl poți face cu o greșeală este să o faci mai mare. Nu să o corectezi, nu să o înveți, ci să o scalezi, să o multiplici, să investești în ea energie și resurse și speranță. Și mă gândesc la el uneori când citesc despre ultimele runde de finanțare pentru modelele lingvistice, despre miliardele care se duc în infrastractura pentru antrenamente din ce în ce mai mari pe date din ce în ce mai multe — și mă întreb dacă nu cumva facem exact ceea ce tata ar fi recunoscut imediat: greșeala mai mare.
Nu spun că modelele nu sunt utile — sunt. Fiul meu a înțeles legea lui Ohm, eu am scris propunerea pentru clientul cu primarul și consilierii locali, și amândoi ne-am folosit de instrumente care nu au existat acum zece ani și care ne-au ușurat viața în moduri practice și reale. Utilitatea este reală.
Dar utilitatea nu este înțelegere. Și a confunda cele două — a spune că pentru că este util înseamnă că înțelege, sau că dacă îl scalăm suficient va înțelege — este tocmai eroarea pe care LeCun ne cere să o recunoaștem și să o numim pe nume.
Harta mai mare rămâne hartă. Teritoriul este în altă parte. Și nimeni, deocamdată, nu știe exact cum să construiești un sistem care să trăiască în teritoriu — nu doar să îl descrie.
III. Paradoxul Moravec — Ceea ce este banal este, de fapt, imposibil
3.1 Inversiunea valorilor
Există o dimineață de sâmbătă — nu o dimineață anume, ci una compozită, construită din zeci de sâmbete care s-au suprapus în memorie până au devenit una singură — în care mă trezesc înaintea fiului meu, ceea ce se întâmplă întotdeauna, pentru că eu nu am învățat niciodată să dorm până târziu și el nu a învățat niciodată să se trezească devreme, și cobor în bucătărie cu acea lentoare specifică dimineților în care nu te grăbește nimeni și nimic, cu ochii pe jumătate deschiși și cu un gând vag și nearticulat undeva în spate, ca o muzică auzită din altă cameră, și umplu ibricul cu apă și îl pun pe foc și aștept.
Așteptând, fac lucruri. Lucruri atât de mărunte și de automate încât dacă cineva m-ar fi întrebat, o oră mai târziu, ce am făcut în dimineața aceea, nu aș fi putut răspunde cu precizie. Am luat cana din dulap — cea albastră, nu neapărat pentru că mi-o aleg conștient, ci pentru că mâna mea știe deja unde e și o ia înainte ca ochii mei să o vadă. Am spălat lingurița care rămăsese în chiuvetă. Am deschis fereastra un centimetru, exact cât să intre puțin aer fără să intre frig, calibrând acea deschidere nu prin calcul, ci prin o senzație acumulată în ani de dimineți cu fereastră deschisă. Am mers spre frigider, am evitat fără să mă gândesc scaunul care era puțin tras din loc, am luat laptele, am citit data de expirare nu cu atenție deliberată, ci cu un fel de scanare periferică care îmi comunică e bun sau miroase înainte să îl deschizi fără să constituie un moment conștient de decizie.
Toate astea în, poate, două minute. Fără să mă gândesc. Fără să planific. Fără să calculez distanțe sau să estimez greutăți sau să modelez proprietățile fizice ale ibricului sau ale laptelui sau ale aerului care intra pe fereastra deschisă exact un centimetru. Corpul meu știa tot ce trebuia să știe și făcea tot ce trebuia să facă, și mintea mea era liberă să rătăcească, să asculte muzica aceea vagă din altă cameră, să fie în altă parte.
Și tocmai în dimineața aceea compozită, cu cafeaua pe jumătate băută și cu soarele care intra oblic pe geam și cu zgomotul surd al orașului care se trezea și el, am citit pentru prima dată despre paradoxul Moravec — nu în contextul unui articol tehnic, ci într-o conversație online în care cineva îl cita pe LeCun, și care mi-a oprit gândul vag din altă cameră și l-a adus brusc și complet în prezent.
Hans Moravec, robotician la Carnegie Mellon, a observat ceva în anii optzeci care părea contraintuitiv și care s-a dovedit a fi unul dintre adevărurile cele mai solide și mai puțin celebrat din istoria inteligenței artificiale: lucrurile pe care le considerăm dificile — matematica, logica, șahul, argumentația juridică — sunt relativ ușoare pentru computere. Lucrurile pe care le considerăm ușoare — mersul, apucarea obiectelor, navigarea unui spațiu necunoscut, recunoașterea unei fețe în lumină proastă — sunt extraordinar de dificile, uneori imposibile, pentru mașini.
Am stat cu asta câteva minute, cu cafeaua care se răcea în mână, și am realizat că tocmai făcusem, în cele două minute anterioare, o serie de lucruri pe care nicio mașină construită vreodată nu le poate face cu aceeași dezinvoltură. Evitasem un scaun tras din loc. Calibrasem o fereastră. Luasem o cană fără să o văd. Acestea nu sunt performanțe — sunt operații de fond, invizibile, background noise al existenței mele fizice în lume. Și ele reprezintă, din perspectiva cercetării în robotică și în inteligență artificială, unele dintre cele mai dificile probleme nerezolvate din istoria domeniului.
Inversiunea este completă și desconcertantă. Ceea ce îi pare omului dificil — să rezolvi o integrală, să câștigi la șah, să promovezi examenul de barou — este simplu computațional, în sensul că există algoritmi bine definiți care pot aborda problema sistematic. Ceea ce îi pare omului banal — să traversezi o cameră, să prinzi un pahar care cade, să împăturești o cămașă — este extraordinar de dificil pentru mașini, în sensul că nu există, deocamdată, nicio arhitectură care să o facă cu adevărat bine în condiții generale, necontrolate, cu surprize și variabilitate și acea imprevizibilitate specifică lumii reale.
Și am înțeles atunci, cu cafeaua rece în mână și cu soarele oblic pe geam, că valorile noastre despre inteligență sunt răsturnate — nu greșite, ci pur și simplu calibrate pe o scală care reflectă experiența noastră subiectivă și nu natura reală a problemelor.
3.2 Pisica de casă ca standard imposibil de atins
Avem o pisică. Se numește Gri, pentru că atunci când fiul meu a numit-o, la opt ani, precizia taxonomică îl interesa mai mult decât poetica, și pisica era gri, deci Gri. Acum fiul meu are șaisprezece ani și Gri are opt, și amândoi au trecut prin schimbări pe care nu le-aș fi prezis în detaliu, deși le-aș fi putut prezice în linii mari — fiul meu a crescut și s-a complicat în moduri care mă bucură și mă sperie în egală măsură, iar Gri a rămas aproximativ Gri, doar cu ceva mai puțină energie și ceva mai multă preferință pentru fotoliul din colțul camerei de zi.
Gri face în fiecare dimineață câteva lucruri pe care le urmăresc uneori cu o atenție pe care ea o găsește probabil inutilă și pe care o marchează prin faptul că mă privește o secundă și apoi continuă să facă ce făcea. Coboară de pe canapea — și în această coborâre există o calculare implicită a înălțimii, a unghiului, a suprafeței pe care va ateriza, a forței de care are nevoie, toate astea rezolvate în fracțiuni de secundă și fără nicio tensiune vizibilă, cu acea grație specifică felinelor care face ca și o coborâre banală de pe o canapea să pară o mică performanță artistică. Traversează camera — și în această traversare evită piciorul de scaun cu o margine de câțiva centimetri, calculând cu precizie un spațiu care nu este marcat în niciun fel, care se schimbă în funcție de cum am mutat mobilierul ieri sau de ce am lăsat pe jos azi. Se oprește la bol, mirosind înainte să mănânce, verificând cu un simț pe care noi nu îl avem în aceeași acuitate dacă ceea ce e acolo este ceea ce așteaptă — și dacă nu este, se întoarce și mă privește cu o expresie care nu lasă niciun dubiu că situația necesită corecție.
Toate astea sunt banale. Sunt atât de banale încât nu le-aș fi descris niciodată dacă nu aș fi citit despre paradoxul Moravec și dacă nu m-aș fi oprit să mă gândesc la ce reprezintă, din perspectiva unui inginer în robotică, fiecare dintre aceste operații banale.
Coborârea de pe canapea este un problem de control motor de o complexitate uimitoare — calcularea poziției centrului de greutate în mișcare, predicția forței de impact cu solul, ajustarea în timp real a posturii pentru a compensa variațiile suprafeței de aterizare. Traversarea camerei cu evitarea obstacolelor dinamice este un problema de navigare și planificare în spațiu tridimensional cu informație incompletă și perturbații neprevăzute. Mirositul bolului înainte de a mânca este o integrare senzorială multimodală care combină informații olfactive, vizuale și memorie episodică despre experiențe anterioare cu același bol.
Robotiștii lucrează la toate astea de decenii. Au progrese — Boston Dynamics face lucruri impresionante, roboții industriali pot executa sarcini repetitive cu precizie remarcabilă în medii controlate. Dar un robot care să facă ce face Gri în fiecare dimineață, în bucătăria mea, cu mobilierul meu aranjat cum îl aranjez eu și cu variabilele mele specifice — nu există. Nu este pe punctul de a exista. Este o problemă deschisă.
Și LeCun spune asta fără eufemisme: „Cu care pisica ta de casă se descurcă perfect. Dar încă nu și cu computerele." Nu este o afirmație romantică despre superioritatea naturii față de tehnologie. Este o constatare tehnică despre unde se află frontiera reală a inteligenței artificiale — nu la examenul de barou, nu la olimpiada de matematică, nu la generarea de text convingător, ci la bucătăria mea de sâmbătă dimineața, la Gri care coboară de pe canapea și traversează camera și miroase bolul, operații atât de banale încât nu le menționăm niciodată când vorbim despre inteligență, și care sunt tocmai din cauza asta imposibil de subestimat.
Cele mai puternice sisteme de inteligență artificială construite vreodată nu pot face ce face Gri înainte de micul dejun. Nu e o lacună minoră. LeCun are dreptate — este întreaga frontieră.
3.3 Evoluția a rezolvat deja problema dificilă
Fiul meu a învățat să meargă la unsprezece luni. Știu asta nu dintr-un jurnal — nu am ținut niciodată un jurnal cu datele exacte ale etapelor lui de dezvoltare, ceea ce acum îmi pare o omisiune, deși la vremea respectivă eram prea ocupat să fiu prezent ca să și documentez — ci dintr-o fotografie pe care o am undeva pe un hard disk extern și pe care o caut din când în când fără s-o găsesc, și care îl arată stând în picioare, singur, cu mâinile ușor ridicate pentru echilibru, cu expresia aceea de concentrare totală pe care o au copiii mici când fac ceva care le cere tot ce au.
La unsprezece luni. Fără instrucțiuni. Fără un manual de utilizare pentru gravitație. Fără o prezentare PowerPoint despre centrul de greutate sau despre proprietățile fizice ale suprafețelor sau despre cum să calculezi forța necesară pentru a ridica un picior fără să cazi pe celălalt. A stat, s-a ridicat, a căzut, s-a ridicat din nou, a căzut din nou, și după un număr de repetări pe care nu l-am numărat și nu pot estima, a mers.
Și ceea ce a făcut în acele săptămâni de căzut și ridicat și iar căzut a fost să rezolve, în corpul lui de unsprezece luni, o problemă de control al unui sistem dinamic cu multiple grade de libertate, feedback senzorial multimodal, adaptare în timp real la perturbații și transfer de cunoștințe implicit din experiențele anterioare. A rezolvat-o fără să știe că o rezolvă. A rezolvat-o prin contact direct și repetat cu o lume fizică care nu i-a dat nicio pauză și nicio compasiune — a căzut ori de câte ori legile fizicii au cerut să cadă și s-a ridicat ori de câte ori mușchii lui au permis să se ridice, și din această interacțiune brută cu realitatea a emergens ceva pe care nicio arhitectură computațională nu știe să construiască în aceeași manieră.
Evoluția a rezolvat problema asta. Nu elegant, nu rapid în termeni umani — miliarde de ani de selecție naturală, milioane de generații care au căzut și s-au ridicat și au murit dacă nu s-au ridicat suficient de repede sau suficient de bine, și dintr-un proces atât de brutal și de îndelungat a emergens această competență corporală pe care o ducem cu noi ca pe ceva de la sine înțeles, ca pe aerul pe care îl respirăm, ca pe gravitația de care ne agățăm.
Limbajul, pe de altă parte — acea parte a inteligenței noastre pe care o prețuim cel mai mult și pe care mașinile au replicat-o cel mai bine — este o inovație recentă. Recent în termeni evolutivi: câteva sute de mii de ani, poate mai puțin. Scrisul este și mai recent: câteva mii de ani. Argumentația formală, logica, matematica — secole. Pe scara evoluției biologice, aceste sunt experimente de ultimă oră, straturi subțiri adăugate deasupra unei infrastructuri mult mai vechi și mult mai profunde.
Și mașinile au învățat stratul subțire. Au spart codul stratului subțire — nu perfect, nu complet, dar suficient de bine încât să producă o iluzie convingătoare. Infrastructura de dedesubt — miliardele de ani de competență corporală, de înțelegere fizică, de contact direct și perpetuu cu o lume care nu vine sub formă de tokeni — rămâne atinsă.
LeCun înțelege asta mai bine decât aproape oricine altcineva din domeniu, pentru că a petrecut cincisprezece ani nu celebrând progresul modelelor lingvistice, ci întrebând ce lipsește, unde este prăpastia, cum ar arăta un sistem care să nu se mulțumească cu stratul subțire. Și răspunsul lui — world models, JEPA, arhitecturi care să permită predicție și planificare în spațiul reprezentărilor abstracte ale lumii fizice — nu este o soluție completă și nici nu pretinde să fie. Este o direcție. O direcție care recunoaște că problema dificilă nu este limbajul, ci lumea, și că miliardele investite în a face limbajul mai fluent nu aduc mai aproape rezolvarea problemei dificile cu niciun centimetru.
Gri tocmai a urcat înapoi pe canapea. A calculat înălțimea, a estimat distanța, s-a propulsat cu o forță exact suficientă, a aterizat cu o grație care nu cere niciun comentariu și care nu primește niciun aplauz, și acum s-a ghemuit în colțul ei preferat cu privirea ațintită spre fereastra pe unde intră soarele de dimineață.
Nicio mașină construită vreodată nu poate face asta.
Și noi sărbătorim sistemele care trec examenul de barou.
IV. Realitatea fizică — Altă natură a problemei
4.1 Lumea nu vine sub formă de jetoane
Există o după-amiază de octombrie pe care o am în minte cu o precizie care mă surprinde uneori, pentru că nu a fost o după-amiază importantă în niciun sens convențional al cuvântului — nu s-a întâmplat nimic memorabil, nu a existat nicio revelație, nicio conversație care să fi schimbat ceva, nicio decizie luată sau amânată, doar eu și fiul meu în curtea din spate a casei bunicii lui, el cu vreo doisprezece ani atunci și eu cu suficientă energie ca să mă apuc de treburi pe care altfel le amânam, și reparăm împreună un gard care se strica de câteva luni și pe care eu îl tot promisesem că îl repar și nu îl reparasem.
Fiul meu ținea scândurile în timp ce eu băteam cuiele, și asta era tot contractul nostru de după-amiază — el ținea, eu băteam — dar în practica aceea simplă erau ascunse o sută de negocieri tacite pe care nu le-am numit niciodată și pe care acum, la distanța de câțiva ani, le văd mai clar decât le vedeam atunci. El trebuia să simtă cu mâinile când scândura era bine poziționată — nu să o măsoare, nu să o calculeze, ci să o simtă, să perceapă prin presiunea din palme și din degete dacă era dreaptă sau ușor înclinată, dacă era lipită bine de cea de alături sau dacă lăsa un spațiu mic care mai târziu ar fi lăsat să intre apa și care ar fi putut totul să ia de la capăt. Și eu trebuia să calibrez forța loviturii cu ciocanul în funcție de tipul de lemn — mai moale lângă nod, mai dur în fibră curată — și să ajustez unghiul în timp real în funcție de cum se comporta cuiul, dacă se ducea drept sau dacă începea să se aplece și trebuia îndreptat înainte să devină un dezastru.
Niciuna din aceste calibrări nu a trecut prin limbaj. Nu mi-am spus, în timp ce băteam cuiele, acest lemn este mai moale lângă nod și deci trebuie să reduc forța cu aproximativ douăzeci de procente și să ajustez unghiul cu trei grade spre stânga. Am simțit lemnul prin coada ciocanului și am ajustat, iar ajustarea a fost atât de imediată și de integrată în acțiune încât a constituit un singur gest, nu o secvență de percepție-analiză-decizie-execuție. Realitatea fizică a acelui gard, a acelui lemn, a acelor cuie și a acelui ciocan nu a venit sub nicio formă discretă, nu a putut fi segmentată în unități care să poată fi procesate secvențial — a venit ca un flux continuu de informație senzorială care s-a integrat direct în acțiune, fără intermediari, fără tokenuri, fără reprezentare simbolică.
Și asta este, cred, ceea ce LeCun încearcă să comunice cu o insistență care uneori este citită ca aroganță dar care mi se pare, cu cât îl urmăresc mai mult, o formă de frustrare onestă față de un domeniu care a găsit o soluție parțială și o celebrează ca pe o soluție completă: realitatea fizică este cu totul altceva decât limbajul, nu în grad, ci în natură, și această diferență de natură face ca orice progres pe dimensiunea lingvistică să fie, din perspectiva problemei fizice, irelevant.
Lumea reală este un semnal continuu. Nu vine în bucăți discrete pe care le poți separa și număra și analiza. Un câmp vizual nu este o colecție de pixeli — este un flux de lumină care se schimbă în fiecare milisecundă în funcție de mișcarea ta, a obiectelor din jur, a surselor de lumină, a condițiilor atmosferice, și care trebuie integrat nu imagine cu imagine, ci ca o experiență temporală continuă în care fiecare moment conține informație despre momentul anterior și constrânge momentul următor. Greutatea unui obiect nu este un număr — este o senzație care se distribuie în timp și spațiu pe toată suprafața de contact, care se schimbă când obiectul se mișcă sau când tu te miști, care conține informație nu doar despre masă, ci despre centrul de greutate, despre distribuția internă, despre materialul din care e făcut și despre cum va răspunde la forțe viitoare.
Niciun corpus de text, oricât de vast, nu poate captura asta. Nu din cauza dimensiunii — nu este o problemă de câte date ai, ci o problemă de tip de date. Textul este o proiecție unidimensională a unei realități multidimensionale — o umbră, nu obiectul. Și o umbră, oricât de precisă și de detaliată, rămâne o umbră. Nu poți reconstitui obiectul din umbra lui, pentru că proiecția pierde informație în mod ireversibil.
Gândul acesta m-a urmărit toată seara după ce am citit argumentul lui LeCun, și l-am dus cu mine în bucătărie unde am tăiat ceapă pentru o supă și am simțit, probabil pentru prima dată cu adevărat conștient, textura tăișului cuțitului prin carnea cepei, rezistența ușor diferită a stratului exterior față de interior, temperatura suprafeței de lemn a tocătorului sub palma stângă, umiditatea care se răspândea pe degete pe măsură ce ceapa se tăia — și m-am gândit că niciun text scris vreodată despre tăiatul cepei nu conține aceste informații, pentru că nu pot fi conținute în text, pentru că textul nu are canale pentru ele, pentru că există o întreagă dimensiune a experienței umane care nu a trecut niciodată prin limbaj și care nu va trece niciodată, și că tocmai această dimensiune este cea pe care mașinile noastre cele mai avansate o ignoră complet.
4.2 Modelul lumii ca miză reală
Tatăl meu — nu tatăl meu biologic, ci omul pe care l-am numit tată pentru că era soțul mamei mele și pentru că a fost prezent în toate modurile în care contează prezența — era mecanic auto. Nu mecanic de service modern, cu computere de diagnoză și senzori și interfețe digitale, ci mecanic în sensul vechi și complet al cuvântului, omul care punea mâna pe motor și asculta și simțea și știa, din acel contact direct și repetat cu sute de motoare de-a lungul a zeci de ani, ce nu mergea și de ce și cum se putea repara.
Îl urmăream uneori când eram mic, nu pentru că mașinile mă interesau în mod special, ci pentru că el era acolo și eu eram acolo și nu existau multe alte locuri unde să fiu. Stăteam pe o bancă de lemn în colțul garajului și mă uitam cum el se apleca deasupra motorului deschis cu o atenție pe care nu o mai văzusem la nimeni altcineva — nu atenția concentrată și vizibilă a cuiva care rezolvă o problemă nouă, ci atenția calmă și profundă a cuiva care verifică ceva față de un model intern pe care îl are deja, față de o așteptare construită din experiență și care îi permite să detecteze imediat când ceva nu corespunde.
Nu calcula. Nu urmărea un algoritm. Asculta motorul cu o ureche antrenată de ani de zile să audă diferența dintre un zgomot normal și un zgomot care prevestește o problemă, un zgomot care era bine și un zgomot care nu era bine, și din această diferență, fără diagrame și fără computere, deducea ce trebuia reparat și cum. Avea, în capul lui, un model al motorului — nu o reprezentare simbolică, nu o hartă conceptuală, ci ceva mai profund și mai integrat, o înțelegere corporală și experiențială a felului în care funcționează acel sistem, a relațiilor cauzale dintre componente, a modului în care o problemă într-un loc produce simptome în altul.
Acela este un world model. Nu în terminologia lui LeCun, nu în sensul tehnic al arhitecturilor de machine learning — ci în sensul fundamental și originar al termenului: o reprezentare internă a lumii care permite predicție, care permite anticipare, care permite acțiune competentă în fața surprizei și a variabilității, care este construită nu din statistici asupra descrierilor lumii, ci din contact direct, repetat, corporalizat cu lumea însăși.
LeCun vorbește despre world models în contextul cercetării în inteligență artificială cu o pasiune pe care o înțeleg mai bine acum, după ce am stat suficient cu ideea, decât o înțelegeam la prima lectură. Nu este o pasiune pentru o arhitectură tehnică specifică — deși JEPA și variantele ei sunt soluțiile concrete pe care le propune. Este o pasiune pentru o direcție, pentru o recunoaștere a faptului că ceea ce lipsește sistemelor actuale nu este mai multă putere de calcul sau mai multe date sau parametri mai mulți, ci un tip diferit de cunoaștere — cunoașterea care rezultă din interacțiunea directă cu o lume care rezistă, care surprinde, care nu se conformează așteptărilor și care prin această neconformare te obligă să îți revizuiești modelul și să înveți ceva real.
Tatăl meu nu a citit niciodată un manual despre motoare — sau a citit puțin, suficient cât să înceapă, și restul l-a învățat din motoarele care nu mergeau și din mâinile lui care căutau unde și de ce. Și ceea ce a acumulat în deceniile acelea nu era informație despre motoare — era înțelegere. Diferența dintre informație și înțelegere este exact diferența pe care LeCun o indică când spune că modelele lingvistice mari nu vor duce la inteligență generală, oricât le scalăm: ele acumulează informație despre lume, nu înțelegere a lumii, și cele două nu sunt același lucru și nu devin același lucru prin multiplicare.
Înțelegerea — cea reală, cea care permite acțiune competentă în condiții noi, cea care generalizează dincolo de exemplele văzute — se construiește prin contact cu realitatea care rezistă. Tatăl meu a lovit cu cheia fixă în locuri greșite înainte să știe să lovească în locuri corecte. A demontat piese care nu trebuiau demontate înainte să știe care trebuiau. A montat invers lucruri care aveau un sens înainte să simtă, prin rezistența materialului, că sensul contează. Din această serie de greșeli și corecții, din acest dialog perpetuu cu o realitate fizică care nu iartă și nu explică dar care oferă feedback imediat și incontestabil, a emergens un model intern pe care nicio carte nu i l-ar fi putut da și pe care nicio statistică textuală nu îl poate conține.
Asta este miza reală a cercetării pe care o conduce LeCun. Nu chatboți mai fluenți. Nu modele care să treacă mai multe examene sau să scrie texte mai convingătoare. Sisteme care să poată construi, prin interacțiune directă cu lumea fizică sau cu reprezentări suficient de bogate ale ei, un model intern care să permită predicție, planificare și adaptare — nu în spațiul simbolurilor lingvistice, ci în spațiul realității continue, multidimensionale, surprinzătoare, rezistente pe care o numim lume.
4.3 Cincisprezece ani de muncă spre problema reală
Există un tip de muncă pe care îl recunosc și îl respect în mod special, probabil pentru că am petrecut suficient timp în domenii în care nu există, și absența lui lasă o urmă specifică — munca îndreptată spre o problemă pe care nu o vei rezolva în curând, poate nu în această decadă, poate nu în cariera ta, dar care este problema reală și care merită tot ce ai, tocmai pentru că este reală și tocmai pentru că este dificilă.
LeCun nu a petrecut cincisprezece ani lucrând la world models pentru că este o direcție populară sau pentru că atrage finanțare sau pentru că conferințele sunt pline de oameni care aplaudă rezultatele intermediare. Dimpotrivă — a lucrat la asta în timp ce restul industriei mergea în direcția opusă, în timp ce capitalul și atenția și talentul se concentrau pe modelele lingvistice mari, în timp ce fiecare nouă versiune de GPT sau Claude sau Gemini primea titluri de presă și evaluări de miliarde și discuții despre ce înseamnă și ce nu înseamnă pentru viitorul omenirii.
El a continuat să spună, cu o consecvență pe care o găsesc mai mult decât admirabilă — o găsesc rară, pentru că consecvența în fața consensului opus este o virtute greu de menținut — că problema reală nu este acolo unde se uită toată lumea. Că examenul de barou nu este criteriul care contează. Că fluența lingvistică, oricât de impresionantă, nu este drumul spre inteligență generală. Că există o prăpastie între ceea ce avem și ceea ce am numi cu adevărat inteligență, și că această prăpastie nu se traversează prin mai mult din ce avem deja.
Mă gândesc uneori la ce înseamnă să lucrezi cincisprezece ani la o problemă pe care nu poți garanta că o vei rezolva, la ce fel de răbdare și de claritate interioară cere asta — nu încăpățânare, care este altceva, ci convingere lucidă că direcția este corectă chiar dacă drumul este lung și chiar dacă cei din jur merg în altă parte și par să ajungă mai repede undeva, chiar dacă acel undeva nu este destinația pe care ai ales-o.
Tatăl meu a lucrat în același garaj timp de treizeci de ani. Nu pentru că nu a putut pleca sau pentru că nu a avut alternative — a avut, cel puțin câteva, și le-a refuzat cu un calm care mie, adolescent, mi se părea de neînțeles. A rămas pentru că știa ce face și de ce și pentru că locul acela, cu uleiul pe podea și cu becul care pâlpâia câteodată și cu bancul de scule pe care le cunoștea pe toate pe dinafară, era locul în care problema lui reală — înțelegerea motoarelor, capacitatea de a le readuce la viață — era prezentă și rezolvabilă și reală.
LeCun a ales, în termeni profesionali, un garaj similar. Nu garajul spectaculos al scalării modelelor lingvistice, cu tot zgomotul și lumina și banii care intră în el — ci garajul tăcut și dificil al înțelegerii a ceea ce lipsește, al construirii de sisteme care să știe ceva despre lume în sensul profund și corporalizat al lui a ști, nu în sensul statistic și superficial al lui a fi văzut descris în text.
Și în timp ce el lucrează acolo, în liniștea relativ a unei cercetări care nu primește titluri de ziar la fiecare iterație, industria investește sute de miliarde în direcția opusă — în scalarea soluției parțiale, în fluența care impresionează fără să înțeleagă, în autocompletarea care mimează gândirea fără să o conțină.
Nu știu dacă LeCun va reuși în sensul tehnic, complet și definitiv al cuvântului. Nu cred că știe nici el. Dar știu — și cred că și el știe — că întreabă întrebarea corectă. Și în cercetare, ca și în viață, a ști ce întrebi este mai mult de jumătate din drum.
Gri tocmai s-a sculat din fotoliu, a traversat camera cu acea indiferență regală specifică pisicilor față de orice activitate umană, a sărit pe pervazul ferestrei și s-a oprit acolo, urmărind ceva în stradă pe care eu nu îl văd și pe care ea îl calculează cu un aparat perceptual și motor de o complexitate care depășește tot ce am construit vreodată.
Fiul meu, în camera lui, vorbește cu un chatbot despre ceva — nu știu ce, și nu merg să verific, pentru că granița aceea invizibilă care spune sunt aici, dar nu te urmăresc trebuie respectată mai ales când ești tentat să nu o respecți.
Mașina îi va răspunde fluent. Va articula bine. Va părea că înțelege.
Gri pe pervaz înțelege mai mult decât va înțelege vreodată acea mașină.
Și eu, între cele două — între fiul meu și chatbotul lui și pisica pe pervaz și garajul lui LeCun undeva în California — încerc să îmi dau seama ce înseamnă asta și ce ar trebui să facem cu înțelegerea asta, dacă ar trebui să facem ceva, și dacă a ști unde se află frontiera reală schimbă ceva în modul în care ne raportăm la tot ce am construit până acum.
Cred că schimbă. Nu știu încă exact cum.
V. Miza — Ce înseamnă asta pentru noi
5.1 Unde investim și ce cumpărăm
Există o seară de vineri — nu o seară anume, ci una dintre acelea care se repetă cu o regularitate pe care am învățat să o recunosc și să o accept, deși acceptarea nu înseamnă că nu o simt — în care stau la biroul meu după ce fiul meu a adormit și după ce casa a intrat în liniștea aceea specifică nopților de vineri, o liniște mai densă decât în alte seri, ca și cum săptămâna care tocmai s-a încheiat și-a depus greutatea undeva în pereți și în podea și în aerul pe care îl respir, și mă uit la ecran și citesc despre ultimul anunț de finanțare pentru un model lingvistic nou.
Cifrele sunt atât de mari încât nu mai produc nicio reacție emoțională reală în mine — sunt dincolo de scara la care imaginația mea poate opera cu ceva care să semene cu concretul. Zece miliarde. Cincizeci de miliarde. O sută de miliarde. Sunt numere care există undeva în spațiul abstract al finanțelor globale și care nu au nicio legătură cu niciun obiect sau experiență pe care le-am atins vreodată, și totuși ele descriu fluxuri reale de resurse reale îndreptate spre un scop specific — scalarea soluției parțiale, construirea de modele care să producă text mai fluent, mai convingător, mai util în sensul imediat și comercial al cuvântului.
Mă ridic de la birou și merg la bucătărie să beau un pahar cu apă, pentru că am observat că gândurile complicate merg mai bine când mișc puțin, când scot corpul din postura de ședere și îl pun în contact cu spațiul, cu solul sub tălpi, cu răceala paharului în palmă, cu sunetul apei care curge din robinet. Nu am citit asta nicăieri — am descoperit-o prin repetiție, prin faptul că de suficiente ori m-am ridicat de la birou cu un gând neclar și m-am întors cu unul mai clar, și acum știu că există o legătură, chiar dacă nu știu să o explic, chiar dacă LeCun ar putea probabil să o explice prin termenii lui despre embodied intelligence și contact cu realitatea fizică.
Stau cu paharul de apă în mână și mă gândesc la ce cumpărăm cu acele sute de miliarde. Cumpărăm fluență. Cumpărăm convingere. Cumpărăm sisteme care să producă text pe care fiul meu să îl folosească pentru a înțelege legea lui Ohm și pe care eu să îl folosesc pentru a scrie propuneri pentru primari și consilieri locali, și aceste utilizări sunt reale și valoroase și nu vreau să le diminuez, pentru că diminuarea lor ar fi o formă de ipocrizie pe care nu mi-o permit — eu însumi folosesc aceste instrumente în fiecare zi și viața mea profesională este mai ușoară cu ele decât fără ele.
Dar — și acesta este dar-ul care nu dispare oricât încerc să îl ignor — nu cumpărăm înțelegere. Nu cumpărăm sisteme care să știe ceva despre lume în sensul în care tatăl meu știa ceva despre motoare sau în care Gri știe ceva despre spațiul dintre canapea și podea. Cumpărăm simulacre extrem de sofisticate ale unui singur strat din inteligența umană — stratul lingvistic, stratul vizibil, stratul pe care îl admirăm și îl premiem și îl confundăm cu tot restul — și plătim pentru ele prețuri care sugerează că am rezolvat problema, că am traversat frontiera, că ceea ce urmează este doar rafinare și optimizare.
Nu am traversat frontiera. Am construit o copie convingătoare a unuia dintre panourile de pe frontieră și o admirăm ca și cum ar fi teritoriul de dincolo.
Știu că sună dur și poate nedrept față de realizările reale ale oamenilor care construiesc aceste sisteme — oameni inteligenți, dedicați, care muncesc la probleme genuin dificile și care produc rezultate genuin utile. Nu este o critică la adresa lor. Este o critică la adresa narațiunii care înconjoară munca lor, la modul în care industria în ansamblu și publicul în general și capitalul care finanțează totul interpretează ce înseamnă acele rezultate și ce direcție indică ele.
LeCun a spus-o mai clar decât aș putea spune eu, și a spus-o din interior, din poziția cuiva care nu poate fi acuzat că nu înțelege tehnica sau că nu apreciază realizările: investim în rezolvarea problemei ușoare și lăsăm problema dificilă nerezolvată, și facem asta nu din ignoranță, ci pentru că problema ușoară produce rezultate vizibile rapid, produce produse care se vând, produce demonstrații care impresionează investitorii și publicul și jurnaliștii și politicienii care decid cum să reglementeze sau să nu reglementeze un domeniu pe care îl înțeleg mai puțin decât cred că îl înțeleg.
Problema dificilă nu produce demonstrații rapide. Produce decenii de cercetare fundamentală cu rezultate intermediare greu de comunicat unui public obișnuit cu iterații de șase luni și lansări cu muzică și keynote-uri cu animații. Problema dificilă cere exact tipul de răbdare pe care piețele financiare și ciclurile de știri și atenția umană în era rețelelor sociale îl recompensează cel mai puțin.
Și astfel distribuim invers față de dificultate — miliardele merg spre ce este ușor și spectaculos, și cercetarea fundamentală spre ce este greu și invizibil rămâne subfinanțată și subapreciată și populată de oameni ca LeCun care au ales inconfortul lucidității în fața confortului consensului.
Mă întorc la birou cu paharul de apă pe jumătate băut și mă uit din nou la cifra din articol și simt ceva care nu este exact frustrare și nu este exact tristețe, ci este poate cel mai bine descris ca o formă de vertige — vertijul specific pe care îl simt când realizez că ceva important se întâmplă în direcția greșită și că nu există niciun mecanism simplu pentru a corecta asta, niciun buton de apăsat, niciun argument care să convingă piețele să fie răbdătoare sau capitalul să fie filozofic sau atenția publică să fie calibrată pe probleme cu orizonturi de decenii în loc de trimestre.
5.2 Criteriul corect de evaluare
Fiul meu a venit acasă acum câteva săptămâni cu o notă bună la un test de biologie și mi-a spus, cu o nonșalanță studiată care nu reușea să ascundă complet satisfacția de dedesubt, că folosise un chatbot să îl ajute să se pregătească. Nu mi-a cerut permisiunea și nu m-a întrebat dacă este corect sau greșit — mi-a spus ca pe un fapt, ca și cum ar fi spus că folosise un creion sau un manual, ca și cum statutul instrumental al chatbotului era atât de evident încât nu necesita negociere sau justificare.
Nu am spus nimic în momentul acela. L-am privit o secundă, am nodat din cap, am spus ceva de genul bine, și el a dispărut în camera lui cu acea viteză pe care o au adolescenții când consideră că o conversație s-a încheiat — o viteză care nu este niciodată rude, ci este pur și simplu eficientă, o optimizare a timpului pe care nu o pot condamna, chiar dacă uneori aș vrea să îl opresc și să îi spun stai, nu am terminat, am mai multe de spus, sau poate nu am mai multe de spus, dar vreau să stăm puțin în aceeași cameră fără să avem neapărat ceva de spus.
Dar am rămas cu un gând care nu a plecat în seara aceea și care a revenit în mai multe forme în zilele care au urmat: ce am evaluat, de fapt, când am văzut nota lui bună? Am evaluat înțelegerea lui despre biologie? Sau am evaluat capacitatea lui de a folosi un instrument pentru a produce un output care să satisfacă criteriile unui test?
Și imediat după: cum este această întrebare diferită de întrebarea pe care ar trebui să o punem despre sistemele de inteligență artificială pe care le evaluăm prin examene de barou și olimpiade de matematică și benchmark-uri de tot felul — evaluăm înțelegere sau evaluăm capacitatea de a produce output-uri care satisfac criteriile noastre de evaluare?
LeCun propune o schimbare de criteriu care mi se pare, cu cât stau mai mult cu ea, nu doar corectă din perspectivă tehnică, ci profund necesară din perspectivă epistemologică. Nu examenul de barou. Nu olimpiada de matematică. Nu benchmark-ul lingvistic. Împăturește o cămașă. Încarcă mașina de spălat vase. Navighează printr-o cameră necunoscută fără hartă. Leagă șireturile.
Aceste criterii mi se par revoluționare nu pentru că sunt tehnic mai riguroase — deși sunt, în sensul că testează capacități genuin diferite și genuin mai profunde decât cele lingvistice — ci pentru că sunt democratic incontestabile. Orice om, cu orice nivel de educație, cu orice background tehnic sau non-tehnic, poate evalua dacă un sistem a împăturat bine o cămașă. Nu trebuie să înțelegi arhitecturi transformer sau funcții de pierdere sau tehnici de fine-tuning ca să observi că cămașa e mototolită sau că șiretul e dezlegat sau că robotul a lovit ușa în loc să o deschidă.
Democratizarea criteriului de evaluare este, în fond, și o democratizare a dreptului de a judeca ce este și ce nu este inteligență. Atâta timp cât evaluăm prin examene de barou și benchmark-uri lingvistice, evaluarea aparține experților — celor care știu să interpreteze scorurile, să contextualizeze performanțele, să explice de ce un rezultat impresionant pe un benchmark nu implică neapărat ce pare să implice. Când evaluezi prin cămașa împătururită sau șiretul legat, evaluarea aparține oricui are ochi.
Și poate că tocmai de aceea criteriul acesta este incomod pentru industrie — nu pentru că ar fi tehnic greșit, ci pentru că elimină stratul de opacitate tehnică în spatele căruia se pot ascunde distincțiile importante, distincțiile pe care LeCun le face și pe care puțini alții au curajul să le facă cu aceeași claritate.
Mă gândesc la fiul meu și la nota lui bună la biologie și mă întreb ce criteriu corect ar fi și pentru el — nu pentru a-l judeca sau a-i diminua satisfacția, care este reală și merită respectată, ci pentru mine, pentru a ști eu ce să evaluez când îl văd cum navighează această lume în care instrumentele devin din ce în ce mai puternice și din ce în ce mai greu de distins de competența reală.
Și ajung la ceva simplu, poate prea simplu pentru a fi util, dar care mi se pare adevărat: criteriul corect nu este nota, ci ce face cu ce a aflat. Dacă înțelegerea biologiei pe care a obținut-o cu ajutorul chatbotului îl ajută să înțeleagă ceva nou mâine, dacă se conectează cu altceva, dacă produce o curiozitate care nu existase înainte — atunci a învățat ceva real. Dacă a produs doar un output care a satisfăcut criteriile testului și nu a lăsat nicio urmă în felul lui de a vedea lumea — atunci a produs text bun fără înțelegere, exact ca modelul pe care l-a folosit.
Nu i-am spus asta. Poate ar trebui. Poate că tocmai asta este conversația pe care o tot amân, granița aceea invizibilă interpretând-o prea larg, prea confortabil, în avantajul meu.
5.3 Sărbătoarea prematură
Nu am fost niciodată la o conferință mare de inteligență artificială. Am urmărit câteva online, cu acel sentiment specific al privitorului de la distanță — admiraie amestecată cu o ușoară nelinște, ca și cum mă uit la o petrecere la care nu am fost invitat și nu sunt sigur dacă aș vrea să fiu invitat, dar la care ceva important se întâmplă și nu vreau să ratez.
Ce văd în acele conferințe, sau cel puțin ce am văzut în înregistrările pe care le-am urmărit, este o energie specifică, un tip de entuziasm pe care îl recunosc din alte contexte și care mă face întotdeauna puțin prudent — entuziasmul care înconjoară o soluție care merge, care produce rezultate vizibile, care impresionează, și care, în excitarea lui legitimă față de ce s-a realizat, tinde să piardă din vedere ce nu s-a realizat încă.
Sărbătorim. Și sărbătorile sunt necesare — munca grea merită recunoaștere, progresele reale merită celebrare, iar oamenii care construiesc lucruri dificile și utile merită aplauzele pe care le primesc. Nu contest asta. Dar sărbătoarea prematură — celebrarea înainte ca problema să fie cu adevărat rezolvată, echivalarea unui progres parțial cu o rezolvare completă — are un cost care nu se vede imediat și care se acumulează în timp, în forma atenției și resurselor și talentului îndreptate spre direcții greșite sau incomplete.
LeCun a spus-o cu o economie de cuvinte care mie îmi ia paragrafe: sărbătorim sisteme care nu pot face ce fac insectele fără efort. Nu este o hiperbola retorică. Este o constatare exactă. O muscă navighează spațiu tridimensional, detectează obstacole, aterizează pe suprafețe cu unghiuri variabile, se adaptează în timp real la condiții schimbătoare, totul cu un creier care numără neuroni în mii, nu în miliarde. Sistemele noastre cele mai avansate, cu parametrii lor în sute de miliarde și cu infrastructura lor de date-center și cu consumul lor de energie care rivalizeaza cu orașe mici, nu pot face ce face musca.
Și totuși sărbătorim. Nu din prostie sau din rea-credință — din același impuls care face ca iluzia fluenței să fie atât de puternică și de persistentă, din același mecanism psihologic care ne face să vedem stratul vizibil și să îl luăm drept tot. Am produs ceva care vorbește bine, și vorbitul bine este semnul inteligenței, deci am produs inteligență.
Nu am produs inteligență. Am produs cel mai sofisticat sistem de autocompletare din istoria omenirii, și asta este o realizare reală și remarcabilă și demnă de respect — dar nu este inteligență în sensul pe care LeCun îl are în minte când vorbește despre unde ar trebui să meargă cercetarea, nu este inteligența pe care o are pisica mea sau musca de pe geam sau fiul meu la unsprezece luni când învăța să meargă.
Îmi amintesc o seară în care fiul meu, pe atunci poate zece sau unsprezece ani, m-a întrebat dacă calculatoarele pot gândi cu adevărat, și eu i-am spus ceva evaziv și confortabil, ceva de genul depinde ce înțelegem prin a gândi, care este un răspuns adevărat dar nu este util, este genul de răspuns pe care îl dai când nu vrei să închizi o ușă dar nici nu vrei să intri pe ea.
Acum i-aș spune altceva. I-aș spune că depinde nu de ce înțelegem prin a gândi, ci de ce parte a gândirii ne uităm. Că dacă ne uităm la partea vizibilă — la limbaj, la argumentație, la rezolvarea problemelor formale — atunci da, calculatoarele o fac mai bine decât noi în multe contexte. Că dacă ne uităm la ce este dedesubt, la infrastructura invizibilă care face posibil tot restul — la navigarea spațiului fizic, la înțelegerea cauzalității prin contact direct cu lumea, la adaptarea la surpriză, la tot ce face pisica lui înainte de micul dejun — atunci nu, și nu știm încă cum să le facem să o facă, și ne mai trebuie timp și cercetare și onestitate despre unde se află frontiera reală.
I-aș mai spune că sărbătorile premature au un cost, că entuziasmul care nu distinge între ce am rezolvat și ce nu am rezolvat produce așteptări greșite și decizii greșite și, uneori, dezamăgiri mari care ar fi putut fi dezamăgiri mici dacă cineva ar fi calibrat mai bine de la început.
Și i-aș mai spune — pentru că acesta este, în fond, miezul a tot ce încerc să înțeleg în toate serile astea cu ecranul aprins și paharul de apă pe jumătate băut și Gri pe pervaz și el dormind în camera lui — că a ști unde se află frontiera reală nu înseamnă a fi pesimist față de ce se va afla dincolo de ea. Înseamnă a fi precis. Înseamnă a nu confunda harta cu teritoriul, fluența cu înțelegerea, autocomplete la scară mare cu gândirea care iese din contact direct cu o lume care rezistă și surprinde și nu se conformează niciodată complet așteptărilor noastre.
Fiul meu va trăi mai mult timp decât mine cu consecințele alegerilor pe care le facem acum — cu direcțiile de cercetare pe care le finanțăm și cu cele pe care le ignorăm, cu narațiunile pe care le acceptăm și cu cele pe care le contestăm, cu sistemele pe care le construim și cu capacitățile pe care le lăsăm neexplorate. Și pentru asta — pentru el, pentru că va trăi mai mult în această lume decât mine — mi se pare că merită să fim preciși. Că merită să spunem clar ce am rezolvat și ce nu. Că merită să aplaudăm realizările reale fără să le confundăm cu realizările complete.
LeCun spune asta de ani de zile, cu răbdarea cuiva care a înțeles că adevărurile incomode se spun de mai multe ori înainte să fie auzite. Eu îl ascult și încerc, la rândul meu, să găsesc limbajul în care să îl spun fiului meu — nu ca o prelegere, nu ca o lecție, ci ca pe o conversație pe care o port deja cu mine și în care el merită să fie inclus.
Granița aceea invizibilă care spune sunt aici, dar nu te urmăresc nu înseamnă că nu am nimic de spus. Înseamnă că aștept momentul potrivit. Și poate că momentul potrivit este mai aproape decât cred.
VI. Concluzie — Autocomplete la scară mare
Există o noapte — nu o noapte anume, ci o noapte compozită construită din toate nopțile în care am rămas ultimul treaz în casă, după ce fiul meu a adormit și după ce Gri s-a ghemuit în locul ei de pe fotoliu și după ce liniștea a intrat în toate camerele și s-a așezat acolo cu greutatea ei specifică — în care stau la birou și nu fac nimic în mod deliberat, adică nu scriu și nu citesc și nu lucrez la nimic, ci stau pur și simplu cu ecranul aprins în față și cu lumina lui albăstruie pe față și cu gândul care merge singur, fără să îl direcționez, ca apa care găsește singură nivelul.
În nopțile astea mă gândesc uneori la tatăl meu — la omul care nu era tatăl meu biologic dar care a fost tatăl meu în toate sensurile care contează, la garajul lui cu becul care pâlpâia și cu uleiul pe podea și cu bancul de scule pe care le știa pe toate pe dinafară — și mă întreb ce ar fi spus despre tot ce s-a construit în ultimii ani, despre modelele care vorbesc fluent și despre miliardele care curg spre ele și despre entuziasmul care înconjoară fiecare nouă versiune ca și cum de data aceasta, cu siguranță, am traversat frontiera.
Probabil că ar fi spus puțin. Nu era un om de multe cuvinte — vorbea când avea ceva de spus și tăcea când nu avea, și tăcerea lui nu era niciodată jenantă sau goală, era pur și simplu spațiul în care exista un gând care nu era încă gata să devină vorbă. Dar cred că ar fi recunoscut ceva în argumentul lui LeCun — nu în termenii tehnici, pe care nu i-ar fi știut, ci în substanța lui, în miezul lui, în distincția pe care o face între a ști să descrii ceva și a ști să o faci, între a vorbi despre motoare și a înțelege motoarele, între hartă și teritoriu.
El trăise întreaga lui viață profesională în teritoriu. Nu în descrierea teritoriului, nu în harta lui, nu în statisticile despre el sau în textele care îl evocau — în teritoriul însuși, cu mâinile în el, cu rezistența lui fizică transmisă prin coada cheii fixe, cu surprizele lui neașteptate care îl obligau să revizuiască ce credea că știe și să înțeleagă ceva nou. Și cred că ar fi simțit, cu instinctul cuiva care a lucrat toată viața cu lucruri reale, că există o diferență fundamentală între un sistem care a citit tot ce s-a scris despre motoare și un sistem care a reparat vreodată unul — o diferență care nu dispare oricât de mult citești, oricât de sofisticată devine statistica ta asupra textelor despre motoare.
Stau cu paharul de apă în mână — întotdeauna există un pahar de apă în nopțile astea, ca un recuzit pe care îl iau cu mine fără să beau din el, ca și cum prezența lui ar fi suficientă, ca și cum gestul de a-l umple ar fi constituit actul de hidratare și ce urmează este doar ritual — și mă gândesc la ce înseamnă, de fapt, tot ce am scris în capitolele care au precedat această concluzie.
Am scris despre iluzie — despre felul în care fluența mimează înțelegerea și despre felul în care noi, construiți evolutiv pentru o lume în care numai mințile vorbeau, nu știm să rezistăm iluziei fără un efort deliberat și repetat. Am scris despre limbaj ca problemă ușoară deghizată în dificilă, despre modul în care confundăm vârful cu muntele, stratul vizibil cu infrastructura invizibilă de dedesubt. Am scris despre paradoxul Moravec și despre pisica mea care face în fiecare dimineață lucruri pe care nicio mașină construită vreodată nu le poate face, și despre faptul că nu le menționăm niciodată când vorbim despre inteligență tocmai pentru că sunt prea banale, prea evidente, prea perfect rezolvate de miliarde de ani de evoluție ca să mai pară că necesită vreo explicație. Am scris despre lumea fizică ca semnal continuu care nu vine sub formă de tokeni și despre world models ca miză reală a cercetării lui LeCun, despre garajul lui tăcut față de spectacolul zgomotos al scalării modelelor lingvistice. Am scris despre unde investim și ce cumpărăm și despre criteriile greșite de evaluare și despre sărbătoarea prematură care costă în moduri pe care nu le vedem imediat dar le vom vedea mai târziu, când fiul meu va fi la vârsta la care sunt eu acum și va trebui să navigheze consecințele alegerilor pe care le facem astăzi.
Și acum stau cu tot ce am scris în spatele meu, ca un perete construit din propriile mele gânduri, și încerc să văd ce rămâne când dai la o parte argumentele și citatele și digresiunile și metaforele și exemplele personale — ce rămâne în centru, tare și simplu, ca miezul unui fruct din care ai mâncat tot ce era în jur.
Rămâne asta: am construit sisteme care îți pot scrie disertația înainte de a construi sisteme care îți pot lega șireturile. Și această inversiune nu este o ironie minoră, nu este o curiozitate academică, nu este un detaliu tehnic interesant pentru specialiști — este o declarație despre unde se află, de fapt, inteligența, și despre cât de departe suntem de ea, și despre faptul că distanța aceea nu se acoperă cu mai mult din ce avem deja.
Mă ridic de la birou și merg în camera fiului meu — nu să îl trezesc, nu să verific ceva, ci cu acel impuls pe care îl am uneori noaptea, un impuls pe care nu l-aș putea explica rațional și pe care nu încerc să îl explic, de a fi pur și simplu în același spațiu cu el pentru câteva secunde, de a auzi respirația lui regulată și de a vedea conturul lui sub pătură și de a simți că este acolo, că este bine, că liniștea din camera lui este o liniște bună și nu o liniște de altă natură.
Stau în pragul ușii poate zece secunde. El doarme cu fața spre perete, cu părul lui care s-a întunecat în ultimii ani și care nu mai are nimic din blondul de când era mic, cu umărul ieșit de sub pătură în modul specific în care au adolescenții de a dormi ca și cum regulile fizicii se aplică diferit pentru ei, ca și cum temperatura nu este o problemă, ca și cum corpul lor tânăr gestionează totul fără efort și fără plângere.
Și în cele zece secunde acelea, cu lumina de pe coridor intrând oblic în camera lui și cu respirația lui regulată și cu Gri care apare din nu știu unde și se freacă de piciorul meu cu acea indiferență demonstrativă pe care pisicile o folosesc ca monedă de afecțiune, mă gândesc că tot ce am scris în acest text este, în fond, despre el. Nu explicit — nu i se adresează lui, nu l-am scris pentru el, l-am scris pentru mine și pentru oricine altcineva care se întreabă aceleași lucruri. Dar implicit, la nivel de motivație, de urgență interioară, de miză personală — este despre el.
Pentru că el va trăi mai mult în această lume decât mine. Va trăi cu sistemele pe care le construim acum și cu cele pe care le vom construi în deceniile care urmează, va lua decizii pe baza a ceea ce va crede că sunt aceste sisteme și ce pot face, va calibra așteptările și criteriile și judecățile lui de valoare în funcție de narațiunile pe care le primește acum, când este adolescent și când totul se sedimentează cu o viteză și o permanență pe care nu o va mai regăsi niciodată la vârsta mea.
Și dacă narațiunile pe care le primește sunt greșite — dacă înțelege că fluența este înțelegere, că scalarea este profunzime, că examenul de barou este frontiera reală — atunci va lua decizii greșite, nu dintr-un defect al lui, ci dintr-un defect al informației pe care i-am dat-o, al cadrului pe care i l-am oferit pentru a interpreta o lume pe care noi o construim în timp ce el creșe în ea.
Aceasta este, poate, responsabilitatea cea mai concretă pe care o simt față de tot ce a scris LeCun și față de tot ce am încercat să elaborez în acest text — nu o responsabilitate abstractă față de progresul tehnologiei sau față de direcțiile corecte ale cercetării în inteligență artificială, ci o responsabilitate foarte specifică și foarte personală față de un adolescent care doarme cu umărul ieșit de sub pătură și care va trăi mai mult decât mine cu consecințele confuziei pe care o putem clarifica acum, dacă avem onestitatea să o facem.
Mă întorc la birou. Beau în sfârșit din paharul de apă — dintr-o dată, nu pentru că mi-e sete, ci pentru că am realizat că îl port cu mine de ore bune și nu am băut din el și asta mi se pare brusc o metaforă prea la îndemână pentru a o ignora complet, deși mă feresc de metaforele prea la îndemână pentru că de obicei sunt prea la îndemână tocmai pentru că sunt prea simple și lumea nu este niciodată atât de simplă.
Ecranul mă privește cu lumina lui albăstruie. Undeva pe serverele unor companii pe care nu le-am vizitat niciodată rulează modele cu miliarde de parametri care sunt gata să producă text despre orice subiect, cu orice ton, în orice stil, la orice oră din noapte. Sunt gata să scrie disertații și să rezolve ecuații și să treacă examene de barou și să explice legea lui Ohm unui adolescent la unsprezece seara cu o claritate pe care profesorii obosiți nu o pot întotdeauna egala.
Nu știu să lege șireturile.
Nu știu să traverseze o cameră necunoscută fără să se lovească de nimic. Nu știu să simtă greutatea unui obiect prin contact direct și să ajusteze forța în consecință. Nu știu să audă un motor și să deducă din sunetul lui ce nu merge și de ce. Nu știu să stea în pragul ușii unui adolescent care doarme și să simtă că este bine, că liniștea este bună, că prezența contează chiar și tăcută și fără niciun output vizibil.
Orice altceva este, cum spune LeCun și cum am încercat să înțeleg și să transmit în tot ce am scris — autocomplete la scară mare.
Impresionant. Util. Real în efectele sale practice și demn de respectat în realizările lui tehnice.
Dar nu inteligență. Nu în sensul în care Gri este inteligentă când sare de pe canapea și calculează aterizarea cu o grație pe care nu o menționăm niciodată pentru că este prea evident prezentă. Nu în sensul în care fiul meu era inteligent la unsprezece luni când căzut și s-a ridicat și a căzut din nou și a învățat să meargă din contactul direct și riscant și nemediat cu o lume care nu iartă și nu explică dar care oferă feedback imediat și incontestabil.
Frontiera reală nu este acolo unde o căutăm. Este în bucătăria mea de sâmbătă dimineața, în garajul tatălui meu cu becul care pâlpâia, în pragul ușii fiului meu în noapte, în tot ce facem fără să știm că facem și care este, tocmai pentru că nu îl vedem, cel mai greu de reprodus și cel mai important de înțeles.
Acolo se află, de fapt, inteligența artificială pe care nu am construit-o încă.
Orice altceva completează automat.
VII. Epilog — Ce îi spun fiului meu
Există o dimineață de duminică — aceasta nu este compozită, aceasta este reală și știu când a fost, era la începutul lui noiembrie, cu trei săptămâni înainte să termin de scris tot ce a precedat acest capitol — în care fiul meu s-a trezit înaintea mea.
Nu se întâmplă des. Se întâmplă atât de rar încât când s-a întâmplat, când am coborât în bucătărie și l-am găsit acolo cu un pahar de suc în față și cu telefonul pe masă și cu o expresie pe care nu știam exact cum să o citesc — nu era tristă, nu era fericită, era pur și simplu prezentă, o expresie de om care a stat cu un gând și nu a terminat încă de stat cu el — am simțit ceva care semăna cu surpriza dar nu era surpriză, era mai degrabă recunoaștere, ca și cum văzusem scena asta înainte, nu în realitate ci în imaginație, în toate diminețile în care mi-am imaginat cum va arăta el când va fi adult și va sta la mese de bucătărie cu gânduri pe care nu le va spune, cu expresii pe care nu le voi ști citi perfect niciodată.
M-am dus la espressor fără să spun nimic. El nu a spus nimic. Am așteptat cafeaua cu spatele la el și cu zgomotul mașinii care macina cafeaua umplând spațiul dintre noi, și în zgomotul acela am simțit că există ceva de spus și că nu știu dacă este momentul și că probabil nu voi ști niciodată sigur dacă este momentul și că poate tocmai de aceea nu spun niciodată ce ar trebui spus, pentru că aștept un semnal de claritate care nu vine, pentru că claritatea de genul acesta nu vine niciodată înainte de a vorbi, vine, dacă vine, în timp ce vorbești sau după.
M-am întors cu cafeaua în mână și m-am așezat la masă, nu în capătul opus, ci la colț față de el, la distanța aceea care nu este nici departe nici aproape, distanța de la care o conversație poate începe sau nu fără ca niciuna din variante să fie stânjenitoare.
El s-a uitat la mine o secundă și apoi la telefon și apoi din nou la mine.
— Ai lucrat noaptea? a întrebat, nu cu îngrijorare, ci cu acel tip de curiozitate neutră pe care o au adolescenții când vor să înceapă o conversație fără să pară că vor să înceapă o conversație.
— Am scris, am zis. Încerc să finalizez ceva.
— Despre ce?
Și acesta a fost momentul. Nu un moment dramatic, nu o pauză cinematografică cu lumina care intra oblic pe geam și cu muzică de fundal — un moment absolut banal, cu cafeaua care aburea în mâna mea și cu sucul lui pe jumătate băut și cu Gri care intra în bucătărie cu expresia ei de proprietar care face inspecția de dimineață.
Despre ce scriam.
Nu i-am explicat totul. Nu ai cum să explici totul la opt dimineața unui adolescent de șaisprezece ani care a stat cu un gând al lui înainte să te trezești și care are propriile lui straturi de dimineață pe care nu le știi. Dar i-am explicat ceva, și ceva a fost mai mult decât nimic, care era tot ce îi explicasem până atunci pe tema asta.
I-am spus că scriam despre inteligența artificială, dar nu despre ce crede toată lumea când aude inteligență artificială — nu despre roboți care vor prelua lumea sau despre chatboți care vor înlocui profesorii sau despre toate fricile și entuziasmele astea care umplu internetul și care sunt, fiecare în felul lui, răspunsuri la întrebarea greșită.
I-am spus că scriam despre o distincție pe care un cercetător pe nume Yann LeCun o face de ani de zile și pe care puțini oameni o iau suficient de în serios — distincția dintre a vorbi despre lume și a înțelege lumea, dintre a produce text convingător despre cum funcționează lucrurile și a ști, în vreun sens real al cuvântului, cum funcționează lucrurile.
M-a privit în modul în care mă privește când îl interesează ceva dar nu vrea să pară că îl interesează prea mult — cu o atenție ușor oblică, nu frontală, ca și cum ar privi pe lângă mine și nu la mine, și tocmai de aceea l-am crezut că ascultă.
— Adică, a zis după o pauză, că ChatGPT nu înțelege de fapt ce spune?
— Aproximativ, am zis. Dar mai complicat decât atât.
— Cum mai complicat?
Și atunci am realizat că nu știu cum să îi explic mai complicat decât atât fără să pierd firul, fără să intru în arhitecturi și parametri și funcții de pierdere care sunt reale și importante dar care nu sunt miezul, care sunt mijloacele și nu scopul, care sunt cum-ul și nu de ce-ul și nici ce-ul — și că poate tocmai această dificultate de a explica simplu fără a simplifica greșit este în sine o informație despre cât de profundă este distincția pe care încerc să o transmit.
Gri a sărit pe scaun lângă el — nu pe al lui, pe scaunul de lângă el, pentru că Gri are o relație complicată cu intimitatea care seamănă mai mult cu a adolescenților decât cu a adulților, aproape dar nu prea aproape, prezentă dar cu ieșire liberă — și el a pus mâna pe ea automat, fără să se gândească, cu acel gest de mângâiere distrasă pe care îl faci când un animal este acolo și mâna ta știe ce să facă înainte ca mintea ta să decidă ceva.
— Uite, am zis, arătând spre Gri. Ea tocmai a sărit pe scaun.
— Da, a zis el, cu tonul aceluia care nu înțelege de ce menționez ceva evident.
— Știi ce a calculat ca să facă asta?
— Nu e calcul, a zis el. E instinct.
— Instinctul este calcul, am zis. Doar că nu trece prin conștiință. Ea a estimat înălțimea, unghiul, forța necesară, suprafața de aterizare, tot — în fracțiuni de secundă, fără să știe că o face. Și a aterizat perfect. Acum — cel mai avansat sistem de inteligență artificială din lume poate face asta?
A stat o secundă.
— Nu știu, a zis. Probabil nu?
— Probabil nu, am confirmat. Și asta e problema. Nu că nu poate scrie eseuri sau rezolva ecuații sau explica legea lui Ohm — poate face toate astea mai bine decât mine în multe situații. Problema e că poate face toate astea și nu poate face ce face Gri înainte de micul dejun. Și dacă nu înțelegem de ce, dacă nu înțelegem că cele două sunt probleme complet diferite și că rezolvarea uneia nu te apropie de rezolvarea celeilalte, atunci avem o imagine greșită despre unde suntem și unde mergem.
A mângâiat-o pe Gri câteva secunde în tăcere. Ea a acceptat cu acea demnitate specifică pisicilor, care nu este recunoștință și nu este indiferență, ci ceva la mijloc, un acord tacit că gestul este acceptabil în condițiile actuale.
— Și tu de ce scrii despre asta? a întrebat în final. Adică, tu faci site-uri.
Am râs. Nu pentru că era amuzant, ci pentru că era exact întrebarea potrivită, întrebarea care tăia direct la ce conta.
De ce scriu despre asta.
Nu pentru că sunt cercetător sau filozof sau specialist în inteligență artificială — nu sunt niciunul dintre acestea, și lipsa titlurilor nu mă deranjează în mod special, deși uneori, în serile în care mă îndoiesc de tot ce scriu, îmi doresc să am mai multă autoritate formală din spatele cuvintelor, mai mult drept instituțional de a spune ce spun.
Scriu despre asta pentru că fac site-uri, da, și pentru că în opt ani de muncă cu instituții publice românești am văzut îndeajuns de multe ori ce se întâmplă când oamenii care iau decizii au o înțelegere greșită despre ce sunt instrumentele pe care le folosesc — când confundă un site cu comunicare reală, când confundă prezența digitală cu transparență autentică, când confundă forma cu conținutul și interfața cu serviciul. Am văzut milioane de lei cheltuiți pe sisteme care arătau bine în prezentări și nu funcționau în practică, pe platforme care rezolvau problema vizibilă și ignorau problema reală, pe soluții tehnice elegante la întrebări pe care nimeni nu le pusese.
Și acum văd aceeași dinamică la scară globală, cu zerouri mai multe după cifre și cu consecințe mai mari și cu o viteză care nu lasă timp pentru corectări lente și prudente — văd o industrie întreagă și un capital imens și o atenție publică enormă orientate spre o problemă parțială celebrată ca problemă completă, și simt că nu pot să nu spun nimic, chiar dacă ce spun eu are greutatea unui om care face site-uri pentru primării din Botoșani față de miliardele care se mișcă în Silicon Valley.
Dar greutatea nu este singurul criteriu al adevărului. Uneori adevărul este spus de oameni fără greutate instituțională, și uneori tocmai absența greutății îl face mai ușor de spus, pentru că nu ai nimic de pierdut din a fi precis.
Și mai scriu pentru că am un fiu de șaisprezece ani care folosește aceste instrumente în fiecare zi și care va continua să le folosească toată viața, și care merită să le înțeleagă nu în sensul tehnic, nu să știe cum funcționează arhitectura internă, ci în sensul esențial — ce sunt, ce nu sunt, unde le sunt limitele reale și unde le sunt capacitățile reale, cum să le folosească fără să fie folosit de ele, cum să aprecieze ce fac fără să confunde ce fac cu ce sunt.
Asta i-am spus în dimineața aceea de duminică, sau cel puțin asta am încercat să îi spun în cuvintele disponibile la opt dimineața cu cafeaua pe masă și Gri între noi.
El a ascultat mai mult decât mă așteptam. Adolescenții ascultă mai mult decât par să asculte — am învățat asta greu, pentru că semnalele externe sunt înșelătoare, pentru că expresia de nu mă interesează și expresia de ascult dar nu vreau să pari că ești important arată la fel de la distanță, și de la distanța pe care o impune granița aceea invizibilă pe care o tot negociez cu el este greu să le distingi.
La un moment dat a spus ceva care m-a oprit complet din ce spuneam — a spus-o fără să acorde importanță, ca pe o observație laterală, dar eu am simțit-o ca pe ceva central:
— Adică e ca și cum ar fi foarte bun la a descrie cum e să înoți fără să fi intrat vreodată în apă.
Am stat cu asta câteva secunde.
— Da, am zis. Exact asta.
— Și problema e că dacă nu ai intrat niciodată în apă, nu știi ce nu știi.
Nu am mai adăugat nimic pentru câteva secunde. Gri a coborât de pe scaun și a dispărut în altă cameră cu acel aer de om care a terminat o întâlnire și are un program. Afară a trecut o mașină. Cafeaua mea se răcea.
Nu știi ce nu știi. Formulat mai bine decât o formulasem eu în tot ce scriam de săptămâni.
Există momente când fiul tău spune ceva care îți arată că înțelege mai mult decât credeai, nu mai mult decât este posibil la vârsta lui, ci mai mult decât îi dăduseși credit să înțeleagă, și aceste momente au o calitate specifică, o amestecătură de mândrie și umilință care nu se găsește în nicio altă combinație de emoții, care este unică pentru relația dintre un părinte și un copil care crește, care este în fond relația cu propriul tău viitor filtrat prin altă minte și altă experiență și altă sensibilitate.
Nu știi ce nu știi. Da. Asta este, în fond, diagnosticul complet al problemei pe care LeCun o descrie și pe care eu am încercat să o elaborez în șase capitole anterioare — sistemele actuale nu știu ce nu știu, și nu pot ști, pentru că a ști ce nu știi necesită un model al lumii suficient de bogat încât să îți permită să detectezi absența, să simți golul, să recunoști că există teritoriu dincolo de harta ta și că harta nu este teritoriul.
Un om care nu a înotat niciodată nu știe că nu știe cum e apa rece pe față la primul contact cu valul, nu știe că nu știe panica specifică a primei secunde când capul intră sub apă și reflexul gâtului se contractă, nu știe că nu știe senzația de suspensie care vine după ce panica cedează și corpul înțelege că plutește. Poate descrie toate astea din texte — poate produce o descriere convingătoare, detaliată, care să pară că vine din experiență directă. Dar nu știe ce lipsește din descriere, pentru că ce lipsește este tocmai ce nu poate fi conținut în text, tocmai dimensiunea experienței care nu se transferă prin limbaj și care face diferența dintre a ști despre ceva și a ști ceva.
Sistemele noastre cele mai avansate nu știu ce nu știu. Și noi, uitându-ne la ce știu și impresionați de cât de mult este, uităm să întrebăm ce nu știu și de ce absența aceea contează.
Am terminat cafeaua. El a terminat sucul. Am rămas câteva minute la masă fără să vorbim, nu în tăcerea incomodă a oamenilor care nu au nimic de spus, ci în tăcerea confortabilă a oamenilor care au spus ceva real și lasă să se sedimenteze.
Până la urmă s-a ridicat — cu acea mișcare fluidă și ușoară pe care o au tinerii și pe care eu o am tot mai rar, mișcarea cuiva al cărui corp nu a acumulat încă suficiente arhive de durere și de oboseală ca să facă din ridicat de pe scaun o negociere — și și-a dus paharul la chiuvetă, ceea ce nu face întotdeauna și pe care eu nu l-am comentat niciodată, și s-a oprit o secundă în ușa bucătăriei.
— O să citesc ce ai scris, a zis. Dacă termini.
— Când termin, am zis.
— Dacă, a zis el, cu jumătate de zâmbet, și a dispărut.
Am rămas singur în bucătărie cu cafeaua rece și cu zgomotul casei care se trezea, cu sunetele acelea de dimineață pe care le auzi numai când ești atent, țevile care se încălzesc undeva în pereți, o ușă care se deschide la etaj, vântul care mișcă ceva în grădina din spate, lumina care se schimbă pe măsură ce soarele urcă, toate acestea simultan și continue și neîntrerupte, semnal nesfârșit pe care nicio mașină nu îl procesează și nicio arhitectură nu îl conține și nicio statistică textuală nu îl poate capta — lumea reală în forma ei cea mai banală și mai completă, dimineața dintr-o bucătărie, luni de muncă și o conversație cu un adolescent și o pisică care a plecat să facă altceva.
Am terminat de scris câteva zile mai târziu, noaptea, cu ecranul aprins și cu paharul de apă lângă tastatură.
Înainte să închid calculatorul m-am gândit la LeCun — la omul care petrece cincisprezece ani lucrând la o problemă pe care industria o ignoră, la omul care spune același adevăr incomod în conferințe și interviuri și articole cu răbdarea cuiva care știe că adevărurile incomode trebuie repetate de multe ori înainte să fie auzite — și am simțit ceva față de el care nu era exact admirație și nu era exact solidaritate, ci era poate cel mai bine descris ca recunoaștere. Recunoașterea omului care a ales inconfortul preciziei în fața confortului consensului și care continuă să îl aleagă, zi de zi, în ciuda a tot.
M-am gândit la tatăl meu în garajul lui, la mâinile lui care știau ce știau din contact direct cu motoarele reale, la cunoașterea lui corporalizată și neverbalizată pe care nicio carte nu i-ar fi dat-o și nicio statistică textuală nu o conține.
M-am gândit la Gri pe pervaz, calculând lumi pe care eu nu le văd, cu un aparat perceptual și motor de o complexitate pe care nici nu știm cum să o admirăm pentru că o luăm de la sine înțeles.
M-am gândit la fiul meu care va citi poate ce am scris, sau poate nu va citi, sau va citi jumătate, sau ascultă 30 de secunde rezumatul dialogat și va decide că are lucruri mai importante de făcut, și că oricare din variante este în regulă pentru că a ascultat dimineața aceea de duminică și a spus ceva mai precis decât scriam eu de săptămâni.
Nu știi ce nu știi.
Am închis calculatorul.
Afară era liniște, sau ceea ce numim liniște — de fapt un flux neîntrerupt de semnale pe care corpul meu le procesa și le gestiona și le integra în absența oricărei conștiințe deliberate, exact cum a făcut toată noaptea și toată ziua și toată viața mea, exact cum va face Gri pe fotoliul ei și fiul meu în patul lui și LeCun în laboratorul lui și toți oamenii și toate animalele care trăiesc în contact direct, nemediat, corporalizat cu o lume care nu vine sub formă de tokeni și care nu va veni niciodată.
Acolo se află inteligența pe care nu am construit-o încă.
Orice altceva completează automat.
Bibliografie esențială și notă metodologică
Surse primare — Yann LeCun
LeCun, Y. (2022).A Path Towards Autonomous Machine Intelligence. Document tehnic, Meta AI Research. Acesta este textul fundamental în care LeCun articulează arhitectura JEPA și conceptul de world models ca alternativă la modelele lingvistice mari. Lectură esențială pentru oricine vrea să înțeleagă argumentul din sursa lui primară, nu din rezumatele secundare. https://openreview.net/pdf?id=BZ5a1r-kVsf
LeCun, Y. (2023).Interview: Large Language Models and the Future of AI. Lex Fridman Podcast, episodul 416. Conversație de trei ore în care LeCun dezvoltă oral argumentele din textul tehnic, cu o claritate și o onestitate pe care formatul academic nu le permite întotdeauna. Accesibil fără background tehnic. https://www.youtube.com/watch?v=5t1vTLU7s40
LeCun, Y. (2023).Postare publică despre limitele LLM-urilor. Meta AI / Threads / X. LeCun folosește platformele sociale ca spațiu de argumentație directă și nefiltrată — urmărirea lui în timp real oferă o imagine a dezbaterii în mișcare, nu post-factum. https://twitter.com/ylecun
Paradoxul Moravec — Sursa originală
Moravec, H. (1988).Mind Children: The Future of Robot and Human Intelligence. Harvard University Press. Cartea în care Moravec formulează pentru prima dată observația despre inversiunea dificultăților — capitolul trei este cel mai relevant, dar cartea merită citită integral pentru contextul ei, care rămâne surprinzător de actual la treizeci și ceva de ani distanță.
Moravec, H. (1998).When will computer hardware match the human brain? Journal of Evolution and Technology, Vol. 1. Versiunea scurtă și accesibilă online a argumentului central. https://www.jetpress.org/volume1/moravec.htm
Context filosofic și cognitiv
Dreyfus, H. (1972/1992).What Computers Can't Do / What Computers Still Can't Do. MIT Press. Dreyfus a spus în 1972 lucruri pe care industria AI le ignoră și astăzi — că inteligența este înrădăcinată în corporalitate, în experiența directă a lumii, în ceea ce el numea embodied coping. A fost ridiculizat în anii șaptezeci. Istoria i-a dat dreptate.
Dreyfus, H. (2007).Why Heideggerian AI Failed and how Fixing it would Require making it more Heideggerian. Philosophical Psychology, 20(2), 247–268. Versiune actualizată a argumentului, aplicată direct la AI. https://link.springer.com/article/10.1007/s11229-006-9038-4
Varela, F., Thompson, E., Rosch, E. (1991).The Embodied Mind: Cognitive Science and Human Experience. MIT Press. Cartea care a pus pe hartă ideea că cogniția nu se poate separa de corp și de experiența senzorio-motorie directă cu lumea — fundament teoretic pentru tot ce spune LeCun despre limitele sistemelor care nu au contact fizic cu realitatea.
Critică și context al dezbaterii actuale
Marcus, G. (2022).Deep Learning Is Hitting a Wall. Nautilus Magazine. Un alt critic important al consensului dominant în AI, cu argumente care se completează cu cele ale lui LeCun. https://nautil.us/deep-learning-is-hitting-a-wall-238440/
Chollet, F. (2019).On the Measure of Intelligence. arXiv preprint. François Chollet, creatorul Keras, argumentează că benchmark-urile actuale nu măsoară inteligența reală și propune o definiție alternativă bazată pe eficiența generalizării — converge cu argumentul lui LeCun dintr-o direcție diferită. https://arxiv.org/abs/1911.01547
Bender, E., Gebru, T., McMillan-Major, A., Shmitchell, S. (2021).On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? FAccT '21. Textul care a introdus metafora papagalului stochastic — sisteme care produc text plauzibil fără să înțeleagă nimic din ce produc. Controversat la momentul apariției, acum citat larg. https://dl.acm.org/doi/10.1145/3442188.3445922
Pentru context mai larg — lectură recomandată
Hofstadter, D. (1979).Gödel, Escher, Bach: An Eternal Golden Braid. Basic Books. Nu despre AI contemporan, dar despre natura înțelegerii, a sensului și a conștiinței — carte care rămâne mai relevantă la fiecare deceniu care trece.
Brooks, R. (1991).Intelligence Without Representation. Artificial Intelligence, 47(1-3), 139–159. Rodney Brooks, unul dintre fondatorii roboticii comportamentale, argumentează că inteligența emerge din interacțiunea directă cu mediul, nu din reprezentări simbolice interne — precursor direct al argumentului despre world models. https://people.csail.mit.edu/brooks/papers/representation.pdf
Notă metodologică
Aceasta nu este o lucrare academică și nu pretinde să fie. Nu există note de subsol, nu există aparat critic formal, nu există distanța obiectivă pe care formatul academic o cere și pe care eu nu am putut și nu am vrut să o mențin față de un subiect care mă privește personal — ca om care lucrează cu tehnologie, ca tată, ca cineva care încearcă să înțeleagă lumea în care crește fiul lui.
Metodologia, dacă merită numit astfel, a fost mai degrabă un proces de sedimentare decât de cercetare sistematică. Am citit mult, am urmărit dezbaterile din domeniu pe parcursul mai multor ani, am folosit instrumentele despre care scriu în munca mea de zi cu zi — și toate acestea s-au depus, strat peste strat, până când a apărut ceva care semăna cu o perspectivă proprie, nu împrumutată și nu compilată, ci construită din contact direct cu materialul și cu întrebările pe care le ridică.
Yann LeCun este figura centrală a acestui text nu pentru că aș fi ales să îl pun acolo prin decizie metodologică, ci pentru că argumentul lui mi s-a părut cel mai onest și mai precis dintre toate argumentele disponibile în dezbaterea actuală despre limitele AI — cel mai puțin contaminat de interese comerciale sau de entuziasmul care înconjoară un domeniu cu atâta capital în mișcare. Că el lucrează la Meta, o companie cu propriile interese comerciale masive în AI, este o tensiune reală pe care nu o ignor și pe care el însuși o recunoaște. Dar argumentul lui tehnic și filosofic stă independent de instituția în care lucrează, și l-am tratat ca atare.
Celelalte surse din bibliografie nu au fost folosite în mod explicit în text — nu le citez pe parcurs, nu construiesc note de subsol, nu fac trimiteri. Sunt fundamentul invizibil al perspectivei din care am scris, fundalul de lectură care a făcut posibil fiecare paragraf, chiar și cele care par cele mai personale și mai departe de orice sursă academică. Dreyfus este în spatele fiecărei fraze despre embodiment. Moravec este în spatele fiecărei mențiuni a paradoxului. Brooks este în spatele ideii că inteligența emerge din contact cu lumea și nu din reprezentări simbolice. Nu i-am citat în text pentru că forma narativă pe care am ales-o nu permite aparatul critic fără să rupă ceva esențial în tonul și în ritmul scriiturii — dar prezența lor este reală și lipsa citărilor explicite nu este o lipsă de onestitate intelectuală, ci o decizie de formă.
Experiențele personale din text — fiul meu, Gri, tatăl meu, garajul, diminețile de sâmbătă, nopțile la birou — sunt reale în substanța lor. Nu sunt inventate pentru efect narativ și nu sunt compozite fictive în sensul că ar reprezenta oameni sau situații inexistente. Sunt compozite în sensul că memoria nu este înregistrare fidelă, că nopțile la birou se amestecă unele cu altele, că diminețile de sâmbătă au o textură care se repetă și care face ca oricare dintre ele să fie și toate celelalte în același timp. Tatăl meu a existat și garajul lui a existat și cunoașterea lui corporalizată despre motoare a existat — și moartea lui a existat, deși nu am menționat-o explicit în text pentru că nu era despre asta, sau nu era numai despre asta.
Fiul meu a citit o parte din ce am scris și a ascultat rezumatul dialogat. A spus că e lung. A spus că pasajele cu Gri sunt cele mai bune. Nu i-am spus că are dreptate, dar are dreptate — Gri este, fără să știe și fără să îi pese, cel mai bun argument din text.
Limitele acestei cărți sunt limitele perspectivei din care a fost scrisă — un om dintr-un oraș mic din România de nord-est, cu opt ani de muncă în web pentru instituții publice, cu o bibliotecă inegală și cu lacune pe care nu le-am inventariat complet. Nu am background în neuroștiințe, deși am citit destul cât să urmez argumentul. Nu am background în robotică, deși înțeleg principiile. Ceea ce am este o poziție de utilizator zilnic al instrumentelor despre care scriu, o poziție de om care a văzut tehnologia de la distanța utilizatorului și de la proximitatea implementatorului, și care a încercat să vadă din ambele poziții simultan, fără să privilegieze niciuna.
Dacă există o intenție metodologică în tot acest text, aceasta este una simplă și poate prea ambitioasă: să spun ceva adevărat despre un subiect important, în română, fără anglicisme inutile, fără jargon care exclude, fără entuziasmul care distorsionează și fără pesimismul care paralizează — să stau la mijloc, în spațiul incomod al preciziei, și să rămân acolo suficient de mult cât să apară ceva util.
Dacă am reușit, fiul meu va ști, când va citi, de ce contează distincția dintre a descrie cum e să înoți și a ști să înoți.
Dacă nu am reușit, cel puțin Gri a aterizat bine pe scaun în capitolul trei.

