Îmbunătățirea capacității modelelor AI de a-și explica predicțiile

de | martie 9, 2026

În contexte cu miză ridicată, precum diagnosticul medical, utilizatorii vor adesea să știe ce a determinat un model de viziune computerizată să facă o anumită predicție, pentru a putea decide dacă au încredere în rezultat.

Modelarea de tip „gât de sticlă pe concepte” (concept bottleneck modeling) este o metodă care le permite sistemelor de inteligență artificială să își explice procesul de luare a deciziilor. Aceste metode obligă un model de deep learning să folosească un set de concepte — pe care oamenii le pot înțelege — pentru a face o predicție. Într-o cercetare nouă, informaticieni de la MIT au dezvoltat o metodă care determină modelul să obțină o acuratețe mai bună și explicații mai clare și mai concise.

Conceptele pe care le folosește modelul sunt de obicei definite dinainte de experți umani. De pildă, un clinician ar putea sugera concepte precum „puncte maro grupate” și „pigmentare neuniformă” pentru a prezice că o imagine medicală arată melanom.

Dar conceptele definite anterior pot fi irelevante sau pot să nu aibă suficientă finețe pentru o sarcină specifică, ceea ce reduce acuratețea modelului. Noua metodă extrage conceptele pe care modelul le-a învățat deja în timpul antrenării pentru acea sarcină și îl forțează să le folosească, producând explicații mai bune decât modelele standard de tip concept bottleneck.

Abordarea utilizează o pereche de modele specializate de învățare automată care extrag automat cunoștințe dintr-un model-țintă și le traduc în concepte exprimate în limbaj simplu. La final, tehnica lor poate transforma orice model de viziune computerizată pre-antrenat într-unul care își poate explica raționamentul folosind concepte.

Într-un fel, vrem să putem citi gândurile acestor modele de viziune computerizată. Un model concept bottleneck este o modalitate prin care utilizatorii pot vedea ce gândește modelul și de ce a făcut o anumită predicție. Pentru că metoda noastră folosește concepte mai bune, poate duce la o acuratețe mai mare și, în cele din urmă, poate îmbunătăți responsabilizarea modelelor AI de tip «cutie neagră»”, spune autorul principal Antonio De Santis, student masterand la Politehnica din Milano, care a realizat această cercetare în timp ce era student vizitator în cadrul Computer Science and Artificial Intelligence Laboratory (CSAIL) de la MIT. La lucrarea despre acest proiect au mai contribuit Schrasing Tong SM ’20, PhD ’26; Marco Brambilla, profesor de informatică și inginerie la Politehnica din Milano; și autoarea senior Lalana Kagal, cercetător principal în CSAIL. Cercetarea va fi prezentată la International Conference on Learning Representations.

Construirea unui „gât de sticlă” mai bun

Modelele concept bottleneck (CBM) sunt o abordare populară pentru creșterea explicabilității AI. Aceste tehnici adaugă un pas intermediar, forțând un model de viziune computerizată să prezică mai întâi ce concepte sunt prezente într-o imagine, apoi să folosească acele concepte pentru predicția finală.\

Acest pas intermediar, sau „gâtul de sticlă”, îi ajută pe utilizatori să înțeleagă raționamentul modelului. De exemplu, un model care identifică specii de păsări ar putea selecta concepte precum „picioare galbene” și „aripi albastre” înainte de a prezice o rândunică.

Dar, fiindcă aceste concepte sunt adesea generate în prealabil de oameni sau de modele lingvistice mari (LLM), s-ar putea să nu se potrivească sarcinii specifice. În plus, chiar și atunci când primește un set de concepte predefinite, modelul folosește uneori, în mod nedorit, informații învățate pe ascuns — o problemă cunoscută drept „scurgere de informație” (information leakage).

„Aceste modele sunt antrenate să maximizeze performanța, așa că modelul ar putea folosi în secret concepte de care nu suntem conștienți”, explică De Santis. Cercetătorii de la MIT au avut o altă idee: deoarece modelul a fost antrenat pe un volum foarte mare de date, ar fi putut deja învăța conceptele necesare pentru predicții precise în sarcina respectivă. Ei au urmărit să construiască un CBM prin extragerea acestei cunoașteri existente și convertirea ei în text inteligibil pentru oameni.

În primul pas al metodei, un model specializat de deep learning numit autoencoder rar (sparse autoencoder) preia selectiv cele mai relevante caracteristici pe care modelul le-a învățat și le reconstruiește într-un număr mic de concepte. Apoi, un **LLM multimodal** descrie fiecare concept în limbaj simplu. Acest LLM multimodal adnotează și imaginile din setul de date, identificând ce concepte sunt prezente sau absente în fiecare imagine. Cercetătorii folosesc setul de date adnotat pentru a antrena un modul concept bottleneck să recunoască aceste concepte. Ei încorporează modulul în modelul-țintă, forțându-l să facă predicții folosind doar setul de concepte învățate pe care cercetătorii le-au extras.

Controlul conceptelor

Cercetătorii au depășit multe provocări în dezvoltarea metodei — de la asigurarea că LLM-ul adnotează corect conceptele până la determinarea dacă autoencoderul rar a identificat concepte inteligibile pentru oameni. Pentru a împiedica modelul să folosească concepte necunoscute sau nedorite, ei îl restricționează să folosească doar cinci concepte pentru fiecare predicție. Acest lucru îl obligă să aleagă cele mai relevante concepte și face explicațiile mai ușor de înțeles.

Când au comparat abordarea lor cu CBM-uri de ultimă generație pentru sarcini precum prezicerea speciilor de păsări și identificarea leziunilor cutanate în imagini medicale, metoda lor a obținut cea mai mare acuratețe, oferind în același timp explicații mai precise.

Abordarea lor a generat și concepte mai potrivite pentru imaginile din setul de date. „Am arătat că extragerea conceptelor din modelul original poate depăși alte CBM-uri, dar există încă un compromis între interpretabilitate și acuratețe care trebuie abordat. Modelele de tip «cutie neagră», care nu sunt interpretabile, încă le depășesc pe ale noastre”, spune De Santis.

Pe viitor, cercetătorii vor să studieze soluții potențiale la problema scurgerii de informație, poate prin adăugarea unor module concept bottleneck suplimentare, astfel încât conceptele nedorite să nu poată „trece” mai departe. De asemenea, intenționează să extindă metoda folosind un LLM multimodal mai mare pentru a adnota un set de antrenare mai amplu, ceea ce ar putea îmbunătăți performanța.

„Sunt entuziasmat de această lucrare fiindcă împinge AI interpretabil într-o direcție foarte promițătoare și creează o punte naturală către AI simbolic și grafuri de cunoștințe”, spune Andreas Hotho, profesor și șef al catedrei de Data Science la University of Würzburg, care nu a fost implicat în această lucrare.

„Prin derivarea «gâturilor de sticlă» pe concepte din mecanismele interne ale modelului, în loc să se bazeze doar pe concepte definite de oameni, oferă o cale către explicații mai fidele modelului și deschide multe oportunități pentru cercetări ulterioare cu cunoaștere structurată.

Această cercetare a fost susținută de Progetto Rocca Doctoral Fellowship, Ministerul Italian al Universității și Cercetării în cadrul Planului Național de Redresare și Reziliență, Thales Alenia Space și Uniunea Europeană prin proiectul NextGenerationEU. Lucrare: „Learning Concept Bottleneck Models from Mechanistic Explanations”.