Ce este un Model de limbaj mascat (MLM) ?

de | iunie 30, 2025

Înainte ca ChatGPT să uimească lumea, a existat BERT și, odată cu acesta, a venit modelul de limbaj mascat (MLM).

MLM-urile sunt antrenate prin mascarea cuvintelor aleatorii dintr-o propoziție și prin faptul că modelul le prezice pe cele lipsă. Este un pic ca un puzzle de completare, cu excepția faptului că modelul învață o înțelegere profundă și bidirecțională a limbajului făcând acest lucru.

În loc să prezică următorul cuvânt, cum ar fi LLM-urile, MLM-urile se uită la întreaga propoziție și argumentează despre ceea ce ar trebui să meargă în gol.

Să presupunem că mascăm o propoziție ca

„Turnul Eiffel este situat în [MASK]. ”

Un MLM va folosi atât contextul stâng, cât și cel drept („Turnul Eiffel este situat în…”) pentru a prezice cuvântul lipsă, în acest caz, „Paris”.

Această abordare ajută modelul să înțeleagă,

  • Sintaxă (gramatică și structură)
  • Semantică (semnificație și relații)
  • Context din ambele direcții (învățare bidirecțională)

MLM-urile sunt de obicei pre-antrenate pe corpusuri de text masive și apoi reglate fin pentru sarcini specifice.

Cazuri de utilizare din lumea reală

Este posibil ca MLM-urile să nu fie strălucitoare, dar sunt utile în multe sisteme AI,

  • Motoare de căutare (potrivirea semantică a interogărilor și rezultatelor)
  • Clasificarea textului (detectarea spamului, analiza sentimentelor)
  • Recunoașterea entității numite (identificarea numelor, datelor, organizațiilor)
  • Încorporări pentru baze de date vectoriale
  • Precalificare pentru alte tipuri de modele

Exemplu: Când căutați „hoteluri ieftine lângă mine”, modelul înțelege că „ieftin” se referă la preț, „hotelurile” sunt cazare, iar „lângă mine” depinde de locație. Aceasta este o analiză semantică profundă alimentată de MLM.

De ce MLM-urile încă contează ?

În ciuda creșterii modelelor generative (LLM), MLM-urile continuă să strălucească în scenarii care necesită:

  • Înțelegere bidirecțională
  • Reprezentări contextuale puternice
  • Nevoile de calcul mai mici pentru instruire

Ele sunt adesea fundamentul pentru sisteme mai mari sau utilizate în abordări hibride în care modele precum BERT se ocupă de reprezentare, în timp ce LLM-urile se ocupă de generare.

Și evoluează și cu modele precum Roberta, DeBerta și E5 oferind variații optimizate pentru diferite sarcini. „Modelarea limbajului mascat este ca și cum ai învăța să citești între rânduri și apoi să prezici ce spun de fapt liniile.”