SAM – Segment Anything Model

de | iulie 3, 2025

Modelul Segment Anything (SAM) de la Meta AI este un game changer în materie de Computer Vision.

Spre deosebire de modelele care clasifică sau detectează obiecte întregi, SAM desenează contururi precise în jurul fiecărui obiect dintr-o imagine, chiar și pe cele pe care nu le-a văzut inca. Nu etichetează doar „pisică” sau „câine”. Înțelege forma, limitele și poziția lor cu precizie la nivel de pixel.

Imaginați-vă că incarcati o fotografie într-un model și obțineți instantaneu fiecare obiect tăiat cu grijă. Este ceea ce se numeste „background removal” si cu aceasta se ocupa SAM.

Cum funcționează SAM ?

La baza sa, SAM este construit pentru segmentare pe baza de Prompt. Îi dai un prompt (un punct, o casetă sau o mască) și returnează segmentul exact al obiectului la care te referi.

Utilizează,

  • O coloană vertebrală Vision Transformer pentru procesarea imaginii
  • O abordare bazată pe încorporare pentru a compara caracteristicile vizuale
  • Un decodor de segmentare rapidă care scoate măști instantaneu

Poate segmenta orice, chiar dacă nu a fost instruit în mod explicit pe acea clasă de obiecte.

Nu este doar antrenat să „știe” ce este o pisică. Este antrenat să „vadă” orice obiect din spațiul vizual.

Cazuri de utilizare din lumea reală

SAM face valuri în toate industriile,

  • Imagistica medicală: Identificarea tumorilor sau organelor în scanări cu precizie chirurgicală
  • Realitate augmentată (AR): detectarea și conturarea obiectelor în timp real
  • Robotică: ajuta mașinile să înțeleagă și să interacționeze cu mediul lor
  • Editare video: eliminarea instantanee a fundalului, izolarea obiectelor
  • Cercetare științifică: Segmentarea celulelor în imagini microscopice sau obiecte în imagini din satelit

Exemplu: Un cercetător medical poate segmenta o tumoare cerebrală într-o scanare RMN doar făcând clic lângă ea. Fără contur manual. Nu este nevoie de training pentru model.

De ce este SAM o chestie importanta ?

Segmentarea tuturor, nu doar a categoriilor cunoscute – deblochează o nouă paradigmă în AI Vision.

  • Generalizare zero (funcționează pe obiecte nevăzute)
  • Rapid și interactiv (în timp real sau aproape în timp real)
  • Modular (poate fi asociat cu alte modele, cum ar fi VLM-uri sau LAM)

Este cărămida LEGO a viziunii AI. Conectabil, flexibil și incredibil de puternic.

SAM este deja integrat în sisteme multimodale mai mari. Atunci când sunt combinate cu VLM-uri (cum ar fi GPT-4o sau Gemini), obțineți modele care pot vedea, înțelege și acționa, făcându-l o parte vitală a următoarei generații de agenți AI.

În timp ce SAM se concentrează exclusiv pe segmentarea vizuală, îl puteți asocia cu modele de limbaj sau modele de acțiune pentru a crea agenți vizuali puternici, cum ar fi un robot care vede un obiect, înțelege ce este și îl preia.

De la LLM-uri care scriu eseuri, la SLM-uri care alimentează chatbot-urile de pe telefon, la SAM care disecă imagini pixel cu pixel, peisajul AI este mult mai bogat decât doar „modelele lingvistice”.

Fiecare tip de model — LLM, LCM, MoE, LAM, VLM, SLM, MLM, SAM — este un instrument din setul de instrumente AI, specializat pentru domeniul său, proiectat având în vedere capabilități specifice.