Pe măsură ce tehnologiile AI devin tot mai avansate și omniprezente, acestea prezintă două domenii principale de risc în securitatea cibernetică: atacuri împotriva AI și atacuri facilitate și îmbunătățite de AI.
Ca orice tehnologie sau sistem, AI este expus riscului de compromitere sau manipulare; totuși, există aspecte unice în modul în care AI este dezvoltat și implementat care necesită o atenție specială.
De exemplu, un atacator ar putea manipula subtil datele de antrenament într-un mod care duce la generarea de dezinformare sau la producerea unui rezultat eronat care ar putea afecta negativ sisteme esențiale sau critice.
Pe de altă parte, AI poate fi un instrument pentru îmbunătățirea tacticilor, tehnicilor și procedurilor (TTP-uri) existente în atacurile cibernetice. Adică, AI reduce bariera de acces pentru infractorii cibernetici, permițând persoanelor cu cunoștințe tehnice minime să lanseze atacuri cibernetice sofisticate. De exemplu, instrumentele alimentate de AI pot automatiza crearea de software malițios și pot îmbunătăți atacurile de inginerie socială, făcând mai ușoară pentru atacatorii mai puțin pricepuți lansarea de ransomware sau malware prin mesaje de phishing foarte convingătoare.
Evoluția tehnologiei AI de asemenea estompează linia dintre media sintetică și conținutul generat de om, complicând detectarea deepfake-urilor. Aceste deepfake-uri extrem de realiste reprezintă amenințări semnificative, de la campanii de dezinformare până la furtul de identitate. Tehnologiile de detectare au dificultăți în a ține pasul cu progresele rapide în conținutul generat de AI, făcând aceste deepfake-uri mai țintite și mai periculoase ca niciodată.
În ciuda acestor provocări, există loc pentru optimism. Vicepreședintele executiv și directorul principal de produs al Cisco, Jeetu Patel, a afirmat: „Este un moment excelent pentru a înclina balanța în favoarea apărătorilor.” Aceasta sugerează că, deși AI introduce riscuri noi, oferă și oportunități fără precedent de a îmbunătăți apărarea în domeniul securității cibernetice. Este important să înțelegem, de asemenea, că riscurile specifice AI nu există izolat, ci în contextul amenințărilor tradiționale de securitate cibernetică.
Primul pas în dezvoltarea unor apărare robuste este să înțelegem pe deplin cum au loc atacurile și riscurile asociate. În acest capitol am compilat o colectie a riscurilor de securitate cibernetică.
Riscuri legate de date
Această categorie cuprinde riscuri legate de confidențialitatea, integritatea și intimitatea datelor utilizate pentru antrenarea și operarea modelelor AI. Atacurile care vizează aceste domenii au ca scop manipularea, furtul sau inferențierea informațiilor sensibile despre datele de antrenament, reprezentând amenințări semnificative pentru securitatea generală și încrederea în sistemele AI.
Data Poisoning
Coruperea datelor implică manipularea datelor de antrenament de către atacatori pentru a introduce vulnerabilități sau uși din dos într-un model AI. Această activitate malițioasă poate submina semnificativ acuratețea și fiabilitatea modelului.
Exemplu: Un atacator face modificări într-un set de date utilizat pentru antrenarea unui model de detectare a malware-ului. Prin editarea atentă a mostrelor de malware din setul de date, atacatorul poate determina modelul să clasifice greșit anumite tipuri de malware ca fiind software benign. Această clasificare greșită poate permite software-ului malițios să evite detectarea, conducând la breșe de securitate și potențiale daune sistemelor și datelor.
Scenariu plauzibil din lumea reală: Într-un scenariu ipotetic, un sistem AI din domeniul sănătății, conceput să diagnosticheze boli pe baza imaginilor medicale, ar putea fi subminat dacă atacatorii manipulează datele de antrenament. Prin introducerea unor imagini cu modificări subtile, dar cu impact, modelul AI ar putea fi antrenat să diagnosticheze greșit anumite afecțiuni, ceea ce ar putea duce la recomandări incorecte de tratament.
Data Extraction
Atacurile de extragere a datelor implică faptul că atacatorii deduc sau reconstruiesc informații sensibile despre datele de antrenament din rezultatele sau comportamentul modelului. Acest tip de atac poate dezvălui informații confidențiale, reprezentând riscuri semnificative pentru intimitate sau alte riscuri legate de informații proprietare.
Exemplu: Un atacator interoghează un model lingvistic cu prompturi atent construite, concepute pentru a extrage informații sensibile încorporate în datele de antrenament ale modelului. De exemplu, atacatorul ar putea introduce prompturi care determină modelul lingvistic să dezvăluie detalii private precum adrese de email, numere de telefon sau identificatori personali care făceau parte din datele originale de antrenament.
Scenariu plauzibil din lumea reală: În contextul unui chatbot pentru serviciul clienți antrenat pe un set vast de date despre interacțiunile cu clienții, un atacator ar putea exploata modelul pentru a extrage informații sensibile ale clienților. Prin utilizarea unor interogări specifice, atacatorul ar putea recupera detalii confidențiale despre tranzacții anterioare sau date personale, încălcând intimitatea utilizatorilor și conducând potențial la furt de identitate sau fraudă financiară.
Inference Attacks
Atacurile de inferență permit atacatorilor să determine dacă un anumit punct de date a făcut parte din setul de date de antrenament al modelului (inferență de apartenență) sau să deducă proprietăți globale despre distribuția datelor de antrenament (inferență de proprietate). Aceste atacuri pot compromite confidențialitatea și integritatea datelor de antrenament.
Exemplu: Un atacator analizează rezultatul unui model de învățare automată pentru a deduce dacă datele unei persoane specifice au fost folosite în setul de date de antrenament. Această inferență de apartenență poate dezvălui participarea în setul de date, expunând potențial informații personale sau sensibile. În mod similar, inferența de proprietate permite atacatorilor să deducă caracteristici mai largi ale datelor de antrenament, cum ar fi prezența anumitor grupuri demografice.
Scenariu plauzibil din lumea reală: Să considerăm un model de învățare automată antrenat pe date despre tranzacții financiare pentru a detecta activități frauduloase. Un atacator ar putea exploata acest model pentru a deduce dacă istoricul tranzacțiilor unui anumit individ a fost inclus în datele de antrenament. Prin analizarea atentă a răspunsurilor modelului la diverse intrări, atacatorul ar putea dezvălui comportamente sau tipare financiare sensibile, compromițând intimitatea individului și conducând potențial la infracțiuni financiare țintite.
Riscuri legate de model
Riscurile de securitate ale modelului cuprind amenințări care vizează în mod specific arhitectura, parametrii sau limitele decizionale ale modelului AI. Aceste atacuri au ca scop compromiterea integrității și fiabilității rezultatelor modelului, conducând potențial la consecințe dăunătoare. Înțelegerea și atenuarea acestor riscuri sunt esențiale pentru asigurarea securității și robusteții sistemelor AI.
Evasion Attacks
Atacurile de evitare implică faptul că atacatorii creează exemple adversariale concepute să determine modelul să clasifice greșit sau să genereze rezultate incorecte. Aceste modificări subtile pot păcăli chiar și modelele foarte precise, conducând la rezultate potențial periculoase.
Exemplu: Un atacator realizează modificări minore, adversariale, asupra unei imagini, determinând sistemul de viziune computerizată al unui vehicul autonom să clasifice greșit un semn de oprire ca un semn de limită de viteză. Această clasificare greșită ar putea duce la neoprirea vehiculului la o intersecție, provocând accidente și punând vieți în pericol.
Scenariu plauzibil din lumea reală: În 2018, cercetătorii au demonstrat că prin plasarea unor mici autocolante pe semnele de oprire, puteau induce în eroare un sistem AI de recunoaștere a semnelor de circulație, determinând clasificarea greșită a semnelor. Astfel de atacuri de evitare evidențiază vulnerabilitățile modelelor AI utilizate în aplicații critice precum conducerea autonomă.
Backdoor Attacks
Atacurile tip backdoor implică faptul că atacatorii introduc triggeri ascunși în model în timpul fazei de antrenament. Când acești triggeri sunt activați, ei determină modelul să facă clasificări greșite țintite, adesea fără a altera performanța modelului la intrările obișnuite.
Exemplu: Un atacator otrăvește un model de recunoaștere facială în timpul antrenamentului prin injectarea de imagini cu un accesoriu specific, cum ar fi o pereche de ochelari. Când indivizii poartă acest accesoriu, modelul îi clasifică greșit și nu îi identifică corect. Acest lucru poate permite persoanelor neautorizate să ocolească sistemele de securitate.
Scenariu plauzibil din lumea reală: Într-un studiu, cercetătorii au descoperit că prin injectarea de date de antrenament otrăvite în sistemele de recunoaștere facială, puteau crea uși din dos care le permiteau să ocolească măsurile de securitate pur și simplu purtând o pereche specifică de ochelari. Această tehnică ar putea fi folosită pentru a evita sistemele de securitate în medii cu miză mare, precum aeroporturile sau facilitățile securizate.
Model Poisoning
Otrăvirea modelului implică atacatori care manipulează parametrii sau arhitectura modelului pentru a introduce vulnerabilități sau a degrada performanța acestuia. Acest aspect este deosebit de îngrijorător în medii de învățare colaborativă, cum ar fi învățarea federată.
Exemplu: Într-un cadru de învățare federată, unde mai mulți participanți contribuie la antrenarea unui model global, un participant malițios trimite intenționat actualizări corupte ale modelului către serverul central. Aceste actualizări otrăvite degradează performanța modelului global, ceea ce poate cauza eșecuri în aplicații critice.
Scenariu plauzibil din lumea reală: Învățarea federată este utilizată în domeniul sănătății pentru antrenarea colaborativă a modelelor predictive în mai multe spitale fără a partaja datele pacienților. Dacă o entitate malițioasă injectează actualizări otrăvite, modelul rezultat ar putea oferi predicții medicale inexacte, punând în pericol sănătatea pacienților.
Model Stealing
Furtul de model apare atunci când atacatorii extrag sau replică arhitectura, parametrii sau funcționalitatea modelului prin acces repetat la interogări. Aceasta poate compromite modelele proprietare și proprietatea intelectuală, permițând atacatorilor să creeze replici neautorizate.
Exemplu: Un atacator interoghează în mod repetat un model de învățare automată accesibil prin API, analizând rezultatele pentru a reconstrui un model funcțional echivalent. Acest model furat poate fi apoi folosit fără autorizare, ocolind protecțiile sau creând dezavantaje competitive.
Scenariu plauzibil din lumea reală: Cercetătorii au demonstrat că prin interogarea API-urilor comerciale de învățare automată, precum cele oferite de Google, Amazon și Microsoft, pot reconstrui eficient modelele de bază. Acest tip de atac poate conduce la furt semnificativ de proprietate intelectuală și poate diminua avantajul competitiv al furnizorilor de servicii AI.