Kas yra priešiški išpuoliai prieš AI modelius ir kaip galite juos sustabdyti?

AI modeliai yra tiek geri, kiek į juos patenka duomenys. Dėl to šie duomenys yra potencialus atakų taikinys.

Dirbtinio intelekto pažanga padarė didelę įtaką skirtingoms sritims. Tai sukėlė susirūpinimą daugeliui technologijų entuziastų. Kadangi šios technologijos plečiasi į skirtingas programas, dėl jų gali padaugėti priešiškų išpuolių.

Kas yra priešiški išpuoliai dirbtinio intelekto srityje?

Priešingos atakos išnaudoja AI modelių specifikacijas ir pažeidžiamumą. Jie sugadina duomenis, iš kurių AI modeliai išmoko, ir priverčia šiuos modelius generuoti netikslius rezultatus.

Įsivaizduokite, kad pokštininkas ananasų pavidalu išdėliotas plyteles pakeičia į „obuolių“. Tai panašu į tai, kas vyksta priešpriešinių išpuolių metu.

Prieš kelerius metus gauti keletą neteisingų atsakymų ar išvesties iš AI modelio buvo įprasta. Dabar yra atvirkščiai, nes netikslumai tapo išimtimi, o dirbtinio intelekto vartotojai tikisi beveik tobulų rezultatų.

Kai šie AI modeliai taikomi realaus pasaulio scenarijams, netikslumai gali būti mirtini, todėl priešiškos atakos gali būti labai pavojingos. Pavyzdžiui, lipdukai ant kelio ženklų gali suklaidinti autonominį savarankiškai važiuojantį automobilį ir priversti jį pajudėti į eismą arba tiesiai į kliūtį.

instagram viewer

Priešingų išpuolių tipai

Yra įvairių priešiškų išpuolių formų. Su didinant AI integravimą į kasdienes programas, šie priepuoliai greičiausiai pablogės ir sudėtingės.

Nepaisant to, galime apytiksliai suskirstyti priešiškas atakas į du tipus pagal tai, kiek grėsmės veikėjas žino apie AI modelį.

1. Baltosios dėžės atakos

Į baltos dėžės atakų, grėsmės veikėjai puikiai išmano vidinį AI modelio veikimą. Jie žino jo specifikacijas, mokymo duomenis, apdorojimo būdus ir parametrus. Šios žinios leidžia jiems sukurti priešišką ataką specialiai modeliui.

Pirmasis baltos dėžės atakos žingsnis yra pakeisti pradinius treniruočių duomenis, juos sugadinant kuo mažiau. Pakeisti duomenys vis tiek bus labai panašūs į pradinius, bet pakankamai reikšmingi, kad AI modelis pateiktų netikslius rezultatus.

Tai dar ne viskas. Po atakos grėsmės veikėjas įvertina modelio efektyvumą, pateikdamas jam priešingus pavyzdžius –iškraipytos įvesties, skirtos sukelti modelio klaidas– ir analizuoja produkciją. Kuo netikslesnis rezultatas, tuo sėkmingesnė ataka.

2. Juodosios dėžės atakos

Skirtingai nei baltųjų dėžių atakų atveju, kai grėsmės veikėjas žino apie AI modelio vidinį veikimą, kaltininkai juodosios dėžės atakų neįsivaizduoju kaip veikia modelis. Jie tiesiog stebi modelį iš aklosios zonos, stebi jo įvesties ir išvesties vertes.

Pirmasis juodosios dėžės atakos žingsnis yra pasirinkti įvesties tikslą, kurį AI modelis nori klasifikuoti. Tada grėsmės veikėjas sukuria kenkėjišką įvesties versiją, pridėdamas kruopščiai sukurtą triukšmą, žmogaus akiai nematomų duomenų trikdžių, galinčių sukelti AI modelį sutrikimas.

Kenkėjiška versija įvedama į modelį ir stebima išvestis. Modelio pateikti rezultatai padeda grėsmės veikėjui nuolat keisti versiją, kol jis pakankamai įsitikinęs, kad ji neteisingai klasifikuos bet kokius į ją įvestus duomenis.

Priešpriešinių išpuolių metu naudojami metodai

Kenkėjiški subjektai gali naudoti skirtingus metodus, kad galėtų vykdyti priešiškas atakas. Štai keletas iš šių metodų.

1. Apsinuodijimas

Užpuolikai gali manipuliuoti (nuodyti) nedidelę AI modelio įvesties duomenų dalį, kad pakenktų jo mokymo duomenų rinkiniams ir tikslumui.

Yra keletas apsinuodijimo formų. Vienas iš dažniausių yra apsinuodijimas užpakalinėmis durimis, kai nukenčia labai mažai treniruočių duomenų. AI modelis ir toliau duoda labai tikslius rezultatus, kol „įjungiamas“, kad susilietus su konkrečiais trigeriais neveiktų.

2. Išsiskyrimas

Ši technika yra gana mirtina, nes ji leidžia išvengti aptikimo sekant AI apsaugos sistemą.

Daugumoje AI modelių yra įrengtos anomalijų aptikimo sistemos. Vengimo technikose naudojami priešingi pavyzdžiai, kurie tiesiogiai seka šias sistemas.

Šis metodas gali būti ypač pavojingas klinikinėms sistemoms, tokioms kaip autonominiai automobiliai ar medicininės diagnostikos modeliai. Tai laukai, kuriuose netikslumai gali turėti rimtų pasekmių.

3. Perkeliamumas

Grėsmės veikėjams, naudojantiems šią techniką, nereikia išankstinių žinių apie AI modelio parametrus. Jie naudoja priešiškas atakas, kurios praeityje buvo sėkmingos prieš kitas modelio versijas.

Pvz., jei dėl priešingos atakos vaizdų klasifikatoriaus modelis vėžlį supainioja su šautuvu, dėl tikslios atakos kiti vaizdo klasifikatoriaus modeliai gali padaryti tą pačią klaidą. Kiti modeliai galėjo būti apmokyti naudojant kitą duomenų rinkinį ir netgi turėti skirtingą architektūrą, tačiau vis tiek gali tapti atakos aukomis.

4. Surogatinė motinystė

Užuot sekęs modelio apsaugos sistemas naudodamas vengimo būdus ar anksčiau sėkmingas atakas, grėsmės veikėjas gali naudoti pakaitinį modelį.

Naudodamas šią techniką, grėsmės veikėjas sukuria identišką tikslinio modelio versiją – pakaitinį modelį. Surogato rezultatai, parametrai ir elgsena turi būti identiški pradiniam modeliui, kuris buvo nukopijuotas.

Pakaitinis asmuo dabar bus patiriamas įvairių priešiškų išpuolių, kol jis nepateiks tikslių rezultatų arba neteisingai klasifikuos. Tada ši ataka bus naudojama prieš pradinį tikslinį AI.

Kaip sustabdyti priešiškus išpuolius

Apsisaugoti nuo priešiškų išpuolių gali būti sudėtinga ir atimti daug laiko, nes grėsmės veikėjai taiko įvairias formas ir būdus. Tačiau šie veiksmai gali užkirsti kelią priešiškiems išpuoliams ir juos sustabdyti.

1. Priešpriešinis mokymas

Veiksmingiausias žingsnis, galintis užkirsti kelią priešiškoms atakoms, yra priešiškas mokymas, AI modelių ir mašinų mokymas naudojant priešiškus pavyzdžius. Tai pagerina modelio tvirtumą ir leidžia jam būti atspariam menkiausioms įvesties trikdžiams.

2. Reguliarus auditas

Būtina reguliariai tikrinti, ar AI modelio anomalijų aptikimo sistemoje nėra trūkumų. Tai apima tyčinį modelio aprūpinimą prieštaraujančiais pavyzdžiais ir modelio elgesio stebėjimą, kai gaunama kenkėjiška įvestis.

3. Duomenų dezinfekavimas

Šis metodas apima patikrinimą, ar į modelį nepatenka kenkėjiškų duomenų. Nustačius juos, juos reikia nedelsiant pašalinti.

Šiuos duomenis galima identifikuoti naudojant įvesties patvirtinimą, kuris apima duomenų patikrinimą, ar nėra anksčiau žinomų priešpriešinių pavyzdžių šablonų ar parašų.

4. Saugos atnaujinimai

Sunku būtų suklysti naudojant saugos naujinimus ir pataisas. Daugiasluoksnė sauga, pvz., ugniasienės, apsaugos nuo kenkėjiškų programų programos ir įsibrovimų aptikimo ir prevencijos sistemos gali padėti blokuoti išorinius grėsmės veikėjų, norinčių apnuodyti AI modelį, trukdžius.

Priešingi išpuoliai gali būti verti priešininkai

Priešiškų išpuolių koncepcija kelia pažangaus mokymosi ir mašininio mokymosi problemą.

Todėl dirbtinio intelekto modeliai turi būti apginkluoti tokiomis apsaugos priemonėmis kaip mokymas prieš varžovus, reguliarus auditas, duomenų valymas ir atitinkami saugos naujinimai.

About Technology - denizatm.com