Šis didelis kalbos modelis buvo išmokytas tamsiajame žiniatinklyje, kad būtų galima įvertinti kibernetinio saugumo grėsmes. Štai ką reikia žinoti.

Didelės kalbos modelių (LLM) populiarumas sparčiai auga, o į sceną nuolat atsiranda naujų. Šie modeliai, kaip ir „ChatGPT“, paprastai mokomi naudojant įvairius interneto šaltinius, įskaitant straipsnius, svetaines, knygas ir socialinę žiniasklaidą.

Pietų Korėjos mokslininkų komanda sukūrė precedento neturintį žingsnį „DarkBERT“, LLM, apmokytą naudojant duomenų rinkinius, paimtus tik iš tamsaus interneto. Jų tikslas buvo sukurti AI įrankį, kuris pralenktų esamus kalbos modelius ir padėtų grėsmių tyrinėtojams, teisėsaugos ir kibernetinio saugumo specialistams kovoti su kibernetinėmis grėsmėmis.

Kas yra DarkBERT?

DarkBERT yra transformatoriaus pagrindu sukurtas kodavimo modelis, pagrįstas RoBERTa architektūra. LLM buvo mokoma apie milijonus tamsių tinklalapių, įskaitant duomenis iš įsilaužimo forumų, sukčiavimo svetainių ir kitų internetinių šaltinių, susijusių su nelegalia veikla.

instagram viewer

Terminas „tamsusis tinklas“ reiškia paslėptą interneto skyrių nepasiekiamas per standartines žiniatinklio naršykles. Poskyris garsėja anoniminėmis svetainėmis ir prekyvietėmis, liūdnai pagarsėjusiomis neteisėta veikla, pvz., prekyba vogtais duomenimis, narkotikais ir ginklais.

Norėdami išmokyti DarkBERT, mokslininkai įgijo prieigą prie tamsaus žiniatinklio per Tor tinklą ir surinko neapdorotus duomenis. Jie kruopščiai filtravo šiuos duomenis naudodami tokius metodus kaip dubliavimo panaikinimas, kategorijų balansavimas ir išankstinis apdorojimas sukurti patobulintą tamsiojo žiniatinklio duomenų bazę, kuri vėliau buvo pateikta RoBERTa per maždaug 15 dienų, kad būtų sukurta DarkBERT.

Galimas „DarkBERT“ naudojimas kibernetiniame saugume

„DarkBERT“ puikiai supranta kibernetinių nusikaltėlių kalbą ir puikiai pastebi konkrečias galimas grėsmes. Jis gali tyrinėti tamsųjį internetą ir sėkmingai nustatyti bei pažymėti kibernetinio saugumo grėsmes, pvz., duomenų nutekėjimą ir išpirkos reikalaujančias programas, todėl tai gali būti naudinga priemonė kovojant su kibernetinėmis grėsmėmis.

Norėdami įvertinti DarkBERT efektyvumą, mokslininkai palygino jį su dviem žinomais NLP modeliais – BERT ir „RoBERTa“, vertindama jų našumą trimis itin svarbiais su kibernetiniu saugumu susijusiais naudojimo atvejais, tyrimas, Paskelbta arxiv.org, nurodo.

1. Stebėkite tamsaus žiniatinklio forumus, ar nėra potencialiai žalingų gijų

Tamsaus interneto forumų, kurie dažniausiai naudojami keičiantis neteisėta informacija, stebėjimas yra labai svarbus norint nustatyti potencialiai pavojingas temas. Tačiau jų peržiūra rankiniu būdu gali užtrukti, todėl proceso automatizavimas yra naudingas saugumo ekspertams.

Tyrėjai sutelkė dėmesį į galimai žalingą veiklą įsilaužimo forumuose, kurdami komentarų gaires dėl dėmesio vertų gijų, įskaitant dalijimąsi konfidencialiais duomenimis ir svarbių kenkėjiškų programų platinimą arba pažeidžiamumų.

„DarkBERT“ pranoko kitus kalbų modelius pagal tikslumą, atmintį ir F1 balą, tapdamas geriausiu pasirinkimu identifikuoti vertas dėmesio gijas tamsiajame žiniatinklyje.

2. Aptikti svetaines, kuriose yra konfidenciali informacija

Piratai ir išpirkos reikalaujančios grupės naudoja tamsųjį internetą kurdamos nutekėjusias svetaines, kuriose skelbia konfidencialius duomenis, pavogtus iš organizacijų, kurios atsisako vykdyti išpirkos reikalavimus. Kiti kibernetiniai nusikaltėliai tiesiog įkelia nutekėjusius neskelbtinus duomenis, pvz., slaptažodžius ir finansinę informaciją, į tamsųjį internetą, norėdami juos parduoti.

Savo tyrime mokslininkai surinko duomenis iš liūdnai pagarsėjusios išpirkos reikalaujančios programos ir išanalizavo išpirkos reikalaujančių programų nutekėjimo svetaines, kuriose skelbiami privatūs organizacijų duomenys. „DarkBERT“ aplenkė kitus kalbinius modelius nustatydama ir klasifikuodama tokias svetaines, parodydama savo supratimą apie kalbą, vartojamą požeminiuose įsilaužimo forumuose tamsiajame internete.

„DarkBERT“ naudoja užpildymo kaukės funkciją, kuri yra neatskiriama BERT šeimos kalbų modelių savybė, kad būtų galima tiksliai nustatyti raktinius žodžius, susijusius su nelegalia veikla, įskaitant narkotikų pardavimą tamsiajame žiniatinklyje.

Kai narkotikų pardavimo puslapyje buvo užmaskuotas žodis „MDMA“, „DarkBERT“ generavo su narkotikais susijusius žodžius, o kiti modeliai siūlė bendruosius žodžius ir terminus, nesusijusius su narkotikais, pavyzdžiui, įvairiomis profesijomis.

„DarkBERT“ gebėjimas identifikuoti su neteisėta veikla susijusius raktinius žodžius gali būti naudingas stebint kylančias kibernetines grėsmes ir sprendžiant jas.

Ar „DarkBERT“ prieinama plačiajai visuomenei?

Šiuo metu „DarkBERT“ nėra prieinama visuomenei, tačiau mokslininkai yra atviri prašymams naudoti ją akademiniais tikslais.

Išnaudokite AI galią grėsmių aptikimui ir prevencijai

„DarkBERT“ buvo iš anksto apmokytas naudoti tamsiojo žiniatinklio duomenis ir pranoksta esamus kalbos modelius įvairiais kibernetinio saugumo naudojimo atvejais, todėl yra labai svarbus įrankis, padedantis tobulinti tamsiojo žiniatinklio tyrimus.

Tamsiajame žiniatinklyje apmokytas dirbtinis intelektas gali būti naudojamas įvairioms kibernetinio saugumo užduotims, įskaitant svetainių, kuriose parduodamos nutekintos medžiagos, identifikavimą. konfidencialūs duomenys, tamsaus žiniatinklio forumų stebėjimas, siekiant aptikti neteisėtą dalijimąsi informacija, ir su kibernetiniu ryšiu susijusių raktinių žodžių nustatymas grasinimai.

Tačiau visada turėtumėte atsiminti, kad, kaip ir kiti LLM, DarkBERT yra nebaigtas darbas, o jo veikimą galima pagerinti nuolat treniruojant ir tobulinant.