Kaip neleisti dirbtinio intelekto pokalbių robotams iškrapštyti jūsų svetainės turinio

Nerimaujate dėl AI pokalbių robotų, kurie ieško jūsų svetainės turinio? Laimei, galite neleisti jiems to daryti. Štai kaip.

Šiuo metu AI pokalbių robotai turi nemokamą licenciją iškrapštyti jūsų svetainę ir naudoti jos turinį be jūsų leidimo. Nerimaujate, kad jūsų turinys gali būti iškraipytas naudojant tokius įrankius?

Geros naujienos yra tai, kad galite sustabdyti AI įrankius nuo prieigos prie jūsų svetainės, tačiau yra keletas įspėjimų. Čia parodysime, kaip blokuoti robotus naudojant svetainės robots.txt failą, taip pat to privalumus ir trūkumus.

Kaip AI pokalbių robotai pasiekia jūsų žiniatinklio turinį?

AI pokalbių robotai mokomi naudojant kelis duomenų rinkinius, kai kurie iš jų yra atvirojo kodo ir viešai prieinami. Pavyzdžiui, GPT3 buvo apmokytas naudojant penkis duomenų rinkinius OpenAI paskelbtas mokslinis darbas:

Įprastas nuskaitymas (60 % svorio treniruotėse)
WebText2 (22% svoris treniruotėse)
Knygos1 (8 % svorio treniruotėse)
2 knygos (8 % svorio treniruotėse)
Vikipedija (3% svorio treniruotėse)

instagram viewer

Įprastas nuskaitymas apima petabaitus (tūkstančiai TB) duomenų iš svetainių, surinktų nuo 2008 m., panašiai kaip „Google“ paieškos algoritmas tikrina žiniatinklio turinį. „WebText2“ yra „OpenAI“ sukurtas duomenų rinkinys, kuriame yra maždaug 45 milijonai tinklalapių, susietų su „Reddit“ įrašais su mažiausiai trimis teigiamais balsais.

Taigi, „ChatGPT“ atveju AI robotas tiesiogiai nepasiekia ir neaptinka jūsų tinklalapių – vis tiek dar ne. Nors OpenAI pranešimas apie „ChatGPT“ priglobtą žiniatinklio naršyklę išreiškė susirūpinimą, kad tai gali pasikeisti.

Tuo tarpu svetainių savininkai turėtų stebėti kitus AI pokalbių robotus, nes į rinką patenka daugiau jų. Bardas yra kitas didelis vardas šioje srityje, apie kurį žinoma labai mažai duomenų rinkiniai, naudojami jai mokyti. Akivaizdu, kad žinome, kad „Google“ paieškos robotai nuolat tikrina tinklalapius, tačiau tai nebūtinai reiškia, kad „Bard“ turi prieigą prie tų pačių duomenų.

Kodėl kai kurie svetainių savininkai susirūpinę?

Didžiausią susirūpinimą svetainių savininkams kelia tai, kad dirbtinio intelekto robotai, tokie kaip „ChatGPT“, „Bard“ ir „Bing Chat“, nuvertina jų turinį. AI robotai naudoja esamą turinį, kad sukurtų savo atsakymus, tačiau taip pat sumažina vartotojų poreikį pasiekti pradinį šaltinį. Užuot apsilankę svetainėse norėdami gauti informacijos, jie gali tiesiog paprašyti „Google“ arba „Bing“ sugeneruoti jiems reikalingos informacijos santrauką.

Kalbant apie AI pokalbių robotus paieškoje, didelį susirūpinimą svetainių savininkams kelia srauto praradimas. Bardo atveju AI botas retai įtraukia citatas į savo generatyvius atsakymus, nurodant naudotojams, iš kurių puslapių ji gauna informaciją.

Taigi, be apsilankymų svetainėje pakeitimo AI atsakymais, „Bard“ pašalina beveik bet kokią galimybę, kad šaltinio svetainė sulauktų srauto, net jei vartotojas nori daugiau informacijos. Kita vertus, „Bing Chat“ dažniau pateikia nuorodas į informacijos šaltinius.

Kitaip tariant, dabartinis generuojamųjų AI įrankių parkas yra naudojant turinio kūrėjų darbą sistemingai pakeisti turinio kūrėjų poreikį. Galų gale, jūs turite paklausti kokią paskatą tai palieka svetainių savininkams ir toliau skelbti turinį. Be to, kas nutinka AI robotams, kai svetainės nustoja skelbti turinį, kurio veikimui jos priklauso?

Kaip užblokuoti AI robotus iš savo svetainės

Jei nenorite, kad AI robotai naudotų jūsų žiniatinklio turinį, galite užblokuoti jiems prieigą prie jūsų svetainės naudodami robots.txt failą. Deja, jūs turite užblokuoti kiekvieną atskirą robotą ir nurodyti juos pavadinimu.

Pavyzdžiui, „Common Crawl“ robotas vadinamas CCBot ir galite jį užblokuoti pridėję šį kodą prie failo robots.txt:

Vartotojo agentas: CCBot
Neleisti: /

Tai neleis „Common Crawl“ tikrinti jūsų svetainę ateityje, bet nepašalins jokių duomenų, jau surinktų iš ankstesnių tikrinimų.

Jei nerimaujate dėl naujų ChatGPT papildinių, pasiekiančių jūsų žiniatinklio turinį, OpenAI jau paskelbė instrukcijos, kaip blokuoti jos robotą. Šiuo atveju „ChatGPT“ robotas vadinamas „ChatGPT-User“ ir galite jį užblokuoti pridėję šį kodą prie failo robots.txt:

Vartotojo agentas: „ChatGPT“ naudotojas
Neleisti: /

Vis dėlto visiškai kita problema yra blokuoti paieškos variklio AI robotus, kad jie tikrintų jūsų turinį. Kadangi „Google“ labai slepia naudojamus mokymo duomenis, neįmanoma nustatyti, kuriuos robotus turėsite blokuoti ir ar jie net paisys jūsų komandų. robots.txt failą (daugelis tikrintuvų to nedaro).

Kiek efektyvus šis metodas?

AI robotų blokavimas jūsų kompiuteryje robots.txt failas yra efektyviausias šiuo metu prieinamas metodas, tačiau jis nėra ypač patikimas.

Pirmoji problema yra ta, kad turite nurodyti kiekvieną robotą, kurį norite blokuoti, bet kas gali sekti kiekvieną AI botą, patekusį į rinką? Kita problema yra ta, kad komandos jūsų robots.txt failas yra neprivalomos instrukcijos. Nors „Common Crawl“, „ChatGPT“ ir daugelis kitų robotų gerbia šias komandas, daugelis robotų ne.

Kitas didelis įspėjimas yra tai, kad jūs galite tik blokuoti AI robotus, kad jie atliktų būsimus tikrinimus. Negalite pašalinti duomenų iš ankstesnių tikrinimų arba siųsti užklausų tokioms įmonėms kaip OpenAI ištrinti visus jūsų duomenis.

Deja, nėra paprasto būdo blokuoti visus AI robotus, kad jie negalėtų pasiekti jūsų svetainės, o rankiniu būdu blokuoti kiekvieną atskirą robotą beveik neįmanoma. Net jei neatsiliksite nuo naujausių AI robotų, kurie naršo internete, nėra jokios garantijos, kad jie visi laikysis jūsų pateiktų komandų. robots.txt failą.

Tikrasis klausimas yra tai, ar rezultatai verti pastangų, o trumpas atsakymas yra (beveik tikrai) ne.

Taip pat yra galimų neigiamų aspektų blokuojant AI robotus iš jūsų svetainės. Visų pirma, jūs negalėsite rinkti reikšmingų duomenų, kad įrodytumėte, ar tokie įrankiai kaip „Bard“ yra naudingi ar kenkia jūsų paieškos rinkodaros strategijai.

Taip, galite manyti, kad citatų trūkumas yra žalingas, bet jūs tik spėliojate, ar jums trūksta duomenų, nes užblokavote AI robotus, kad jie negalėtų pasiekti jūsų turinio. Tai buvo panaši istorija, kai „Google“ pirmą kartą pristatė siūlomi fragmentai Ieškoti.

Jei reikia atitinkamų užklausų, „Google“ rezultatų puslapyje rodo tinklalapių turinio fragmentą, atsakydama į naudotojo klausimą. Tai reiškia, kad naudotojams nereikia spustelėti svetainės, kad gautų ieškomą atsakymą. Tai sukėlė paniką tarp svetainių savininkų ir SEO ekspertų, kurie pasitiki srauto generavimu iš paieškos užklausų.

Tačiau užklausos, kurios suaktyvina siūlomus fragmentus, paprastai yra mažos vertės paieškos, pvz., „kas yra X“ arba „koks oras Niujorke“. Visi, kurie nori išsamios informacijos ar išsamios orų ataskaitos, vis tiek spustels, o tie, kurie to nenori, niekada nebuvo tokie vertingi.

Galbūt pastebėsite, kad tai panaši istorija su generatyviais AI įrankiais, tačiau jums reikės duomenų, kad tai patvirtintumėte.

Neskubėkite į nieką

Suprantama, kad svetainių savininkai ir leidėjai nerimauja dėl dirbtinio intelekto technologijos ir yra nusivylę idėja, kad robotai naudoja savo turinį momentiniams atsakymams generuoti. Tačiau dabar ne laikas skubėti imtis kontrapuolimo veiksmų. AI technologija yra sparčiai besivystanti sritis, ir viskas toliau sparčiai vystysis. Pasinaudokite šia galimybe ir pamatysite, kaip viskas klostosi, ir analizuokite galimas grėsmes bei galimybes, kurias AI suteikia.

Dabartinė sistema, kuria remiamasi turinio kūrėjų darbu, siekiant juos pakeisti, nėra tvari. Nesvarbu, ar tokios įmonės kaip „Google“ ir „OpenAI“ pakeis savo požiūrį, ar vyriausybės įves naujus reglamentus, kažkas turi duoti. Tuo pačiu metu vis labiau pastebima neigiama AI pokalbių robotų reikšmė kuriant turinį, kurią svetainių savininkai ir turinio kūrėjai gali panaudoti savo naudai.

About Technology - denizatm.com

Kaip neleisti dirbtinio intelekto pokalbių robotams iškrapštyti jūsų svetainės turinio

Kaip AI pokalbių robotai pasiekia jūsų žiniatinklio turinį?

Kodėl kai kurie svetainių savininkai susirūpinę?

Kaip užblokuoti AI robotus iš savo svetainės

Kiek efektyvus šis metodas?

Neskubėkite į nieką

Kategorijos

Recent Post

Tinklalaidės dabar transliuojamos „Amazon“ muzikoje

„Amazon Music“ prideda smulkmenų prie dainų naudodama rentgeno spindulius

„Google“ tobulina „Android“ miego stebėjimo programas naudodama „Sleep“ API