GPTBot tikriausiai nėra tai, ką manote.

Key Takeaways

  • OpenAI GPTBot yra žiniatinklio tikrinimo programa, skirta rinkti duomenis iš viešųjų svetainių, kurie vėliau naudojami mokant ir tobulinant AI modelius, tokius kaip GPT-4 ir ChatGPT.
  • Kai kurios didžiausios interneto svetainės blokuoja GPTBot, nes jis pasiekia ir naudoja autorių teisių saugomą turinį be leidimo ar kompensacijos kūrėjams.
  • Nors svetainės gali naudoti įrankius, pvz., robots.txt, kad bandytų blokuoti GPTBot, nėra garantijų, kad OpenAI laikysis, nes jos gali kontroliuoti prieigą prie autorių teisių saugomų duomenų.

2023 m. rugpjūčio mėn. OpenAI, dirbtinio intelekto jėgainė, kuriai priklauso ChatGPT kūrimas, paskelbė apie GPTBot – žiniatinklio tikrinimo programą, skirtą naršyti internete ir rinkti duomenis.

Neilgai trukus po šio pranešimo kai kurios didžiausios interneto svetainės užblokavo robotui prieigą prie savo svetainės. Bet kodėl? Kas yra OpenAI GPTBot? Kodėl didžiosios svetainės to bijo ir kodėl jos bando tai blokuoti?

instagram viewer

Kas yra OpenAI GPTBot?

GPTBot yra OpenAI sukurta žiniatinklio tikrinimo programa, skirta ieškoti internete ir rinkti informaciją OpenAI AI kūrimo tikslams. Jis užprogramuotas tikrinti viešąsias svetaines ir siųsti duomenis atgal į OpenAI serverius. Tada OpenAI naudoja šiuos duomenis mokydama ir tobulindama savo AI modelius, siekdama sukurti vis pažangesnes dirbtinio intelekto sistemas. Norint sukurti sudėtingus dirbtinio intelekto modelius, tokius kaip GPT-4, arba antrinius produktus, pvz., „ChatGPT“, beveik būtinos žiniatinklio tikrinimo programos.

Dirbtinio intelekto modelio mokymas reikalauja didžiulio duomenų kiekio, o vienas iš efektyviausių būdų šiems duomenims rinkti yra naudoti tokius įrankius kaip žiniatinklio tikrinimo programos. Tikrinimo programos gali sistemingai naršyti internete, sekti nuorodas, kad indeksuotų didelius tinklalapių kiekius, ir išgauti pagrindinius duomenis, pvz., tekstą, vaizdus ir metaduomenis, atitinkančius iš anksto nustatytą šabloną.

Tada šie duomenys gali būti struktūrizuoti ir įtraukti į AI modelius, siekiant lavinti jų natūralius kalbos apdorojimo ar vaizdų generavimo gebėjimus arba išmokyti juos atlikti kitas AI užduotis. Žodžiu, žiniatinklio tikrinimo programos renka duomenis, leidžiančius tokiems įrankiams, kaip „ChatGPT“ ar DALL-E, daryti tai, ką jie daro.

Žiniatinklio tikrinimo programos nėra nauja koncepcija. Tikriausiai milijonai jų naršo milijardus interneto svetainių šiandien. Ir jie buvo maždaug nuo 90-ųjų pradžios. GPTBot yra tik vienas iš tokių OpenAI priklausančių tikrintuvų. Taigi, kas sukelia ginčus dėl šios konkrečios žiniatinklio tikrinimo programos?

Kodėl „Big Tech“ svetainės blokuoja GPTBot?

Pagal Business Insider, kai kurios didžiausios interneto svetainės savo svetainėje aktyviai blokuoja OpenAI tikrinimo programą. Taigi, jei pagrindinis GPTBot tikslas yra skatinti dirbtinio intelekto vystymąsi, kodėl kai kurios didžiausios interneto svetainės, iš kurių vienaip ar kitaip pasinaudojo AI, tam prieštarauja?

Na, štai kas. Nuo 2022 m., kai atsinaujino generatyvinės AI technologijos, buvo daug diskusijų dėl AI įmonių teisės beveik be apribojimų naudoti duomenis, gautus iš interneto, kurių didelė dalis yra teisiškai apsaugota autorių teisės. Jokie aiškūs įstatymai nereglamentuoja, kaip šios įmonės renka ir naudoja duomenis savo naudai.

Taigi iš esmės tikrinimo programos, tokios kaip GPTBot, naršo žiniatinklį, imasi žmonių kūrybinio darbo teksto, vaizdų ar kitų formų laikmeną ir naudoti ją komerciniais tikslais negavę jokio leidimo, licencijos ar nesuteikdami kompensacijos už originalą kūrėjai.

Ten laukiniai vakarai, o dirbtinio intelekto įmonės griebia viską, kas tik paima į rankas. Didelės svetainės, tokios kaip „Quora“, CNN, „New York Times“, „Business Insider“ ir „Amazon“, nėra labai patenkintos, kad jų Autorių teisių saugomą turinį renka šie tikrintuvai, todėl OpenAI gali gauti finansinės naudos iš jo išlaidas.

Štai kodėl šiose svetainėse įdiegtas „robots.txt“ – dešimtmečių senumo metodas, skirtas blokuoti žiniatinklio tikrinimo programas. Pagal OpenAI, GPTBot laikysis nurodymų tikrinti svetaines arba vengti jų tikrinimo pagal taisykles, įterptas į robots.txt – mažą tekstinį failą, nurodantį žiniatinklio tikrintuvams, kaip elgtis svetainėje. Jei turite savo svetainę ir nenorite, kad GPTBot gautų jūsų duomenų, štai kaip galite tai padaryti neleisti OpenAI tikrintuvams nukopijuoti jūsų svetainę.

Ar svetainės tikrai gali sustabdyti GPTBot?

Nors tikrinimo programos, tokios kaip GPTBot, yra būtinos norint surinkti didžiulius duomenų kiekius mokyti pažangias dirbtinio intelekto sistemas, yra pagrįstų susirūpinimų dėl autorių teisių ir sąžiningo naudojimo, kurių negali būti ignoruojamas.

Žinoma, yra paprastų įrankių, pvz., robots.txt, kuriais galima apsisaugoti, bet ar GPTBot laikosi šiame faile pateiktų nurodymų, visiškai OpenAI sprendžia savo nuožiūra. Nėra jokių garantijų, kad jie tai padarys, ir nėra tiesioginio patikimo būdo nustatyti, ar jie tai padarė. Kovodama už tai, kad „GPTBot“ nepatektų į autorių teisių saugomus duomenis, „OpenAI“ bent jau kol kas laikosi tūzų.