8 pagrindiniai veiksniai, į kuriuos reikia atsižvelgti tikrinant AI pokalbių robotų tikslumą

Galite išbandyti skirtingus AI pokalbių robotus, kad nustatytumėte, kurie veikia geriausiai. Bet kaip jūs turėtumėte tai padaryti? Štai keletas pagrindinių veiksnių, į kuriuos reikia atsižvelgti.

AI nuėjo ilgą kelią nuo nereikšmingos, nenuoseklios produkcijos. Šiuolaikiniai pokalbių robotai, be kitų sudėtingų užduočių, naudoja pažangius kalbos modelius, kurie atsako į bendrųjų žinių klausimus, kuria ilgus esė ir rašo kodą.

Nepaisant šių pažangų, atkreipkite dėmesį, kad net ir pačios sudėtingiausios sistemos turi apribojimų. AI vis dar daro klaidų. Norėdami nustatyti, kurie pokalbių robotai yra mažiausiai linkę į haliucinacijas, patikrinkite jų tikslumą pagal šiuos veiksnius.

1. Numeracija

Vykdykite matematikos lygtis per pokalbių robotus. Jie išbandys platformos gebėjimą analizuoti tekstines problemas, išversti matematines sąvokas ir taikyti teisingas formules. Tik keli modeliai demonstruoja patikimą skaičiavimą. Tiesą sakant, vienas iš Blogiausios ChatGPT problemos per pirmieji jo mėnesiai buvo baisus matematikos supratimas.

instagram viewer

Žemiau esančiame paveikslėlyje parodyta, kad „ChatGPT“ nepasiekia pagrindinės statistikos.

Po to „ChatGPT“ pagerėjo „OpenAI“ išleido 2023 m. gegužės mėn. atnaujinimus. Tačiau, atsižvelgiant į ribotus duomenų rinkinius, vis tiek turėsite problemų su tarpiniais ir sudėtingesniais matematiniais skaičiavimais.

Tuo tarpu „Bing Chat“ ir „Google Bard“ rodo geresnį skaičiavimą. Jie vykdo užklausas per atitinkamus paieškos variklius, leidžiančius ištraukti formules ir atsakymų lapus.

Pabandykite perfrazuoti savo žodines problemas. Venkite ilgų sakinių ir pakeiskite silpnus veiksmažodžius; kitu atveju pokalbių robotai gali neteisingai suprasti jūsų klausimus.

2. Supratimas

Šiuolaikinės AI sistemos gali atlikti daugybę užduočių. Išplėstinės LLM leidžia išsaugoti ankstesnes instrukcijas ir atsakyti į raginimus pagal skyrius, o senesnės sistemos apdoroja atskiras komandas. Pavyzdžiui, Siri atsako į vieną klausimą vienu metu.

Tiekia pokalbių robotus nuo trijų iki penkių užduočių vienu metu, kad patikrintų, kaip gerai jie analizuoja sudėtingus raginimus. Mažiau sudėtingi modeliai negali apdoroti tiek daug informacijos. Žemiau esančiame paveikslėlyje pavaizduota, kad „HuggingChat“ veikia netinkamai pagal trijų žingsnių raginimą – jis sustoja ties pirmuoju žingsniu ir nukrypsta nuo temos.

Paskutinės HuggingChat eilutės jau nenuoseklios.

„ChatGPT“ greitai užpildo tą patį raginimą, kiekviename žingsnyje generuodamas be klaidų, protingus atsakymus.

„Bing Chat“ pateikia trumpą atsakymą į tris veiksmus. Jos griežti apribojimai draudžia bereikalingai ilgus rezultatus, kurie eikvoja apdorojimo galią.

3. Savalaikiškumas

Kadangi dirbtinio intelekto mokymas kainuoja didžiulius išteklius, dauguma kūrėjų riboja duomenų rinkinius tam tikrais laikotarpiais. Paimkite ChatGPT kaip pavyzdį. Žinios baigiasi 2021 m. rugsėjo mėn. – negalite prašyti orų naujienų, naujienų pranešimų ar naujausių įvykių. Štai „ChatGPT“ sako, kad neturi prieigos prie informacijos realiuoju laiku.

Bardas turi prieigą prie interneto. Ji renka duomenis iš Google SERP, todėl galite užduoti įvairesnių klausimų, pvz., apie naujausius įvykius, naujienas ir prognozes.

Taip pat „Bing Chat“ iš savo paieškos variklio renka informaciją realiuoju laiku.

„Bing Chat“ ir „Bard“ pateikia laiku, naujausią informaciją, tačiau pastaroji pateikia išsamesnius atsakymus. „Bing“ tik pateikia duomenis tokius, kokie yra. Pastebėsite, kad jo išvestis dažnai pažodžiui sutampa su susietų šaltinių frazėmis ir tonu.

4. Aktualumas

Pokalbių robotai turi pateikti atitinkamus rezultatus. Atsakydami jie turėtų atsižvelgti į tiesioginę ir kontekstinę jūsų raginimų reikšmę. Paimkite šį pokalbį kaip pavyzdį. Mūsų asmeniui reikia naujo telefono, bet jis turi tik 1 000 USD – „ChatGPT“ neviršija biudžeto.

Kai tikrinate tinkamumą, pabandykite parengti ilgas instrukcijas. Mažiau sudėtingi pokalbių robotai paprastai suveikia, kai pateikia painias instrukcijas. Pavyzdžiui, HuggingChat gali kurti išgalvotas istorijas. Tačiau tai gali nukrypti nuo pagrindinės temos, jei nustatysite per daug taisyklių ir gairių.

5. Kontekstinė atmintis

Kontekstinė atmintis padeda AI sukurti tikslią ir patikimą išvestį. Užuot vertinę jūsų klausimus kaip nominalią vertę, jie sujungia jūsų paminėtas detales. Paimkite šį pokalbį kaip pavyzdį. „Bing Chat“ sujungia du atskirus pranešimus, kad sudarytų naudingą, glaustą atsakymą.

Taip pat kontekstinė atmintis leidžia pokalbių robotams atsiminti instrukcijas. Šiame paveikslėlyje parodyta, kaip „ChatGPT“ imituoja išgalvoto veikėjo kalbėjimą kelių pokalbių metu.

Išbandykite šią funkciją patys, nuosekliai remdamiesi ankstesniais teiginiais. Pateikite pokalbių robotams įvairią informaciją, tada priverskite juos prisiminti vėlesniuose atsakymuose.

Kontekstinė atmintis yra ribota. „Bing Chat“ pradeda naujus pokalbius kas 20 apsisukimų, o „ChatGPT“ negali apdoroti daugiau nei 3000 žetonų raginimų.

6. Saugumo apribojimai

AI ne visada elgiasi taip, kaip numatyta. Neteisingas mokymas gali sukelti mašininio mokymosi technologijas, kad padarytų įvairias klaidas, nuo smulkių matematinių klaidų iki probleminių komentarų. Imk Microsoft Tay pavyzdžiui. „Twitter“ naudotojai išnaudojo neprižiūrimą mokymosi modelį ir privertė jį sakyti rasinius šmeižtus.

Laimei, pasauliniai technologijų lyderiai pasimokė iš „Microsoft“ klaidos. Nors ir ekonomiškai efektyvus ir patogus, bet neprižiūrimas mokymasis leidžia dirbtinio intelekto sistemas apgauti. Vadinasi, šiais laikais kūrėjai pirmiausia pasikliauja prižiūrimu mokymusi. Patinka pokalbių robotai „ChatGPT“ vis tiek mokosi iš pokalbių, bet jų treneriai pirmiausia filtruoja informaciją.

Tikėkitės skirtingų dirbtinio intelekto įmonių gairių. „ChatGPT“ ne tokie griežti apribojimai apima platesnį užduočių spektrą, tačiau yra silpni prieš išnaudojimą. Tuo tarpu „Bing Chat“ laikosi griežtesnių apribojimų. Nors jie padeda kovoti su išnaudojimo bandymais, jie taip pat trukdo funkcionalumui. „Bing“ automatiškai išjungia potencialiai žalingus pokalbius.

7. AI šališkumas

AI iš esmės yra neutralus. Dėl pirmenybių ir emocijų trūkumo jis nesugeba susidaryti nuomonės – jis tik pateikia informaciją, kurią žino. Štai kaip ChatGPT reaguoja į subjektyvias temas.

Nepaisant šio neutralumo, AI šališkumas vis tiek kyla. Jie atsiranda dėl modelių, duomenų rinkinių, algoritmų ir modelių, kuriuos naudoja kūrėjai. AI gali būti nešališkas, bet žmonės ne.

Pavyzdžiui, Brukingso institucija teigia, kad ChatGPT demonstruoja kairiojo sparno politinį šališkumą. Žinoma, OpenAI neigia šiuos kaltinimus. Tačiau, kad būtų išvengta panašių problemų su naujesniais modeliais, „ChatGPT“ visiškai vengia nuomonės išvadų.

Taip pat Bing Chat vengia jautrių, subjektyvių dalykų.

Patys įvertinkite DI šališkumą užduodami nuomone pagrįstus atvirus klausimus. Kalbėkite temomis be teisingo ar neteisingo atsakymo – ne tokie sudėtingi pokalbių robotai greičiausiai parodys nepagrįstas nuostatas konkrečioms grupėms.

8. Nuorodos

DI retai kada du kartus patikrina faktus. Jis tik ištraukia informaciją iš savo duomenų rinkinių ir perfrazuoja juos naudodamas kalbos modelius. Deja, ribotas mokymas sukelia AI haliucinacijas. Vis tiek galite naudoti generatyvius AI įrankius tyrimams, tačiau įsitikinkite, kad patys patikrinate faktus. Paimkite produkciją su druskos grūdeliu.

„Bing Chat“ supaprastina faktų tikrinimo procesą, įtraukdama nuorodas po kiekvieno išvesties.

„Bard AI“ nenurodo savo šaltinių, bet generuoja atnaujintus, išsamius paaiškinimus vykdydama „Google“ paieškos užklausas. Pagrindinius taškus gausite iš SERP.

„ChatGPT“ yra linkęs į netikslumus. 2021 m. žinių pertrauka neleidžia atsakyti į klausimus apie naujausius įvykius ir incidentus.

Sukurkite naujus būdus, kaip patikrinti pokalbių robotų tikslumą

Dirbtinis intelektas nėra visa technologija ir pabaiga. Nors sudėtingos AI sistemos ir kalbos modeliai atlieka įspūdingus žygdarbius, jie taip pat daro klaidų ir neatitikimų. Žiūrėkite į pokalbių robotus skeptiškai. DI pagrįstas platformas galite naudoti tik tada, kai suprantate jų funkcijas ir apribojimus.

Nors platformose yra daugybė pokalbių robotų, jų patikimumas ir tikslumas gali jus nuvilti. Jūs tik sugaišite laiką juos išbandydami. Siekiant užtikrinti kokybiškus rezultatus, siūlome sutelkti dėmesį į tris patikimiausius modelius rinkoje: „ChatGPT“, „Bing AI“ ir „Google Bard“.

About Technology - denizatm.com

8 pagrindiniai veiksniai, į kuriuos reikia atsižvelgti tikrinant AI pokalbių robotų tikslumą

1. Numeracija

2. Supratimas

3. Savalaikiškumas

4. Aktualumas

5. Kontekstinė atmintis

6. Saugumo apribojimai

7. AI šališkumas

8. Nuorodos

Sukurkite naujus būdus, kaip patikrinti pokalbių robotų tikslumą

Kategorijos

Recent Post

Kaip naudoti IIS norint priglobti svetainę vietoje sistemoje „Windows“.

Geriausi „Amazon Kindle“ įrenginiai, kuriuos galite nusipirkti

Kaip pakeisti datos ir laiko formatus savo mastelio keitimo paskyroje