Skelbimas

Jei tu paleisti svetainę 10 būdų, kaip sukurti nedidelę ir paprastą svetainę be perdėto„WordPress“ gali būti perteklius. Kaip įrodo šios kitos puikios paslaugos, „WordPress“ nėra viskas, ko reikia kurti svetaines. Jei norite paprastesnių sprendimų, galite rinktis iš įvairių. Skaityti daugiau , tikriausiai girdėjote apie robots.txt failą (arba „robotų išskyrimo standartą“). Nesvarbu, ar turite, ar ne, laikas apie tai sužinoti, nes šis paprastas tekstinis failas yra svarbi jūsų svetainės dalis. Tai gali atrodyti nereikšminga, bet galite nustebti, kaip tai svarbu.

Pažiūrėkime, kas yra robots.txt failas, ką jis veikia ir kaip tinkamai jį nustatyti svetainėje.

Kas yra robots.txt failas?

Norėdami suprasti, kaip veikia robots.txt failas, turite žinoti šiek tiek apie paieškos variklius Kaip veikia paieškos sistemos?Daugeliui žmonių „Google“ yra internetas. Tai neabejotinai svarbiausias išradimas nuo paties interneto. Ir nors nuo to laiko paieškos sistemos labai pasikeitė, pagrindiniai principai išlieka tie patys. Skaityti daugiau

instagram viewer
. Trumpa versija yra ta, kad jie siunčia „slankiklius“, kurie yra programos, kurios ieško informacijos internete. Tada jie saugo dalį šios informacijos, kad vėliau galėtų nukreipti žmones į ją.

Šie tikrintuvai, taip pat žinomi kaip „botai“ arba „vorai“, randa puslapius iš milijardų svetainių. Paieškos sistemos suteikia jiems nurodymus, kur eiti, bet atskiros svetainės taip pat gali susisiekti su robotais ir nurodyti, kuriuos puslapius jie turėtų peržiūrėti.

Dažniausiai jie elgiasi priešingai ir nurodo, kuriuos puslapius jie turi neturėtų žiūrėti. Tokie dalykai, kaip administraciniai puslapiai, pagrindiniai portalai, kategorijų ir žymų puslapiai ir kiti dalykai, kurių svetainių savininkai nenori, kad jie būtų rodomi paieškos sistemose. Šiuos puslapius vis dar mato naudotojai ir juos gali pasiekti visi, turintys leidimą (dažniausiai visi).

Tačiau liepdamas tiems vorams neindeksuoti kai kurių puslapių, failas robots.txt padaro paslaugą visiems. Jei ieškojote „MakeUseOf“ paieškos variklyje, ar norėtumėte, kad mūsų administraciniai puslapiai būtų rodomi aukštoje reitingo vietoje? Ne. Tai niekam nebūtų naudinga, todėl nurodome paieškos varikliams jų nerodyti. Jis taip pat gali būti naudojamas tam, kad paieškos varikliai netikrintų puslapių, kurie gali nepadėti klasifikuoti jūsų svetainės paieškos rezultatuose.

Trumpai tariant, robots.txt nurodo žiniatinklio tikrintuvams, ką daryti.

Ar tikrinimo programos gali nepaisyti robots.txt?

Ar tikrintuvai kada nors ignoruoja robots.txt failus? Taip. Tiesą sakant, daugelis skaitytuvų daryti Ignoruok tai. Tačiau paprastai šie tikrintuvai nėra iš patikimų paieškos sistemų. Jie yra iš šiukšlių siuntėjų, el. pašto rinkėjų ir kitų tipų automatizuoti robotai Kaip sukurti pagrindinį žiniatinklio tikrintuvą, kad būtų galima gauti informaciją iš svetainėsAr kada nors norėjote užfiksuoti informaciją iš svetainės? Štai kaip parašyti tikrinimo programą, skirtą naršyti svetainėje ir išgauti tai, ko jums reikia. Skaityti daugiau kurie klaidžioja internete. Svarbu tai turėti omenyje – Robotų išskyrimo standarto naudojimas, norint įspėti robotus nesileisti, nėra veiksminga saugumo priemonė. Tiesą sakant, kai kurie robotai gali pradėti su puslapiais, į kuriuos liepiate neiti.

Tačiau paieškos sistemos elgsis taip, kaip nurodyta faile robots.txt, jei jis bus tinkamai suformatuotas.

Kaip parašyti robots.txt failą

Yra keletas skirtingų dalių, kurios patenka į standartinį roboto išskyrimo failą. Čia suskirstysiu juos kiekvieną atskirai.

Vartotojo agento deklaracija

Prieš nurodydami robotui, į kuriuos puslapius jis neturėtų žiūrėti, turite nurodyti, su kuriuo robotu kalbate. Dažniausiai naudosite paprastą deklaraciją, kuri reiškia „visi robotai“. Tai atrodo taip:

Vartotojo atstovas: *

Žvaigždutė reiškia „visi robotai“. Tačiau galite nurodyti tam tikrų robotų puslapius. Norėdami tai padaryti, turėsite žinoti roboto, kuriam nustatote gaires, pavadinimą. Tai gali atrodyti taip:

Vartotojo agentas: Googlebot. [puslapių, kurių negalima tikrinti, sąrašas] Vartotojo priemonė: Googlebot-Image/1.0. [puslapių, kurių negalima tikrinti, sąrašas] Vartotojo agentas: Bingbot. [puslapių, kurių negalima tikrinti, sąrašas]

Ir taip toliau. Jei aptinkate robotą, kurio visiškai nenorite tikrinti jūsų svetainės, galite nurodyti ir tai.

Norėdami sužinoti vartotojų agentų pavadinimus, apsilankykite useragentstring.com [Nebegalima].

Neleidžiami puslapiai

Tai yra pagrindinė jūsų roboto išskyrimo failo dalis. Naudodami paprastą pareiškimą, jūs nurodote robotui arba robotų grupei neskaityti tam tikrų puslapių. Sintaksė paprasta. Štai kaip neleisite pasiekti visko, kas yra jūsų svetainės „administratoriaus“ kataloge:

Neleisti: /admin/

Ši eilutė neleis robotams tikrinti yoursite.com/admin, yoursite.com/admin/login, yoursite.com/admin/files/secret.html ir nieko kito, kas patenka į administratoriaus katalogą.

Jei norite neleisti vieno puslapio, tiesiog nurodykite jį neleidimo eilutėje:

Neleisti: /public/exception.html

Dabar „išimties“ puslapis nebus nupieštas, bet visa kita „viešajame“ aplanke bus.

Norėdami įtraukti kelis katalogus ar puslapius, tiesiog surašykite juos tolesnėse eilutėse:

Neleisti: /privatus/ Neleisti: /admin/ Neleisti: /cgi-bin/ Neleisti: /temp/

Šios keturios eilutės bus taikomos bet kuriam vartotojo agentui, kurį nurodėte skyriaus viršuje.

Jei norite, kad robotai nežiūrėtų į jokį jūsų svetainės puslapį, naudokite:

Neleisti: /

Skirtingų standartų nustatymas robotams

Kaip matėme aukščiau, galite nurodyti tam tikrus puslapius skirtingiems robotams. Sujungus du ankstesnius elementus, tai atrodo taip:

Vartotojo agentas: googlebot. Neleisti: /admin/ Neleisti: /privatus/ Vartotojo agentas: bingbot. Neleisti: /admin/ Neleisti: /privatus/ Neleisti: /slaptas/

Skiltys „administratorius“ ir „privatus“ bus nematomos „Google“ ir „Bing“, tačiau „Google“ matys „slaptą“ katalogą, o „Bing“ – ne.

Galite nurodyti bendrąsias visų robotų taisykles naudodami naudotojo agentą žvaigždute, o tada pateikti konkrečias instrukcijas robotams tolimesniuose skyriuose.

Viską sudėjus

Turėdami aukščiau pateiktų žinių, galite parašyti visą robots.txt failą. Tiesiog paleiskite mėgstamą teksto rengyklę (mes „Sublime“ gerbėjai 11 puikių teksto patarimų, kaip padidinti produktyvumą ir greitesnę darbo eigą„Sublime Text“ yra universalus teksto rengyklė ir daugelio programuotojų auksinis standartas. Mūsų patarimai skirti efektyviam kodavimui, tačiau paprasti vartotojai įvertins sparčiuosius klavišus. Skaityti daugiau čia) ir praneškite robotams, kad jie nėra laukiami tam tikrose jūsų svetainės dalyse.

Jei norite pamatyti robots.txt failo pavyzdį, tiesiog eikite į bet kurią svetainę ir pabaigoje pridėkite „/robots.txt“. Štai dalis Giant Bicycles robots.txt failo:

milžinišką robots.txt failą

Kaip matote, yra nemažai puslapių, kurių jie nenori rodyti paieškos sistemose. Jie taip pat įtraukė keletą dalykų, apie kuriuos dar nekalbėjome. Pažiūrėkime, ką dar galite padaryti savo roboto išskyrimo faile.

Jūsų svetainės schemos nustatymas

Jei failas robots.txt nurodo robotams, kur ne eiti, tavo svetainės schema veikia priešingai Kaip sukurti XML svetainės schemą 4 paprastais veiksmaisYra dviejų tipų svetainių schemos – HTML puslapis arba XML failas. HTML svetainės schema yra vienas puslapis, kuriame lankytojams rodomi visi svetainės puslapiai ir paprastai pateikiamos nuorodos į... Skaityti daugiau ir padeda jiems rasti tai, ko jie ieško. Ir nors paieškos sistemos tikriausiai jau žino, kur yra jūsų svetainės schema, nepakenks apie tai dar kartą pranešti.

Svetainės schemos vietos deklaracija yra paprasta:

Svetainės schema: [svetainės schemos URL]

Viskas.

Mūsų pačių robots.txt faile jis atrodo taip:

Svetainės schema: //www.makeuseof.com/sitemap_index.xml

Tai viskas.

Nuskaitymo delsos nustatymas

Tikrinimo delsos direktyva nurodo tam tikroms paieškos sistemoms, kaip dažnai jie gali indeksuoti jūsų svetainės puslapį. Jis matuojamas sekundėmis, nors kai kurios paieškos sistemos tai interpretuoja šiek tiek kitaip. Kai kurie mano, kad tikrinimo delsa yra 5, kaip liepia palaukti penkias sekundes po kiekvieno tikrinimo, kad būtų pradėtas kitas tikrinimas. Kiti tai supranta kaip nurodymą kas penkias sekundes nuskaityti tik vieną puslapį.

Kodėl ropliui liepiate kuo daugiau neropoti? Į išsaugoti pralaidumą 4 būdai, kaip „Windows 10“ eikvoja jūsų interneto pralaidumąAr „Windows 10“ eikvoja jūsų interneto pralaidumą? Štai kaip patikrinti ir ką galite padaryti, kad tai sustabdytumėte. Skaityti daugiau . Jei serveriui sunku neatsilikti nuo srauto, galbūt norėsite nustatyti tikrinimo delsą. Apskritai dauguma žmonių neturi dėl to jaudintis. Tačiau didelės didelio srauto svetainės gali norėti šiek tiek paeksperimentuoti.

Štai kaip nustatote aštuonių sekundžių tikrinimo delsą:

Nuskaitymo delsa: 8

Viskas. Ne visos paieškos sistemos paklus jūsų nurodymui. Bet klausti neskauda. Kaip ir neleisdami puslapių, galite nustatyti skirtingus tikrinimo delsus konkrečioms paieškos sistemoms.

Įkeliamas failas robots.txt

Kai nustatysite visas failo instrukcijas, galėsite įkelti jį į savo svetainę. Įsitikinkite, kad tai paprasto teksto failas ir turi pavadinimą robots.txt. Tada įkelkite jį į savo svetainę, kad jį būtų galima rasti adresu yoursite.com/robots.txt.

Jei naudojate a turinio valdymo sistema 10 populiariausių turinio valdymo sistemų interneteRankiniu būdu koduotų HTML puslapių ir CSS įvaldymo laikai jau seniai praėjo. Įdiekite turinio valdymo sistemą (TVS) ir per kelias minutes turėsite svetainę, kuria galėsite dalytis su pasauliu. Skaityti daugiau kaip ir „WordPress“, tikriausiai turite tam tikrą būdą, kaip tai padaryti. Kadangi kiekvienoje turinio valdymo sistemoje ji skiriasi, turėsite peržiūrėti savo sistemos dokumentaciją.

Kai kurios sistemos taip pat gali turėti internetines sąsajas failams įkelti. Norėdami tai padaryti, tiesiog nukopijuokite ir įklijuokite failą, kurį sukūrėte atlikdami ankstesnius veiksmus.

Nepamirškite atnaujinti failo

Paskutinis patarimas, kurį duosiu, yra retkarčiais peržiūrėti savo roboto išskyrimo failą. Jūsų svetainė pasikeičia, todėl gali tekti atlikti kai kuriuos pakeitimus. Jei pastebėjote keistus paieškos variklio srauto pokyčius, verta peržiūrėti ir failą. Taip pat gali būti, kad standartinis žymėjimas ateityje pasikeis. Kaip ir visa kita jūsų svetainėje, verta retkarčiais ją patikrinti.

Kuriuose savo svetainės puslapiuose išskiriate tikrinimo programas? Ar pastebėjote skirtumą paieškos variklio sraute? Pasidalykite savo patarimais ir komentarais žemiau!

Dann yra turinio strategijos ir rinkodaros konsultantas, padedantis įmonėms generuoti paklausą ir potencialius klientus. Jis taip pat rašo tinklaraščius apie strategiją ir turinio rinkodarą adresu dannalbright.com.