Robots.txt - la ce folosește și ce greșeli să evităm atunci când îl creăm?

Actualizat: 2020-06-08
Completarea fișierului robots.txt este una dintre cele mai simple metode de a influența modul în care roboții „navighează” pe site. Activarea ei e doar o chestiune de rutină. Ce ar merita să știi despre aceasta și este oare o idee bună să o folosești, în ciuda faptului că mulți roboți au obiceiul de a ignora ceea ce înregistrează? Toate motoarele de căutare tratează robot.txt identic? Hai să aruncăm o privire.
Publică articole astăzi
Înscrie-te gratuit

Cuprins

Ce este robots.txt?

Fișierul robots.txt este utilizat pentru a furniza roboților motoarelor de căutare și crawlerelor informații despre ce ar trebui și ce nu ar trebui să facă pe pagină. Directivele sunt trimise utilizând standardul Protocolului de Excludere a Roboților, deși trebuie menționat faptul că unele motoare de căutare declară că includ înregistrări non-standard. Înregistrările de bază includ mesaje ale căror părți ale paginii nu trebuie citite de roboți, deși există mai multe utilizări posibile ale fișierului robots.txt.

Puțină istorie

Protocolul de Excludere a Roboților a fost literalmente creat în urmă cu un sfert de secol, în februarie 1994 - și nu s-a schimbat mult de atunci, cu excepția înregistrărilor non-standard menționate mai sus. Pentru că în zilele sale „de glorie” existau numeroase motoare de căutare pe piață (este suficient să menționăm AltaVista, HotBot, Lycos sau InfoSeek - iar lista a este mult mai lungă), a devenit rapid standardul neoficial. Trebuie menționat aici însă, faptul că standardul este neobișnuit, deoarece această înregistrare a fost într-adevăr și este o sugestie, pe care boții nu o respectă sau o respectă doar parțial.

Interesant este că în iulie 2019, Google - ai cărui roboți nu respectă întotdeauna complet directivele salvate în fișierele robots.txt - a propus ca Protocolul de Excludere a Roboților să fie considerat standard oficial. Se poate schimba astfel ceva în modul în care se utilizează robots.txt? Teoretic, nu. Cu toate acestea, se pot provoca discuții cu privire la introducerea de noi intrări care ar putea ajuta la un „control” mai eficient al roboților motoarelor de căutare.

Care roboți iau în considerare fișierul robots.txt?

Fișierul robots.txt este destinat tuturor sistemelor de automatizare care intră pe site. Aceasta se aplică nu numai celor mai evidenti roboți ai motoarelor de căutare din punct de vedere SEO. Boții cărora li se adresează directivele acestui fișier sunt, de asemenea, mașini automate de arhivare (cum ar fi Web Archive), programe care descarcă site-ul pe o unitate locală (de exemplu, HTTrack Website Copier), instrumente de analiză a site-urilor (inclusiv instrumente SEO precum Xenu, dar și roboții Majestic SEO și Ahrefs) etc.

Desigur, este ușor de ghicit că, în multe cazuri, creatorii nu ar trebui să se îngrijoreze de directive. Pe de altă parte, unii roboți le permit userilor să aleagă dacă respectă directivele detectate.

De ce să folosești un fișier robots.txt?

Aceasta este o întrebare care merită adresată - mai ales în contextul informațiilor menționate de mai multe ori că respectă intrările din fișierul robots.txt. Răspunsul este simplu: un control redus asupra roboților este mai bun decât niciun control. Și ce poți câștiga din asta? În primul rând, nu permite sistemelor de automatizare să caute în acele secțiuni ale site-ului pe care nu ar trebui să le viziteze din diferite motive și arătându-le secțiunile în care vizitele sunt cele mai recomandate.

Blocarea anumitor zone ale paginii poate fi importantă din mai multe motive:

  • Probleme de securitate - poate nu dorești ca roboții (sau utilizatorii accidentali care utilizează mai târziu resurse verificate de roboți) să poată ajunge la secțiuni la care nu ar trebui să aibă acces prea ușor.
  • Protecție împotriva conținutului duplicat - dacă pe pagină există o cantitate mare de conținut duplicat intern și, în același timp, schema URL permite identificarea clară a acestuia, folosind un fișier robots.txt, poți da motoarelor de căutare un semnal că această parte a site-ului nu trebuie urmărită.
  • Economia de transfer - cu ajutorul intrărilor robots.txt poți încerca să elimini de pe căile pe care navighează roboții, subdirectoare întregi sau tipuri specifice de fișiere- chiar și un folder care conține grafică sau versiunile high-format. Pentru unele site-uri web, economiile de transfer pot fi semnificative.
  • Protecția conținutului împotriva „scurgerilor” în exterior - reține că protecția sugerată mai sus pentru un folder cu grafică în format mare poate fi utilizată pentru a prezenta versiuni mai mici în motorul de căutare de imagini. Acest lucru poate fi important în cazul băncilor foto (dar nu numai).
  • Optimizarea bugetului de accesare - deși îl menționez la sfârșitul listei, cu siguranță nu este un lucru banal. Cu cât site-ul este mai mare, cu atât ar trebui să se pună mai mult accent pe optimizarea căilor de-a lungul cărora se mișcă robotii de indexare ai motoarelor de căutare. Blocând site-urile care nu au relevanță pentru SEO la robots.txt, crești probabilitatea ca roboții să se deplaseze acolo unde ar trebui.

 

Instrucțiuni de bază pentru robots.txt: user-agent, allow și disallow

Să ne îndreptăm spre miezul problemei: cum ar trebui să arate fișierul robots.txt. Prin definiție, ar trebui să fie un fișier text plasat în directorul principal al site-ului web la care se referă. Principalele sale directive, și cele mai comune, sunt user-agent, allow și disallow. Folosind-o pe prima, se poate stabili căror boți li se aplică o anumită regulă. Celelalte două indică în ce zone ar trebui să aibă acces robotul și unde nu este binevenit.

Trebuie menționat că fișierul robots.txt acceptă variabila sub forma unui asterisc (*), iar căile pentru fișierele pentru care se aplică comanda ar trebui să fie întotdeauna completate cu orice, chiar și un slash (/). Orice spațiu lăsat gol duce la ignorarea câmpului.

Un exemplu de completare eficientă ar fi următorul:

User-agent: *
Allow: /

- acest lucru înseamnă că toți boții pot indexa întreg site-ul. Similar:

User-agent: *
Disallow: /img/

- înseamnă interzicerea accesului în directorul /img/.

Pe de altă parte:

User-agent: *
Disallow:

- nu înseamnă nimic, din cauza nedeclarării căii de acces după directiva disallow.

Desigur, pot exista mai multe câmpuri allow and disallow într-un fișier robots.txt. Exemple? Iată unul:

User-agent: *
Allow: /
Disallow: /img/
Disallow: /panel/

- acest lucru înseamnă permisiune pentru roboți să viziteze întregul site, exceptând folderele /img/ și /panel/.

Ar trebui să adăugăm că instrucțiunile însele se pot aplica nu doar unor întregi directoare, ci și fișierelor individuale.

Ordinea pentru directivele allow și disllow în robots.txt

Dacă apare o problemă cu interpretarea instrucțiunilor de permisiune și de respingere, de exemplu, dacă doriți să interzici roboților să acceseze un director, dar faci o excepție pentru un anumit subdirector, nu uita că directivele de autorizare ar trebui să fie deasupra celor de interzicere - de exemplu:

User-agent: *
Allow: /
Allow: /img/miniatury/
Disallow: /img/

User-agent: Ahrefsbot
Disallow: /

User-agent: MJ12bot
Disallow: /

În exemplul de mai sus, am arătat cazul când s-au folosit reguli specifice pentru unii roboți - în acest fel „solicitați” roboților de la Ahrefs și Majestic SEO să nu se deplaseze pe pagină.

Directiva sitemap

Pe lângă „invitații” și sugerarea omiterii de directoare, fișierul robots.txt poate fi folosit și pentru a arăta roboților locația hărții site-ului. Pentru aceasta se folosește directiva sitemap, urmată de calea spre hărta completă. Un exemplu din cele de mai sus arată astfel:

Sitemap: http://www.domain.com/sitemap.xml

Desigur, poți indica mai multe hărți, ceea ce poate fi folositor pentru site-urile foarte complexe.

Directiva crawl-delay

Pentru site-urile foarte mari, apare de cele mai multe ori o dilemă - pe de o parte, proprietarii lor pot dori să indexeze întregul site, pe de altă parte, activitatea excesivă a motoarelor de căutare poate consuma destul de mult transfer și poate încărca serverul în mod constant cu noi întrebări. Ideea pentru a rezolva această problemă a fost introducerea utilizării directivei customizate de întârziere crawl-delay.

Se folosește pentru a informa roboții că nu ar trebui să descarce fișiere noi mai des de x secunde, ceea ce se traduce prin extinderea activității robotului în timp. Un exemplu de astfel de proces este următorul:

User-agent: *
Crawl-delay: 2

- însemnând descărcarea documentelor ulterioare la fiecare două secunde.

Trebuie menționat că majoritatea motoarelor de căutare o tratează destul de liber, adesea pur și simplu ignorându-o. Google a comunicat de ceva vreme irelevanța acestei directive și, în final, în iulie 2019, a anunțat oficial că nu o va susține. Bing declară că înregistrarea este citită de BingBot, iar valoarea ei ar trebui cuprinsă între 1 și 30. Directiva este, de asemenea, susținută teoretic de Yandex, deși acest lucru diferită în practică.

Interesant este că motorul de căutare ceh Seznam sugerează utilizarea unei alte directive, și anume rata solicitării și atribuirea unei valori prin furnizarea numărului de documente, a unei linii și a timpului sub formă de număr și unitate (s în secunde, m ca minute, h ca ore și d ca zile, de fiecare dată fără spații după număr). Un exemplu în acest sens poate fi următorul:

User-agent: SeznamBot
Request-rate: 500/1h

sau:

User-agent: SeznamBot
Request-rate: 100/20m

Seznam declară că directiva nu ar trebui să solicite o indexare mai lentă de 10 secunde pentru fiecare document.

Directiva clean-param

Clean-param este o directivă interesantă. Din păcate, reprezintă un standard general. Această directivă este citită de boții de căutare Yandex și permite ignorarea parametriilor specifici alocați adreselor din căile specificate.

Cum funcționează în practică? Să presupunem că există adrese pe pagina ta:

domain.com/catalog/page?background=1&id=3
domain.com/catalog/page?background=2&id=3
domain.com/catalog/page?background=3&id=3

Ce se întâmplă dacă variabila "tlo" (background) modifică doar aspectul unei pagini care are același conținut tot timpul? În astfel de cazuri, Yandex sugerează utilizarea parametrului clean-param. Înregistrarea corespunzătoare poate arăta după cum urmează:

User-agent: Yandex
Clean-param: background/catalog/

- ceea ce înseamnă că toate cele trei adrese oferite anterior ca exemplu vor fi citite astfel:

domain.com/catalog/page?id=3

După cum se poate observa, această directivă e mai convenabilă pentru că poate fi limitată către directoare specifice.

Directiva host

Directiva customizată robots.txt afișează și comanda sursă. Ignorat de majoritatea motoarelor de căutare, s-a menționat pe paginile de ajutor Yandex de ceva vreme, deși acum descrierea ei a dispărut.

Comanda gazdă este folosită ca (sau poate a servit ca) o indicație a domeniului preferat dacă ai mai multe oglinzi aflate la diferite adrese. Ceea ce este important este că ar trebui să existe cel mult o directivă de gazdă într-un singur fișier robots.txt (dacă sunt plasate mai multe, următorul este ignorat), iar intrarea de domeniu după comanda gazdă nu poate conține erori sau numere de port.

Exemplu:

Host: domain.com

Din nefericire, nu știu dacă comanda încă funcționează, luând în calcul ingeniozitatea poziționării, că a încercat doar diverse experimente cu plasarea acesteia pe nu neapărat pe domeniile pe care ar trebui să se afle. Ca o consolare pentru „maeștrii obișnuiți ai webului”, trebuie menționat faptul că Yandex, când a menționat directiva pe paginile proprii, a oferit-o drept „sugestie” pentru roboți - deci nu a tratat-o ca fiind obligatorie.

Erori în robots.txt și consecințele acestora

Cu toate că conținutul fișierului robots.txt poate fi utilizat pentru a se „înțelege” cu roboții motoarelor de căutare, poate cauza, de asemenea, căderea site-ului dvs. Cum? Excluzând conținut din căutarea care ar trebui să apară în index. Se poate produce astfel o pierdere semnificativă a vizibilității în rezultatele căutării. Mai ales în cazul fișierelor robots.txt extinse cu multe intrări în diverse subdirectoare, poți greși undeva pe parcurs și să excluzi prea multe secțiuni ale paginii.

A doua greșeală majoră este marcarea tuturor imaginilor, stilurilor CSS și fișierelor Java Script cu directiva disallow. Poate părea o mișcare inteligentă, dar în realitate nu este chiar așa, din două motive. În primul rând, în multe cazuri este o idee bună dacă pagina dvs. apare în rezultatele căutării de imagini (deși puteți interzice accesul, de exemplu la versiunile cu format mare, ceea ce am menționat anterior).

Al doilea motiv este însă mai important și este redarea site-ului de către Google Bot. Dacă nu permiteți bot-ului să acceseze fișiere importante pentru aspectul final al paginii, acesta va fi redat fără ele, ceea ce în unele cazuri îl poate face incomplet din punctul său de vedere - și acest lucru îi poate afecta poziția.

La crearea unui document robots.txt, ar trebui să fii atent la dimensiunea lui?

Un membru Google, John Mueller, a declarat odată pe profilul său Google+ că dimensiunea maximă a unui fișier robots.txt este de 500 KB. Astfel, se poate concluziona că problema este abstractă, deoarece o asemenea extindere a listei de directive ar fi absurdă. Cu toate acestea, merită să ne străduim să ne asigurăm că chiar și un scurt fișier robots.txt nu crește excesiv și păstrează pur și simplu lizibilitatea pentru ... cineva care va trebui să îl privească și, eventual, să-l suplimenteze sau să-l modifice.

În plus, trebuie să vă amintiți că aceasta este doar despre valoarea acceptată prin Google Bot - pentru alte motoare de căutare, limita de dimensiune a fișierului robots.txt poate să varieze.

Este suficientă blocarea paginii în robots.txt?

Din pacate, nu. În primul rând, roboții principali ai motoarelor de căutare nu respectă întotdeauna interdicțiile (ca să nu mai vorbim cum le abordează unele tool-uri). În al doilea rând, chiar și după ce citește interdicția, Google poate intra în pagină și o poate adăuga la index, luând în considerare doar titlul și adresa URL și, uneori, adăugând următoarea afirmație „Pentru această pagină informațiile nu sunt disponibile”.

Deci, este încă posibil să ajungeți la această pagină prin motorul de căutare, deși este puțin probabil. Mai mult decât atât, boții parcurg astfel de pagini după link-uri consecutive, chiar dacă nu le mai oferă conexiuni, iar poziția în clasament nu include date rezultate din conținutul propriu.

Ce altceva în afară de fișierul robots.txt?

Dacă dorești să excluzi anumite părți ale paginii din indexurile motoarelor de căutare, poți utiliza întotdeauna suplimentar meta tag-ul roboților plasat în secțiunea <HEAD> din subpaginile individuale:

<meta name="robots" content="noindex, nofollow" />

- metoda nu asigură încă 100% reușită (și este mai puțin la îndemână), dar este un semnal suplimentar pentru boți.

Dar dacă dorești să restricționezi complet accesul petru boți și persoane aleatorii? În această situație, în loc de metode pasive, care iau în calcul că cineva nu poate ajunge într-un anumit loc, este ideal să restricționezi pur și simplu secțiunea dată a paginii cu o parolă (chiar și prin htaccess).

Teoretic, poți alege și jumătatea de măsură, de exemplu, sub forma blocării accesului pentru accesări de la adrese specifice și clase IP (cele utilizate de boții motoarelor de căutare), dar în practică ar fi suficient să ratăm unele adrese și problema încă ar exista - iar acest lucru ne duce la concluzia că forțarea autorizării va asigura securitatea deplină.

Sumar

În cele din urmă, putem reveni la problema consecințelor posibilelor erori de completare a fișierului robots.txt. Orice ai introduce acolo, e bine să-ți amintești care pot fi efectele și... care e scopul dorit. Când dorești să indexezi ceva, gândește-te dacă va avea efecte secundare (a se vedea, de exemplu, dificultatea redării paginii de către Google Bot). La rândul tău, dacă îți pasă problemele de securitate, nu uita că excluderea Google de la indexare nu blochează accesul la sistemele de automatizare.

Dacă ți se pare că ai nevoie de alte informații… poți citi alte articole legate de poziționarea paginilor pe website-ul nostru în secțiunea de Blog.

Comentariile tale (0)
Editorii WhitePress își rezervă dreptul de a șterge comentariile ofensatoare adresate altor persoane și care conțin cuvinte vulgare sau nu sunt relevante asupra subiectului în cauză.
Administratorul datelor cu caracter personal ale persoanelor care utilizează site-ul whitepress.com [...] și toate subsite-urile sale (denumit în continuare: Site-ul) în sensul Regulamentului Parlamentului European și al Consiliului (UE) 2016/679 din 27 aprilie 2016 privind protecția persoanelor fizice în ceea ce privește prelucrarea datelor cu caracter personal și privind libera circulație a acestor date și de abrogare a Directivei 95/46/CE (denumit în continuare: RODO) este în comun "WhitePress" Spółka z ograniczoną odpowiedzialnością cu sediul social în Bielsko-Biała, la adresa ul. Legionów 26/28, înscrisă în Registrul Întreprinzătorilor din Registrul Național al Instanțelor Judecătorești ținut de Tribunalul Districtual din Bielsko-Biała, Secția a 8-a Economică a Registrului Național al Instanțelor Judecătorești sub numărul KRS: 0000651339, NIP: 9372667797, REGON: 243400145 și alte societăți din Grupul WhitePress (denumit în continuare: Administrator).

Prin abonarea la buletinul informativ, sunteți de acord cu trimiterea de informații comerciale prin intermediul mijloacelor de comunicare electronică, inclusiv, în special, prin e-mail, privind comercializarea directă a serviciilor și bunurilor oferite de WhitePress sp. z o.o. și de partenerii săi de afaceri de încredere interesați în comercializarea propriilor bunuri sau servicii. Temeiul juridic pentru prelucrarea datelor dumneavoastră cu caracter personal este interesul legitim al administratorului și al partenerilor săi [articolul 6 alineatul (1) litera (f) din RODO].

Aveți posibilitatea de a vă retrage în orice moment consimțământul pentru prelucrarea datelor dvs. personale în scopuri de marketing. Puteți găsi mai multe informații despre prelucrarea și temeiul prelucrării datelor dvs. cu caracter personal de către WhitePress sp. z o.o., inclusiv drepturile dvs., în Politica de confidențialitate.
Citește toate
  • Nu sunt încă comentarii pentru acest articol.
Administratorul datelor cu caracter personal ale persoanelor care utilizează site-ul whitepress.com [...] și toate subsite-urile sale (denumit în continuare: Site-ul) în sensul Regulamentului Parlamentului European și al Consiliului (UE) 2016/679 din 27 aprilie 2016 privind protecția persoanelor fizice în ceea ce privește prelucrarea datelor cu caracter personal și privind libera circulație a acestor date și de abrogare a Directivei 95/46/CE (denumit în continuare: RODO) este în comun "WhitePress" Spółka z ograniczoną odpowiedzialnością cu sediul social în Bielsko-Biała, la adresa ul. Legionów 26/28, înscrisă în Registrul Întreprinzătorilor din Registrul Național al Instanțelor Judecătorești ținut de Tribunalul Districtual din Bielsko-Biała, Secția a 8-a Economică a Registrului Național al Instanțelor Judecătorești sub numărul KRS: 0000651339, NIP: 9372667797, REGON: 243400145 și alte societăți din Grupul WhitePress (denumit în continuare: Administrator).

Prin abonarea la buletinul informativ, sunteți de acord cu trimiterea de informații comerciale prin intermediul mijloacelor de comunicare electronică, inclusiv, în special, prin e-mail, privind comercializarea directă a serviciilor și bunurilor oferite de WhitePress sp. z o.o. și de partenerii săi de afaceri de încredere interesați în comercializarea propriilor bunuri sau servicii. Temeiul juridic pentru prelucrarea datelor dumneavoastră cu caracter personal este interesul legitim al administratorului și al partenerilor săi [articolul 6 alineatul (1) litera (f) din RODO]. Prin trimiterea formularului, declarați că ați citit Politica de confidențialitate.

Aveți posibilitatea de a vă retrage în orice moment consimțământul pentru prelucrarea datelor dvs. personale în scopuri de marketing. Puteți găsi mai multe informații despre prelucrarea și temeiul prelucrării datelor dvs. cu caracter personal de către WhitePress sp. z o.o., inclusiv drepturile dvs., în Politica de confidențialitate.
Citiți întregul articol
Articole recomandate