Fisierul robots.txt

Fisierul robots.txt informeaza robotii motoarelor de cautare ce pot accesa si ce nu in cadrul unui website. Acest fisier trebuie incarcat in radacina website-ului. Este un fisier text, simplu  care foloseste doi parametrii principali:

  • User-agent – parametru de selectie a robotilor
  • Disallow – parametru de selectie a paginlor care sa fie scanate sau nu de catre robotii motoarelor de cautare

Exemple de comenzi pentru fisierle robots.txt

Pentru a permite tuturor robotilor acces complet utilizati:

User-agent: *
Disallow:

Pentru a exclude toti robotii de pe tot website-ul dumneavoastra utilizati:
User-agent: *
Disallow: /

Pentru a exclude robotii doar din anumite directoare ale website-ului utilizati:
User-agent: *
Disallow: /cgi-bin/
Disallow: /admin/
Disallow: /private/

Pentru a exclude o singura pagina din website utilizati:
User-agent: *
Disallow: /directory/file.html

Pentru a exclude un singur robot utilizati:

User-agent: BaiduBot
Disallow: /

Pentru a permite unui singur robot accesul pe website utilizati:
User-agent: Yahoo
Disallow:

User-agent: *
Disallow: /

Pentru a exclude toate fisierle mai putin una utilizati:
User-agent: *
Disallow: /~joe/stuff/

Exemplu de utilizare a comentariilor in cadrul unui fisier robots.txt:

# Comentariile apar dupa semnul “#” simbol ce poate aparea la inceputul unei linii sau la sfarsitul unei comenzi

User-agent: * # directiva pentru toti robotii

Disallow: / # nu au ce cauta pe site-ul meu in nici un director

Robotii motoarelor de cautare importante accepta directive de accesare a website-ului
User-agent: *
Crawl-delay: 7 # Acesta este timpul de asteptare intre doua accesari succesive pe website-ul dumneavoastra (utilizat de regula pentru a nu supraincarca serverul)

O varianta extinsa a utilizarii fisierului robots.txt ar fi urmatoarea:
User-agent: *
Disallow:
Sitemap: http://www.ipsum.ro/sitemap.xml
Request-rate: 1/4 #numarul de accesari este de o pagina la 4 secunde
Visit-time: 0300-0630 #este acceptata scanarea website-ului doar intre orele 3.00 si 6.30 UTC (GMT)

Exemple cu robotii motoarelor de cautare cele mai populare:

Google – googlebot
Google Image – googlebot-image
Google Mobile – googlebot-mobile
MSN Search – msnbot
MSN PicSearch – psbot
Yahoo – yahoo-slurp
Yahoo MM – yahoo-mmcrawler
Yahoo Blogs – yahoo-blogs/v3.9
Ask/Teoma – teoma
Cuil – twiceler
GigaBlast – gigabot
Scrub The Web – scrubby
DMOZ Checker – robozilla
Nutch – nutch
Alexa/Wayback – ia_archiver
Baidu – baiduspider
Naver – naverbot, yeti
SingingFish – asterias

Inginerul Matt Cutts de la Google ne explica in filmuletul urmator cateva functionalitati ale robotului googlebot si de ce o pagina care nu este permisa in robots.txt paote aparea in continuare in rezultatele de cautare Google.

Via endd.ro