Fisierul robots.txt informeaza robotii motoarelor de cautare ce pot accesa si ce nu in cadrul unui website. Acest fisier trebuie incarcat in radacina website-ului. Este un fisier text, simplu care foloseste doi parametrii principali:
- User-agent – parametru de selectie a robotilor
- Disallow – parametru de selectie a paginlor care sa fie scanate sau nu de catre robotii motoarelor de cautare
Exemple de comenzi pentru fisierle robots.txt
Pentru a permite tuturor robotilor acces complet utilizati:
User-agent: *
Disallow:
Pentru a exclude toti robotii de pe tot website-ul dumneavoastra utilizati:
User-agent: *
Disallow: /
Pentru a exclude robotii doar din anumite directoare ale website-ului utilizati:
User-agent: *
Disallow: /cgi-bin/
Disallow: /admin/
Disallow: /private/
Pentru a exclude o singura pagina din website utilizati:
User-agent: *
Disallow: /directory/file.html
Pentru a exclude un singur robot utilizati:
User-agent: BaiduBot
Disallow: /
Pentru a permite unui singur robot accesul pe website utilizati:
User-agent: Yahoo
Disallow:
User-agent: *
Disallow: /
Pentru a exclude toate fisierle mai putin una utilizati:
User-agent: *
Disallow: /~joe/stuff/
Exemplu de utilizare a comentariilor in cadrul unui fisier robots.txt:
# Comentariile apar dupa semnul “#” simbol ce poate aparea la inceputul unei linii sau la sfarsitul unei comenzi
User-agent: * # directiva pentru toti robotii
Disallow: / # nu au ce cauta pe site-ul meu in nici un director
Robotii motoarelor de cautare importante accepta directive de accesare a website-ului
User-agent: *
Crawl-delay: 7 # Acesta este timpul de asteptare intre doua accesari succesive pe website-ul dumneavoastra (utilizat de regula pentru a nu supraincarca serverul)
O varianta extinsa a utilizarii fisierului robots.txt ar fi urmatoarea:
User-agent: *
Disallow:
Sitemap: http://www.ipsum.ro/sitemap.xml
Request-rate: 1/4 #numarul de accesari este de o pagina la 4 secunde
Visit-time: 0300-0630 #este acceptata scanarea website-ului doar intre orele 3.00 si 6.30 UTC (GMT)
Exemple cu robotii motoarelor de cautare cele mai populare:
Google – googlebot
Google Image – googlebot-image
Google Mobile – googlebot-mobile
MSN Search – msnbot
MSN PicSearch – psbot
Yahoo – yahoo-slurp
Yahoo MM – yahoo-mmcrawler
Yahoo Blogs – yahoo-blogs/v3.9
Ask/Teoma – teoma
Cuil – twiceler
GigaBlast – gigabot
Scrub The Web – scrubby
DMOZ Checker – robozilla
Nutch – nutch
Alexa/Wayback – ia_archiver
Baidu – baiduspider
Naver – naverbot, yeti
SingingFish – asterias
Inginerul Matt Cutts de la Google ne explica in filmuletul urmator cateva functionalitati ale robotului googlebot si de ce o pagina care nu este permisa in robots.txt paote aparea in continuare in rezultatele de cautare Google.
Via endd.ro