Fisierul robots.txt

Fisierul robots.txt informeaza robotii motoarelor de cautare ce pot accesa si ce nu in cadrul unui website. Acest fisier trebuie incarcat in radacina website-ului. Este un fisier text, simplu  care foloseste doi parametrii principali:

  • User-agent - parametru de selectie a robotilor
  • Disallow – parametru de selectie a paginlor care sa fie scanate sau nu de catre robotii motoarelor de cautare

Exemple de comenzi pentru fisierle robots.txt

Pentru a permite tuturor robotilor acces complet utilizati:

User-agent: *
Disallow:

Pentru a exclude toti robotii de pe tot website-ul dumneavoastra utilizati:
User-agent: *
Disallow: /

Pentru a exclude robotii doar din anumite directoare ale website-ului utilizati:
User-agent: *
Disallow: /cgi-bin/
Disallow: /admin/
Disallow: /private/

Pentru a exclude o singura pagina din website utilizati:
User-agent: *
Disallow: /directory/file.html

Pentru a exclude un singur robot utilizati:

User-agent: BaiduBot
Disallow: /

Pentru a permite unui singur robot accesul pe website utilizati:
User-agent: Yahoo
Disallow:

User-agent: *
Disallow: /

Pentru a exclude toate fisierle mai putin una utilizati:
User-agent: *
Disallow: /~joe/stuff/

Exemplu de utilizare a comentariilor in cadrul unui fisier robots.txt:

# Comentariile apar dupa semnul “#” simbol ce poate aparea la inceputul unei linii sau la sfarsitul unei comenzi

User-agent: * # directiva pentru toti robotii

Disallow: / # nu au ce cauta pe site-ul meu in nici un director

Robotii motoarelor de cautare importante accepta directive de accesare a website-ului
User-agent: *
Crawl-delay: 7 # Acesta este timpul de asteptare intre doua accesari succesive pe website-ul dumneavoastra (utilizat de regula pentru a nu supraincarca serverul)

O varianta extinsa a utilizarii fisierului robots.txt ar fi urmatoarea:
User-agent: *
Disallow:
Sitemap: http://www.ipsum.ro/sitemap.xml
Request-rate: 1/4 #numarul de accesari este de o pagina la 4 secunde
Visit-time: 0300-0630 #este acceptata scanarea website-ului doar intre orele 3.00 si 6.30 UTC (GMT)

Exemple cu robotii motoarelor de cautare cele mai populare:

Google – googlebot
Google Image – googlebot-image
Google Mobile – googlebot-mobile
MSN Search – msnbot
MSN PicSearch – psbot
Yahoo – yahoo-slurp
Yahoo MM – yahoo-mmcrawler
Yahoo Blogs – yahoo-blogs/v3.9
Ask/Teoma – teoma
Cuil – twiceler
GigaBlast – gigabot
Scrub The Web – scrubby
DMOZ Checker – robozilla
Nutch – nutch
Alexa/Wayback – ia_archiver
Baidu – baiduspider
Naver – naverbot, yeti
SingingFish – asterias

Inginerul Matt Cutts de la Google ne explica in filmuletul urmator cateva functionalitati ale robotului googlebot si de ce o pagina care nu este permisa in robots.txt paote aparea in continuare in rezultatele de cautare Google.

Lasă un răspuns

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Schimbă )

Twitter picture

You are commenting using your Twitter account. Log Out / Schimbă )

Facebook photo

You are commenting using your Facebook account. Log Out / Schimbă )

Connecting to %s

Follow

Get every new post delivered to your Inbox.

Join 140 other followers