Emag

Robots.txt – comenzi si informatii utile

vineri, noiembrie 13, 2015

Robots.txt – comenzi si informatii utile
Fisierul robots.txt informeaza robotii motoarelor de cautare ce pot accesa si ce nu in cadrul unui website. Acest fisier trebuie incarcat in radacina website-ului. Este un fisier text, simplu  care foloseste doi parametrii principali:
•User-agent – parametru de selectie a robotilor
•Disallow – parametru de selectie a paginlor care sa fie scanate sau nu de catre robotii motoarelor de cautare
Exemple de comenzi pentru fisierle robots.txt
Pentru a permite tuturor robotilor acces complet utilizati:
User-agent: *
Disallow:
Este recomandat si indicativul de sitemap pentru a spune robotilor exact locatia acestuia:
Sitemap: h t t p : / / w w w.  siteulmeu  .ro / sitemap . xml
Pentru a exclude toti robotii de pe tot website-ul dumneavoastra utilizati:
User-agent: *
 Disallow: /
Pentru a exclude robotii doar din anumite directoare ale website-ului utilizati:
User-agent: *
 Disallow: /cgi-bin/
 Disallow: /admin/
 Disallow: /private/
Pentru a exclude o singura pagina din website utilizati:
User-agent: *
 Disallow: /directory/file.html
Pentru a exclude un singur robot utilizati:
User-agent: BaiduBot
 Disallow: /
Pentru a permite unui singur robot accesul pe website utilizati:
User-agent: Yahoo
 Disallow:
User-agent: *
 Disallow: /
Pentru a exclude toate fisierle mai putin una utilizati:
User-agent: *
 Disallow: /~joe/stuff/
Exemplu de utilizare a comentariilor in cadrul unui fisier robots.txt:
# Comentariile apar dupa semnul „#” simbol ce poate aparea la inceputul unei linii sau la sfarsitul unei comenzi
User-agent: * # directiva pentru toti robotii
Disallow: / # nu au ce cauta pe site-ul meu in nici un director
Robotii motoarelor de cautare importante accepta directive de accesare a website-ului
User-agent: *
 Crawl-delay: 7 # Acesta este timpul de asteptare intre doua accesari succesive pe website-ul dumneavoastra (utilizat de regula pentru a nu supraincarca serverul)
O varianta extinsa a utilizarii fisierului robots.txt ar fi urmatoarea:
User-agent: *
 Disallow:
 Sitemap: h t t p : / /w w w. siteulmeu . ro / sitemap . xml
 Request-rate: 1/4 #numarul de accesari este de o pagina la 4 secunde
 Visit-time: 0300-0630 #este acceptata scanarea website-ului doar intre orele 3.00 si 6.30 UTC (GMT)sursa:http://www.endd.ro/robots-txt-comenzi-si-informatii-utile/

You Might Also Like

0 comentarii

Comentati va rog!

linkwithin

Related Posts Plugin for WordPress, Blogger...

Contactaţi-må!

Nume

E-mail *

Mesaj *

Like us on Facebook

Libris

Flickr Images