Mic ghid pentru robots.txt

Pentru a intelege robots.txt, trebuie mai intai sa intelegi ce sunt robotii (aceia de web).

Un robot este un program sau un script al unor motoare de cautare ca: GoogleYahooMSN etc. Ei sunt trimisi pe internet sa caute site-uri web si sa adune informatii despre ele. Mai sunt cunoscuti si ca “Spiders“, “Crawlers” si chiar “Bots“.

Fisierul Robots.txt functioneaza ca o bariera, care nu lasa acesti robotii sa ajunca la anumite fisiere.

Daca propietarul site-ului doreste sa dea instructiuni acestor “web robots” trebuie sa adauge fisierul  robots.txt in radacina site-ului, Ex.: (www.exemplu.com/robots.txt).

Robotii vor cauta acest fisier si vor actiona in consecinta.

Un exemplu de robots.txt este:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

(http://hostingbun.ro/robots.txt)

User-agent: ( Specifica robotul )

User-agent: * ( Interzice toate  motoarele de cautare  sa indexeze fisierele care le specifici )

Disallow: /fisier/ ( Specifica fisierele pe care nu vrei sa le indexeze )

Daca vrei sa specifici un motor de cautare  care sa nu indexeze trebuie sa stii cum se numesc robotii. Astia sunt cei mai populari.

Google:  Googlebot

Google Images: Googlebot-Image

Yahoo: Slurp

MSN (Bing): Msnbot

Altavista: Scooter

Daca vrei sa interzici ca  google sa indexeze un fisier comanda este urmatoarea:

User-agent: Googlebot

Disallow: /blog/

Daca ai mai multe sub domeni trebuie sa faci un robots.txt pentru fiecare.

Pentru cateva setari mai facile, poti adauga un <meta> tag intre tag-urile <head> </head>. La acesta poti adauga un nume (name), si cateva atribute (content) . Mai jos aveti cateva exemple de tag-uri meta si explicatii pentru fiecare:

1<META CONTENT="NOINDEX, FOLLOW">

– nu indexeaza continutul paginii dar urmeaza link-urile de pe aceasta

1<META CONTENT="INDEX, NOFOLLOW">

– indexeaza continutul paginii dar nu urmeaza link-urile de pe aceasta

1<META CONTENT="NOINDEX, NOFOLLOW">

– nu indexeaza continutul si nu urmeaza link-urile

Tineti minte totusi:

–     robotii malitiosi (care cauta mail-uri sau vulnerabilitati) pot ignora Meta tag-ul.

–     Daca nu setati un meta tag robots, acesta va avea implicit continutul: “INDEX,FOLLOW

Am fii fericiti sa aflam parerea ta!

      Lasa un raspuns

      HostingBun