Robots Exclusion Protocol – mechanizm informowania automatów o tym, czego nie powinny robić na stronie WWW.

Dotyczy to przede wszystkim działających automatycznie programów indeksujących serwisy WWW dla wyszukiwarek, które podążając za hiperłączami indeksują całą zawartość danego serwisu do katalogu wyszukiwarki, ale również programów innego typu, np. automatycznych mirrorów.

Robots Exclusion Protocol jest systemem honorowym i jedynie informuje o odpowiednim zachowaniu, nie wymusza go zaś w żaden sposób. System ten jest generalnie przestrzegany, gdyż w niczyim interesie nie leży łamanie jego zasad.

Spis treści

[edytuj] Powody stosowania

http://pl.wikipedia.org/w/wiki.phtml?title=Robots_Exclusion_Protocol&action=edit

[edytuj] Mechanizmy

Istnieją dwa mechanizmy Robots Exclusion Protocol: robots.txt i znaczniki meta.

[edytuj] robots.txt

Najważniejszym mechanizmem jest plik robots.txt umieszczony w katalogu głównym serwera. Zgodnie ze standardem Robots Exclusion Protocol, robots.txt to plik składający się z:

Pole User-agent oznacza jakich programów dany rekord dotyczy. Pola Disallow to prefiksy URL-i, których ściągać nie wolno.

Pole User-agent: * dotyczy wszystkich nie wymienionych w innych rekordach programów.

Niektóre boty rozumieją też inne pola, np. ograniczające ilość pobrań ze strony na minutę.

[edytuj] Przykłady

Cała witryna będzie indeksowana przez roboty (tak jakby nie było pliku robots.txt):

User-agent: *
Disallow:

Cała witryna nie będzie indeksowana:

User-agent: *
Disallow: /

Indeksowane nie będą tylko foldery "images" i "private" w katalogu głównym strony:

User-agent: *
Disallow: /images/
Disallow: /private/

Indeksowany nie będzie tylko plik "file" w katalogu "directory":

User-agent: *
Disallow: /directory/file.html

[edytuj] Znaczniki meta

Jest też możliwe podawanie dyrektyw dla robotów w znacznikach HTML: <meta name="robots" content="X">, gdzie X to:

X może być złożone z jednego, dwóch lub trzech powyższych słów rozdzielonych przecinkiem (np. noindex,nofollow,noarchive), przy czym dopuszczalne jest też użycie słowa none jako odpowiednika noindex,nofollow.

Znaczniki meta wymagają analizy HTML-a, więc są uznawane o wiele rzadziej niż robots.txt

Źródło „index.php?wiki=Robots_Exclusion_Protocol



mocny kodeks GRY Hotels coaching
odżywki na masę Biuro Podróży Travel Team transport drogowy wkrętarka Kolęda na cały rok
wynajem samochodów katowice | Tanie Odżywki Opole | zakopane tours | Najlepsze noclegi Gdańsk tylko u nas. | Sprawdź najlepszy Kredyt konsolidacyjny i zmniejsz razty swojego kredytu | Efektywna, wydajna i tania przydomowa oczyszczalnia ścieków firmy BIO-NOVA | Oferujemy książki po naprawdę atrakcyjnych cenach. | Nowoczesne strony internetowe dla firm | A może interesują Cię fundusze europejskie - jeśli tak, to zapraszamy. | identyfikatory warszawa | blogi o programach programowe nie tylko polskich programach | Dobre ceny sklep internetowy Duży asortyment | Jeśli pozycjonowanie strony to tylko u nas. | Domy drewniane z bali. domy drewniane Budujemy domy drewniane. | www.projektygarazy.eu

termometr do wody | tworzenie stron | podróź poślubna