Sample robots.txt Mga File para sa Iyong Website

Ang isang robots.txt na file na nakaimbak sa ugat ng iyong website ay sasabihin sa mga robot ng web tulad ng mga spider ng search engine kung anong mga direktoryo at mga file ang pinapayagan sa pag-crawl. Madaling gamitin ang isang file na robots.txt, ngunit mayroong ilang mga bagay na dapat mong tandaan:

  1. Ang mga web robot ng itim na sumbrero ay hindi papansinin ang iyong file na robots.txt. Ang mga pinaka-karaniwang uri ay mga bot ng malware at mga robot na naghahanap ng mga email address upang anihin.
  2. Ang ilang mga bagong programmer ay magsusulat ng mga robot na hindi papansin ang robots.txt na file. Ito ay kadalasang ginagawa nang hindi sinasadya.
  1. Maaaring makita ng sinuman ang iyong file na robots.txt. Ang mga ito ay palaging tinatawag na robots.txt at laging nakaimbak sa ugat ng website.
  2. Sa wakas, kung may nag-link sa isang file o direktoryo ng isang tao na ibinukod ng iyong file na robots.txt mula sa isang pahina na hindi ibinukod ng kanilang robots.txt file, maaaring makita pa rin ng mga search engine.

Huwag gumamit ng mga file na robots.txt upang itago ang anumang bagay na mahalaga. Sa halip, dapat mong ilagay ang mahalagang impormasyon sa likod ng mga secure na password o iwanan ito sa buong web.

Paano Gamitin ang Mga Sample na Mga File na ito

Kopyahin ang teksto mula sa sample na pinakamalapit sa kung ano ang gusto mong gawin, at i-paste ito sa iyong file na robots.txt. Baguhin ang robot, direktoryo, at mga pangalan ng file upang tumugma sa iyong ginustong pagsasaayos.

Dalawang Mga Pangunahing Mga File Robots.txt

User-agent: *
Huwag pahintulutan: /

Sinasabi ng file na ito na ang anumang robot (User-agent: *) na nag-access nito ay dapat balewalain ang bawat pahina sa site (Pawagan: /).

User-agent: *
Huwag pahintulutan:

Sinasabi ng file na ito na ang anumang robot (User-agent: *) na nag-access dito ay pinapayagan upang tingnan ang bawat pahina sa site (Hindi Pinapayagan:).

Maaari mo ring gawin ito sa pamamagitan ng pag-alis ng blangko ng iyong robots.txt file o hindi pagkakaroon ng isa sa iyong site sa lahat.

Protektahan ang Mga Tukoy na Mga Direktoryo Mula sa Mga Robot

User-agent: *
Huwag pahintulutan: / cgi-bin /
Huwag pahintulutan: / temp /

Ang file na ito ay nagsasabi na ang anumang robot (User-agent: *) na nag-access nito ay dapat na huwag pansinin ang mga direktoryo / cgi-bin / at / temp / (Pawalang-bisa: / cgi-bin / Disallow: / temp /).

Protektahan ang Mga Tukoy na Pahina Mula sa Mga Robot

User-agent: *
Huwag pahintulutan: /jenns-stuff.htm
Huwag pahintulutan: /private.php

Ang file na ito ay nagsasabi na ang anumang robot (User-agent: *) na nag-access nito ay dapat na huwag pansinin ang mga file /jenns-stuff.htm at /private.php (Disallow: /jenns-stuff.htm Disallow: /private.php).

Pigilan ang isang Specific Robot mula sa Pag-access sa Iyong Site

User-agent: Lycos / xx
Huwag pahintulutan: /

Sinasabi ng talaksang ito na ang Lycos bot (User-agent: Lycos / xx) ay hindi pinahihintulutan ng pag-access saanman sa site (Pawagan: /).

Payagan Tanging Isang Tukoy na Access sa Robot

User-agent: *
Huwag pahintulutan: /
User-agent: Googlebot
Huwag pahintulutan:

Ang unang file na ito ay hindi pinahihintulutan ang lahat ng mga robot tulad ng ginawa namin sa itaas, at pagkatapos ay malinaw na hinahayaan ang Googlebot (User-agent: Googlebot) na magkaroon ng access sa lahat ng bagay (Disallow:).

Pagsamahin ang Maramihang Mga Linya upang Makakuha ng Eksaktong Mga Pagbubukod Gusto mo

Habang mas mainam na gamitin ang isang napakahigpit na linya ng User-agent, tulad ng User-agent: *, maaari kang maging tiyak na gusto mo. Tandaan na binasa ng mga robot ang file sa pagkakasunud-sunod. Kaya kung sinasabi ng mga unang linya na ang lahat ng mga robot ay hinarangan mula sa lahat, at pagkatapos ay sa kasunod na file na sinasabi nito na ang lahat ng mga robot ay pinahihintulutan ng access sa lahat, ang mga robot ay magkakaroon ng access sa lahat.

Kung hindi ka sigurado kung isinulat mo nang tama ang iyong robots.txt file, maaari mong gamitin ang Mga Tool sa Webmaster ng Google upang suriin ang iyong file na robots.txt o magsulat ng bago.