Het Robots.txt-bestand is een eenvoudig tekstbestand dat wordt gemaakt en in de hoofdmap van een WordPress-blog wordt geplaatst en dat verantwoordelijk is voor het gedrag van zoekrobots op de site.

Bestand voor WordPress robots.txt - voornamelijk gebruikt om te beperken toegang door zoekrobots (ook wel zoekbots) Naar het indexeren van sommige secties of bestanden van uw site.

Als dit bestand ontbreekt, dan zoekbots indexeert alles in de hoofdmap van uw site, inclusief systeemmappen CMS-WordPress, registratie, inlogpagina's of beheerderspaneel. Dit leidt ertoe dat de zoekrobot te veel tijd besteedt aan het indexeren van uw site en de benodigde pagina’s mogelijk overslaat of helemaal niet indexeert.

Met andere woorden, het gebruik van speciale bestandsrichtlijnen robots.txt Voor WordPress, geven wij zelf aan zoekbots wat moet worden geïndexeerd en wat moet worden overgeslagen. Zoeken Googlen of Yandex Alleen de informatie die we nodig hebben, komt binnen. Dit zijn voornamelijk de hoofdpagina en berichtpagina's.

Bovendien is het bestand robots.txt speelt een grote rol bij de zoekmachineoptimalisatie (SEO) van een website. In het bestand is een speciale richtlijn geschreven, die het pad naar het sitemap.xml-bestand specificeert met een sitemap, die aan zoekbots aangeeft welke pagina's moeten worden geïndexeerd. Dit resulteert in een snellere indexering van uw nieuwe blogposts.

U kunt een XML-sitemap voor WordPress maken met behulp van de Google XML Sitemaps-plug-in.

Robots.txt-bestand voor WordPress

Ik zal niet veel onnodige dingen schrijven, alles is al lang beschikbaar via deze link. Hieronder bied ik u een kant-en-klaar exemplaar aan,

User-agent: * Niet toestaan: /cgi-bin Niet toestaan: /wp-admin Niet toestaan: /wp-includes Niet toestaan: /wp-content/plugins Niet toestaan: /wp-content/cache Niet toestaan: /wp-content/themes Niet toestaan: / trackback Niet toestaan: */trackback Niet toestaan: */*/trackback Niet toestaan: /feed Niet toestaan: */feed Niet toestaan: /category/*/* Niet toestaan: /comments Niet toestaan: */comment-* Niet toestaan: */trackback User-agent: Yandex Niet toestaan: /cgi-bin Niet toestaan: /wp-admin Niet toestaan: /wp-includes Niet toestaan: /wp-content/plugins Niet toestaan: /wp-content/cache Niet toestaan: /wp-content/themes Niet toestaan: /trackback Niet toestaan: * /trackback Disallow: */*/trackback Disallow: /feed Disallow: */feed Disallow: /category/*/* Disallow: /comments Disallow: */comment-* Disallow: */trackback Host: site.ru Sitemap: http ://site.ru/sitemap.xml User-agent: Googlebot-Image Toestaan: /wp-content/uploads/ User-agent: YandexImages Toestaan: /wp-content/uploads/

U kunt het voltooide bestand downloaden via deze link: . Download het bestand en pak het uit in een willekeurige map op uw computer. Upload het bestand met behulp van een ftp-client (bijvoorbeeld FileZilla) naar de hoofdmap van uw site en vergeet niet de naam in het bestand te vervangen site.ru naar de naam van uw site. Als gevolg hiervan zou het bestand beschikbaar moeten zijn op:

http://uw_site_naam/robots.txt

Korte beschrijving van de belangrijkste richtlijnen van het robots.txt-bestand

In principe worden er verschillende richtlijnen in het bestand gebruikt.

  • user-agent - geeft acties aan voor een specifieke robot: googlebot, yandex
  • host — de hoofdspiegel van de site die aan de zoekopdracht deelneemt, wordt bepaald
  • disallow - verbiedt de toegang van de robot tot de site of sommige secties ervan
  • toestaan ​​- geeft robottoegang tot de site of enkele secties ervan

Wat te blokkeren, wat toe te staan?

Ik raad, net als veel webmasters, aan om de indexering van alles wat tot dubbele inhoud leidt, te voorkomen. Dit zijn RSS-nieuwsfeeds, zoekresultaten of links naar reacties op opmerkingen en categorie- of koppagina's.

Al het andere is toegestaan ​​voor indexering. Het is vermeldenswaard dat het raadzaam is om voor elke robot afzonderlijk toegang te verlenen tot de map /wp-content/uploads met geüploade mediabestanden.

Nu weet je hoe je moet creëren

Hallo, lieve vrienden!

Nu ga ik een artikel schrijven over het sensationele dossier waar jonge website-eigenaren zo bang voor zijn. En niet zonder reden, want als het verkeerd wordt opgesteld, kunnen er nare gevolgen ontstaan.

Het onderwerp van het artikel is het robots.txt-bestand. Vandaag zullen we kijken naar de basisprincipes van de compilatie van een voorbeeld van mijn persoonlijke bestand, dat momenteel goed werkt. De stof bleek behoorlijk complex en na de eerste lezing krijg je misschien niet de indruk van een compleet beeld, maar je zou wel het hoofdidee moeten krijgen. Er zullen veel tips en voorkennis zijn die u zullen helpen uw site-index beter te maken.

Belangrijke theorie

Definieer eerst het bestand zelf.

Het Robots.txt-bestand geeft inzicht zoekmachines over wat er niet geïndexeerd hoeft te worden op de site om dubbele inhoud te voorkomen. U kunt de indexering van hele secties, afzonderlijke pagina's, mappen op hosting enzovoort blokkeren. Wat er ook in je opkomt.

Het is dit bestand waar zoekrobots als eerste op letten bij het bezoeken van een site om te begrijpen waar ze moeten zoeken en wat moet worden genegeerd en niet in de zoekdatabase moet worden ingevoerd.

Ook dit bestand dient om het werk van zoekrobots gemakkelijker te maken, zodat ze niet veel ongewenste pagina’s indexeren. Dit zorgt voor een belasting van onze site, omdat robots tijdens het indexeringsproces veel tijd zullen besteden aan het rondkruipen.

Het Robots.txt-bestand bevindt zich in de hoofdmap van elke website en heeft de extensie van een gewoon tekstdocument. Dat wil zeggen, we kunnen het op onze computer bewerken met een gewone teksteditor: Kladblok.

Om de inhoud van dit bestand op de website te bekijken, moet u de bestandsnaam aan de domeinnaam toevoegen met een schuine streep naar rechts, zoals deze: domeinnaam.ru/robots.txt

Het is erg belangrijk om te begrijpen dat het bestand voor sommige sites kan verschillen, omdat de structuur complex kan zijn. Maar het belangrijkste idee is om pagina's te sluiten die door de engine zelf worden gegenereerd en dubbele inhoud te creëren. Het doel is ook om te voorkomen dat dergelijke pagina's in de index terechtkomen, en niet alleen hun inhoud. Als u een eenvoudige WordPress-site heeft, dan is het bestand geschikt voor u.

Verschillen in werk voor Yandex en Google

Het enige en misschien wel significante verschil is dat Yandex de verboden in het dossier als een soort dwingende regel beschouwt en alle verboden vrij goed opvolgt. We hebben hem verteld dat het niet nodig is deze pagina's in de index op te nemen, en hij neemt ze ook niet op.

Bij Google is de situatie compleet anders. Feit is dat Google handelt volgens het principe 'uit wrok'. Wat bedoel ik? We verbieden een aantal servicepagina's. De meest voorkomende pagina die wordt verbannen, is de pagina die is gemaakt via de link 'Beantwoorden' wanneer de functie voor boomreacties is ingeschakeld.

De pagina op deze link heeft het voorvoegsel "replytocom". Wanneer we een dergelijke pagina blokkeren, heeft Google geen toegang tot de inhoud ervan en neemt een dergelijk adres op in de index. Als gevolg hiervan geldt: hoe meer reacties op een bron, hoe meer ongewenste adressen in de index, wat niet goed is.

Omdat we dergelijke adressen hebben uitgesloten van indexering, wordt de inhoud van de pagina's uiteraard niet geïndexeerd en verschijnt er geen dubbele inhoud in de index. Dit blijkt uit de inscriptie “Een beschrijving voor dit resultaat is niet beschikbaar vanwege robots.txt van deze site”.

Het vertaalt zich als volgt: “De webpaginabeschrijving is niet beschikbaar vanwege een beperking in robots.txt.”

Het is geen probleem. Maar de pagina kwam in de index terecht, ook al was er geen sprake van duplicatie. Over het algemeen kan dit het geval zijn, maar u kunt dergelijke rommel volledig verwijderen.

En er zijn verschillende oplossingen:


Er zijn ook speciale plug-ins voor het instellen van opmerkingen, die een functie hebben voor het sluiten van dergelijke links. Je kunt ze ook gebruiken. Maar waarom het wiel opnieuw uitvinden? Je kunt tenslotte niets doen en alles komt goed zonder onze deelname. Het belangrijkste hier is om de toegang te openen, zodat Google de hele situatie kan begrijpen.

Google zal dergelijke pagina’s zeker vinden via interne links (in ons geval bijvoorbeeld de link ‘Beantwoorden’). De Google Help zelf vertelt ons dit:

Hoewel Google de inhoud van pagina's die worden geblokkeerd door robots.txt niet crawlt of indexeert, kunnen URL's die op andere pagina's op internet worden gevonden, toch aan de index worden toegevoegd. Als gevolg hiervan kan de pagina-URL, evenals andere openbaar beschikbare informatie, zoals sitelinktekst of de titel van het Open Directory Project (www.dmoz.org), verschijnen in de zoekresultaten van Google.

Zelfs als u voorkomt dat zoekrobots de inhoud van uw site crawlen met behulp van het robots.txt-bestand, sluit dit echter niet de mogelijkheid uit dat Google dit op andere manieren zal detecteren en aan de index zal toevoegen.

Wat is het volgende? Als toegang wordt geopend, zal deze de metatag Noindex tegenkomen, die verbiedt dat de pagina wordt geïndexeerd, en het rel="canonical" attribuut, dat verwijst naar het hoofdadres van de pagina. Uit dit laatste zal het voor Google duidelijk zijn dat dit document niet het belangrijkste is en niet in de index mag worden opgenomen. Dat is het. Er wordt niets opgenomen in de index en er zullen geen conflicten optreden met de Google-zoekrobot. En dan hoef je geen afval meer in de index te verwijderen.

Als de toegang wordt geweigerd, is de kans groot, en hoogstwaarschijnlijk 100%, dat de adressen die via dergelijke links worden gevonden, door Googlebot worden geïndexeerd. In dit geval zul je ze moeten verwijderen, wat al een dag, week of zelfs maand duurt. Het hangt allemaal af van de hoeveelheid afval.

Om dit te voorkomen, moet u over het algemeen het juiste bestand gebruiken zonder onnodige beperkingen + alle vergelijkbare pagina's openen voor de Google-zoekmachine.

U kunt natuurlijk al dergelijke links eenvoudig sluiten met scripts of plug-ins en een 301-omleiding maken van dubbele pagina's naar de hoofdpagina, zodat de zoekrobot onmiddellijk wordt doorgestuurd naar het hoofdadres, dat hij zonder aandacht zal indexeren de duplicaten.

De tweede optie is moeilijker, om zo te zeggen solide, omdat we enkele manipulaties uitvoeren en al het afval van zoekmachines blokkeren. We lieten ze zelf de situatie uitzoeken. Er is geen enkele kans dat pagina's via interne links in de index worden opgenomen.

Persoonlijk is dat wat ik deed. Alles wordt afgesloten met een script en redirects.

Voordat we kijken naar de basis van een goed robotsbestand, analyseren we de belangrijkste richtlijnen, zodat u op basisniveau begrijpt hoe dit bestand wordt samengesteld en hoe het kan worden aangepast aan uw behoeften.

Basisrichtlijnen

De belangrijkste richtlijnen van het robotsbestand zijn:

Belangrijk! Na elke richtlijn moet er een inspringing van één spatie staan.

Het kennen van de belangrijkste punten in het werk van robots.txt en basisprincipes Als u het compileert, kunt u beginnen met het samenstellen ervan.

Het juiste bestand samenstellen

Helemaal niet, ideale optie Het zou een goed idee zijn om uw site volledig open te stellen voor indexering en zoekrobots de kans te geven de hele situatie zelf uit te zoeken. Maar hun algoritmen zijn niet perfect en ze nemen alles in de index op wat alleen in de zoekdatabase kan worden opgenomen. Maar we hebben dit niet nodig, omdat er veel dubbele inhoud op de site zal zijn en een heleboel onzinpagina's.

Om dit te voorkomen, moet u een bestand maken waarmee alleen de pagina's van de artikelen zelf kunnen worden geïndexeerd, dat wil zeggen de inhoud en, indien nodig, de pagina's als deze nuttige informatie bezoekers en zoekmachines.

Uit punt 2 van dit materiaal werd het u duidelijk dat het bestand geen onnodige beperkingen voor Google mag bevatten, zodat onnodige pagina-adressen niet in de index verschijnen. Dit heeft geen nut. Yandex behandelt dit bestand normaal en accepteert verbodsbepalingen goed. Wat wij als een verbod beschouwen, zal Yandex niet indexeren.

Op basis hiervan heb ik een bestand gemaakt dat de hele site opent voor de Google-zoekmachine (behalve de servicemappen van de WordPress-engine zelf) en alle dubbele pagina's van Yandex, Mail en andere zoekmachines sluit.

Mijn bestand is behoorlijk groot.

User-agent: Yandex Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /wp-content/cache Disallow: /xmlrpc.php Disallow: * /author/* Niet toestaan: */feed/ Niet toestaan: */feed Niet toestaan: /?feed= Niet toestaan: */page/* Niet toestaan: */trackback/ Niet toestaan: /search Niet toestaan: */tag/* Niet toestaan: /?. php Niet toestaan: /wp-register.php Niet toestaan: /wp-content/plugins Niet toestaan: /wp-content/cache Toestaan: /wp-content/uploads/ User-agent: Mail.Ru Niet toestaan: /wp-admin Niet toestaan: / wp-includes Niet toestaan: /wp-login.php Niet toestaan: /wp-register.php Niet toestaan: /wp-content/plugins Niet toestaan: /wp-content/cache Niet toestaan: /xmlrpc.php Niet toestaan: */author/* Niet toestaan: */feed/ Niet toestaan: */feed Niet toestaan: /?feed= Niet toestaan: */page/* Niet toestaan: */trackback/ Niet toestaan: /search Niet toestaan: */tag/* Niet toestaan: /?wp-subscription-manager* Toestaan : /wp-content/uploads/ User-agent: * Niet toestaan: /wp-admin Niet toestaan: /wp-includes Niet toestaan: /wp-login.php Niet toestaan: /wp-register.php Niet toestaan: /wp-content/plugins Niet toestaan : /wp-content/cache Disallow: /xmlrpc.php Disallow: /?.xml Sitemap: http://site/sitemap.xml.gz User-agent: Mediapartners-Google Disallow: User-agent: YaDirectBot Disallow: User- agent: Googlebot-Image Toestaan: /wp-content/uploads/ User-agent: YandexImages Toestaan: /wp-content/uploads/

Gebruikersagent: Yandex

Niet toestaan: /wp - beheerder

Niet toestaan: /wp - omvat

Niet toestaan: /xmlrpc. php

Niet toestaan ​​: * /auteur /*

Niet toestaan: */feed/

Niet toestaan: */feed

Niet toestaan ​​: / ? voer =

Niet toestaan: */page/*

Niet toestaan: */trackback/

Niet toestaan: /zoeken

Niet toestaan: * / tag /*

Niet toestaan: /?wp-abonnementsmanager*

Toestaan: /wp-content/uploads/

Gastheer: website

User-agent: Googlebot

Niet toestaan: /wp-admin

Niet toestaan: /wp-includes

Niet toestaan: /wp-login.php

Niet toestaan: /wp-register.php

Niet toestaan: /wp-content/plugins

Niet toestaan: /wp-content/cache

Toestaan: /wp-content/uploads/

Gebruikersagent: Mail.Ru

Niet toestaan: /wp-admin

Niet toestaan: /wp-includes

Niet toestaan: /wp-login.php

Niet toestaan: /wp-register.php

Niet toestaan: /wp-content/plugins

Niet toestaan: /wp-content/cache

Niet toestaan: /xmlrpc.php

Niet toestaan: */auteur /*

Niet toestaan: */feed/

Niet toestaan: */feed

Niet toestaan ​​: / ? voer =

Niet toestaan: */page/*

Niet toestaan: */trackback/

Niet toestaan: /zoeken

Niet toestaan: */tag/*

Toestaan: /wp-content/uploads/

User-agent: *

Niet toestaan: /wp - beheerder

Niet toestaan: /wp - omvat

Niet toestaan: /wp-login. php

Niet toestaan: /wp-register. php

Niet toestaan: /wp-content/plugins

Niet toestaan: /wp-content/cache

Niet toestaan: /xmlrpc. php

Niet toestaan ​​: / ? wp - abonnement - beheerder *

agentinhoud/uploads/

Vergeet niet het adres van mijn domein te wijzigen in het jouwe in de Host- en Sitemap-richtlijnen.

Zoals je kunt zien, is het Robots.txt-bestand voor WordPress behoorlijk groot. Dit komt door het feit dat ik de regels heb voorgeschreven voor de 3 belangrijkste robots: Yandex, Google en mail. Je moet dit zeker de eerste 2 minuten doen. Ook mailen naar een zoekrobot kan geen kwaad, aangezien in de laatste tijd De zoekmachine ontwikkelt zich behoorlijk goed en begint steeds meer verkeer te genereren.

Wat de inhoud van het bestand zelf betreft, zijn de regels hetzelfde voor Yandex-robots, Mail en voor de richtlijn die met alle robots werkt (User-agent: *). Het verbod is van toepassing op alle belangrijke problemen die verband houden met het verschijnen van duplicaten in de index.

Ik heb me alleen geregistreerd voor de Google-zoekrobot aparte optie, waarbij de volledige inhoud van de site wordt geopend, behalve de servicemappen van de engine zelf. Waarom dit zo is heb ik hierboven uitgelegd. Het is noodzakelijk dat Googlebot alle pagina's met interne links kan crawlen en verboden daarop kan zien in de vorm van een robots-metatag met de waarde noindex, evenals het rel="canonical" attribuut, waardoor hij gedwongen wordt duplicaten met rust te laten.

Als we een verbod maken in het robotsbestand, kan de robot deze gegevens (tags) niet zien en, zoals ik al eerder zei, “uit wrok” zal hij het adres in de index opnemen.

Ik heb ook beeldindexering voor elke robot toegestaan ​​(Toestaan: /wp-content/uploads/).

Aan het einde van het bestand heb ik afzonderlijk de toestemming voor beeldindexering voor Google- en Yandex-beeldrobots gespecificeerd. Tegelijkertijd heb ik de hele site toegestaan ​​voor contextuele advertentierobots van dezelfde zoekmachines.

Als u het gebruikt, gebruik dan in dit bestand een verbod om het te indexeren, aangezien de zoekrobot het ook zal detecteren.

Hiervoor wordt de volgende regel gebruikt:

Niet toestaan: /?wp-abonnementsmanager*

Als u dit bestand gebruikt, hoeft u niet bang te zijn dat er dubbele inhoud zal verschijnen in de index, die wordt gegenereerd door de engine zelf, of beter gezegd door de interne links op de sitepagina's. Yandex zal alle verboden als een soort dogma beschouwen, en Google zal verboden tegenkomen als het gaat om duplicaten die door de engine zijn gemaakt.

Zoals ik eerder heb beschreven, zijn geavanceerdere instellingen bedoeld om dergelijke links te verbergen, zodat zoekrobots ze niet eens kunnen vinden. Bovendien zal dit ons niet alleen nu 100% beschermen, maar ons ook een soort vangnet bieden voor de toekomst, aangezien de algoritmen van zoekmachines voortdurend veranderen en het mogelijk is dat verboden die nu werken, over een tijdje niet meer zullen werken.

Maar ook hier. Engine-ontwikkelaars gaan altijd met de tijd mee en houden rekening met alle nieuwe veranderingen in het werk van de PS bij het verbeteren van WordPress. Op basis hiervan is er in de nabije toekomst niets om bang voor te zijn.

In de volgende artikelen zal ik het proces beschrijven van het verwijderen van dubbele pagina's die in de bron kunnen verschijnen, evenals manieren om gevaarlijke links te verbergen die zijn gemaakt door WordPress-tools, als je toch besluit jezelf 100% te beschermen. We weten niet hoe de zoekrobot zich zal gedragen, toch? Misschien zal hij verbodsbepalingen gaan negeren, zelfs als er een Noindex-metatag en het rel="canonical"-attribuut zijn. In dit geval kan het helpen om gevaarlijke links te verbergen.

Dus misschien bleek het artikel in eerste instantie nogal moeilijk te begrijpen, omdat het niet alleen ingaat op de kwestie van het samenstellen van het bestand zelf, maar ook op de principes van zoekrobots en wat idealiter gedaan zou moeten worden, wat eng is en wat niet.

Als u vragen of onduidelijkheden heeft, zal ik u dankbaar zijn als u hierover in de opmerkingen schrijft, zodat ik dit materiaal op de een of andere manier kan veranderen voor een meer responsieve perceptie door andere gebruikers.

Hier zal ik dit bericht beëindigen. Tot snel!

Met vriendelijke groet, Konstantin Khmelev!

Dit artikel bevat een voorbeeld van de naar mijn mening optimale code voor het robots.txt-bestand voor WordPress, die u in uw websites kunt gebruiken.

Laten we het om te beginnen niet vergeten waarom heb je robots.txt nodig?- het robots.txt-bestand is uitsluitend nodig voor zoekrobots om hen te “vertellen” welke secties/pagina's van de site ze wel en niet moeten bezoeken. Pagina's die niet kunnen worden bezocht, worden niet opgenomen in de index van zoekmachines (Yandex, Google, enz.).

Optie 1: Optimale robots.txt-code voor WordPress

User-agent: * Niet toestaan: /cgi-bin # classic... Niet toestaan: /? # alle queryparameters op de hoofdpagina Disallow: /wp- # alle WP-bestanden: /wp-json/, /wp-includes, /wp-content/plugins Disallow: *?s= # search Disallow: *&s= # search Niet toestaan: /search # zoeken Niet toestaan: /author/ # auteur archief Niet toestaan: */embed # alle insluitingen Niet toestaan: */page/ # alle soorten paginering Toestaan: */uploads # open uploads Toestaan: /*/*.js # inside /wp - (/*/ - voor prioriteit) Toestaan: /*/*.css # inside /wp- (/*/ - voor prioriteit) Toestaan: /wp-*.png # afbeeldingen in plug-ins, cachemap, enz. . Toestaan: /wp-*.jpg # afbeeldingen in plug-ins, cachemap, enz. Toestaan: /wp-*.jpeg # afbeeldingen in plug-ins, cachemap, enz. Toestaan: /wp-*.gif # afbeeldingen in plug-ins, cachemap, etc. Toestaan: /wp-*.svg # afbeeldingen in plug-ins, cachemap, enz. Toestaan: /wp-*.pdf # bestanden in plug-ins, cachemap, enz. Toestaan: /wp-admin/admin-ajax.php #Disallow: /wp/ # wanneer WP is geïnstalleerd in de wp-submap Sitemap: http://example.com/sitemap.xml Sitemap: http://example.com/ sitemap2 xml # een ander bestand #Sitemap: http://example.com/sitemap.xml.gz # gecomprimeerde versie (.gz) # Codeversie: 1.1 # Vergeet niet `site.ru` te wijzigen in uw site.

Codeanalyse:

    In de User-agent: * regel geven we aan dat alle onderstaande regels voor alle zoekrobots * zullen werken. Als u deze regels alleen voor één specifieke robot wilt laten werken, geven we in plaats van * de naam van de robot aan (User-agent: Yandex, User-agent: Googlebot).

    In de regel Toestaan: */uploads staan ​​we opzettelijk toe dat pagina's die /uploads bevatten, worden geïndexeerd. Deze regel is verplicht, omdat hierboven verbieden we het indexeren van pagina's die beginnen met /wp- , en /wp- opgenomen in /wp-content/uploads. Om de Disallow: /wp- regel te overschrijven, heb je daarom de regel Allow: */uploads nodig, omdat voor links zoals /wp-content/uploads/... Mogelijk hebben we afbeeldingen die moeten worden geïndexeerd, en er kunnen ook enkele gedownloade bestanden zijn die u niet hoeft te verbergen. Toestaan: kan "voor" of "na" zijn. Disallow: .

    De overige regels verbieden robots om links te “volgen” die beginnen met:

    • Disallow: /cgi-bin - sluit de map met scripts op de server
    • Disallow: /feed - sluit de RSS-feed van de blog
    • Disallow: /trackback - sluit meldingen
    • Disallow: ?s= of Disallow: *?s= - sluit zoekpagina's
    • Disallow: */page/ - sluit alle soorten paginering
  1. De sitemapregel: http://example.com/sitemap.xml verwijst de robot naar een bestand met een sitemap in XML-indeling. Als u zo'n bestand op uw site heeft, schrijf dan het volledige pad ernaartoe. Er kunnen meerdere van dergelijke bestanden zijn, waarna we het pad naar elk bestand afzonderlijk aangeven.

    In de regel Host: site.ru geven we de hoofdspiegel van de site aan. Als een site spiegelservers heeft (kopieën van de site op andere domeinen), moet u, om ervoor te zorgen dat Yandex ze allemaal gelijkelijk kan indexeren, de hoofdspiegelserver opgeven. Hostrichtlijn: alleen Yandex begrijpt het, Google begrijpt het niet! Als de site onder het https-protocol werkt, moet dit worden opgegeven in Host: Host: http://example.com

    Uit Yandex-documentatie: "Host is een onafhankelijke richtlijn en werkt overal in het bestand (intersectioneel)." Daarom plaatsen we het bovenaan of helemaal aan het einde van het bestand, via een lege regel.

Omdat de aanwezigheid van open feeds bijvoorbeeld vereist is voor Yandex Zen, wanneer je een site aan een kanaal moet koppelen (dankzij de commentator "Digitaal"). Misschien zijn open feeds elders nodig.

Tegelijkertijd hebben feeds hun eigen formaat in de responsheaders, waardoor zoekmachines begrijpen dat dit geen HTML-pagina is, maar een feed, en deze uiteraard op de een of andere manier anders verwerken.

De Host-richtlijn is niet langer nodig voor Yandex

Yandex verlaat de Host-richtlijn volledig en heeft deze vervangen door een 301-omleiding. Host kan veilig worden verwijderd van robots.txt. Het is echter belangrijk dat alle sitespiegelservers een 301-omleiding hebben naar de hoofdsite (hoofdspiegelserver).

Dit is belangrijk: sorteerregels vóór verwerking

Yandex en Google verwerken de richtlijnen Toestaan ​​en Disallow niet in de volgorde waarin ze zijn opgegeven, maar sorteren ze eerst op basis van korte regel te lang en verwerkt vervolgens de laatste overeenkomende regel:

User-agent: * Toestaan: */uploads Niet toestaan: /wp-

zal worden gelezen als:

User-agent: * Disallow: /wp- Toestaan: */uploads

Om de sorteerfunctie snel te begrijpen en toe te passen, onthoud deze regel: “dan langere regel in robots.txt, hoe hogere prioriteit het heeft. Als de lengte van de regels hetzelfde is, wordt prioriteit gegeven aan de Allow-richtlijn."

Optie 2: Standaard robots.txt voor WordPress

Ik weet niet waarom, maar ik ben voor de eerste optie! Omdat het logischer is: het is niet nodig om de sectie volledig te dupliceren om de Host-richtlijn voor Yandex aan te geven, die intersectioneel is (begrepen door de robot overal in de sjabloon, zonder aan te geven naar welke robot deze verwijst). Wat de niet-standaard Allow-richtlijn betreft, deze werkt voor Yandex en Google, en als de uploadmap niet wordt geopend voor andere robots die deze niet begrijpen, zal dit in 99% van de gevallen niets gevaarlijks met zich meebrengen. Het is mij nog niet opgevallen dat de eerste robots niet werken zoals het zou moeten.

De bovenstaande code is een beetje onjuist. Dank aan de commentator " " voor het wijzen op de onjuistheid, hoewel ik zelf moest uitzoeken wat het was. En dit is wat ik bedacht heb (ik kan het mis hebben):

    Sommige robots (niet Yandex en Google) begrijpen niet meer dan 2 richtlijnen: User-agent: en Disallow:

  1. De Yandex Host:-richtlijn moet worden gebruikt na Disallow:, omdat sommige robots (niet Yandex en Google) deze mogelijk niet begrijpen en robots.txt over het algemeen afwijzen. Yandex zelf maakt, afgaande op de documentatie, absoluut niet uit waar en hoe je Host: moet gebruiken, zelfs als je over het algemeen robots.txt maakt met slechts één regel Host: www.site.ru om alle sitespiegels aan elkaar te lijmen.

3. Sitemap: een intersectionele richtlijn voor Yandex en Google en blijkbaar ook voor veel andere robots, dus we schrijven het aan het einde met een lege regel en het zal voor alle robots tegelijk werken.

Op basis van deze wijzigingen zou de juiste code er als volgt uit moeten zien:

User-agent: Yandex Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-json/ Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /wp-register.php */embed Disallow: */page/ Disallow: /cgi-bin Disallow: *?s= Toestaan: /wp-admin/admin-ajax.php Host: site.ru User-agent: * Disallow: /wp-admin Disallow : /wp-includes Niet toestaan: /wp-content/plugins Niet toestaan: /wp-json/ Niet toestaan: /wp-login.php Niet toestaan: /wp-register.php Niet toestaan: */embed Niet toestaan: */page/ Niet toestaan: / cgi-bin Disallow: *?s= Toestaan: /wp-admin/admin-ajax.php Sitemap: http://example.com/sitemap.xml

Laten we het voor onszelf toevoegen

Als u andere pagina's of groepen pagina's wilt blokkeren, kunt u hieronder een regel (richtlijn) toevoegen Niet toestaan:. We moeten bijvoorbeeld alle vermeldingen in een categorie sluiten voor indexering nieuws, dan eerder Sitemap: voeg een regel toe:

Niet toestaan: /news

Het voorkomt dat robots dergelijke links volgen:

  • http://voorbeeld.com/nieuws
  • http://example.com/news/drugoe-nazvanie/

Als u eventuele exemplaren van /news wilt sluiten, schrijf dan:

Niet toestaan: */nieuws

  • http://voorbeeld.com/nieuws
  • http://example.com/my/news/drugoe-nazvanie/
  • http://example.com/category/newsletter-nazvanie.html

U kunt de robots.txt-richtlijnen in meer detail bestuderen op de Yandex-helppagina (maar houd er rekening mee dat niet alle daar beschreven regels voor Google werken).

Robots.txt-controle en documentatie

Via de volgende links kunt u controleren of de voorgeschreven regels correct werken:

  • Yandex: http://webmaster.yandex.ru/robots.xml.
  • Bij Google gebeurt dit in Zoekconsole. U heeft autorisatie nodig en de aanwezigheid van de site in het webmasterpaneel...
  • Service voor het maken van een robots.txt-bestand: http://pr-cy.ru/robots/
  • Service voor het maken en controleren van robots.txt: https://seolib.ru/tools/generate/robots/

Ik vroeg Yandex...

Ik stelde een vraag in de techniek. Yandex-ondersteuning met betrekking tot het intersectionele gebruik van de Host- en Sitemap-richtlijnen:

Vraag:

Hallo!
Ik schrijf een artikel over robots.txt op mijn blog. Ik zou graag antwoord willen krijgen op deze vraag (ik heb geen duidelijk “ja” gevonden in de documentatie):

Als ik alle spiegels moet lijmen en hiervoor gebruik ik de Host-richtlijn helemaal aan het begin van het robots.txt-bestand:

Host: site.ru Gebruikersagent: * Niet toestaan: /asd

Zal Host: site.ru correct werken in dit voorbeeld? Zal het aan robots aangeven dat site.ru de belangrijkste spiegel is? Die. Ik gebruik deze richtlijn niet in een sectie, maar afzonderlijk (aan het begin van het bestand) zonder aan te geven naar welke User-agent het verwijst.

Ik wilde ook weten of de Sitemap-richtlijn binnen een sectie moet worden gebruikt of buiten een sectie kan worden gebruikt: bijvoorbeeld via een lege regel, na een sectie?

User-agent: Yandex Disallow: /asd User-agent: * Disallow: /asd Sitemap: http://example.com/sitemap.xml

Zal de robot de Sitemap-richtlijn in dit voorbeeld begrijpen?

Ik hoop van u een antwoord te ontvangen dat een einde zal maken aan mijn twijfels.

Antwoord:

Hallo!

De Host- en Sitemap-richtlijnen zijn intersectioneel, dus ze zullen door de robot worden gebruikt, ongeacht de plaats in het robots.txt-bestand waar ze zijn gespecificeerd.

--
Met vriendelijke groet, Platon Sjtsjoekin
Yandex-ondersteuningsservice

Conclusie

Het is belangrijk om te onthouden dat wijzigingen aan robots.txt op een reeds werkende site pas na enkele maanden (2-3 maanden) merkbaar zullen zijn.

Er gaan geruchten dat Google soms de regels in robots.txt kan negeren en een pagina in de index kan opnemen als zij van mening is dat de pagina zeer uniek en nuttig is en deze gewoon in de index moet staan. Andere geruchten weerleggen deze hypothese echter door het feit dat onervaren optimizers de regels in robots.txt verkeerd kunnen specificeren en zo de noodzakelijke pagina's kunnen sluiten voor indexering en onnodige pagina's kunnen achterlaten. Ik neig meer naar de tweede veronderstelling...

Dynamische robots.txt

In WordPress wordt het verzoek om het robots.txt-bestand afzonderlijk verwerkt en is het helemaal niet nodig om fysiek een robots.txt-bestand aan te maken in de root van de site, bovendien wordt dit niet aanbevolen, omdat het met deze aanpak erg moeilijk voor plug-ins om dit bestand te wijzigen, en dit is soms nodig.

Lees hoe het dynamisch aanmaken van het robots.txt-bestand werkt in de beschrijving van de functie, en hieronder geef ik een voorbeeld van hoe je de inhoud van dit bestand direct kunt wijzigen, via een hook.

Om dit te doen, voegt u de volgende code toe aan uw function.php-bestand:

Add_action("do_robotstxt", "mijn_robotstxt"); function my_robotstxt())( $lines = [ "Gebruikersagent: *", "Niet toestaan: /wp-admin/", "Niet toestaan: /wp-includes/", "", ]; echo implode("\r\ n ", $lines); die; // PHP-werk beëindigen)

Gebruikersagent: * Niet toestaan: /wp-admin/ Niet toestaan: /wp-includes/

Crawl-delay - time-out voor gekke robots (sinds 2018 wordt er geen rekening mee gehouden)

Yandex

Nadat we de afgelopen twee jaar brieven aan onze ondersteuning met betrekking tot indexeringsproblemen hadden geanalyseerd, kwamen we erachter dat een van de belangrijkste redenen voor het langzaam downloaden van documenten een onjuist geconfigureerde Crawl-delay-instructie in robots.txt is […] Zodat site-eigenaren niet langer We moeten ons hier zorgen over maken en om ervoor te zorgen dat alle echt noodzakelijke websitepagina's snel verschijnen en worden bijgewerkt in de zoekresultaten, hebben we besloten de Crawl-delay-richtlijn te verlaten.

Wanneer de Yandex-robot als een gek de site scant en dit zorgt voor onnodige belasting van de server. Je kunt de robot vragen om ‘te vertragen’.

Om dit te doen, moet u de Crawl-delay-instructie gebruiken. Het geeft de tijd in seconden aan dat de robot inactief moet zijn (wachten) om elke volgende pagina van de site te scannen.

Voor compatibiliteit met robots die de robots.txt-standaard niet goed volgen, moet Crawl-delay worden opgegeven in de groep (in de sectie User-Agent) onmiddellijk na Disallow en Allow

Yandex Robot begrijpt fractionele waarden, bijvoorbeeld 0,5 (halve seconde). Dit garandeert niet dat de zoekrobot uw site elke halve seconde bezoekt, maar u kunt wel de sitecrawl versnellen.

User-agent: Yandex Disallow: /wp-admin Disallow: /wp-includes Crawlvertraging: 1,5 # time-out 1,5 seconden User-agent: * Disallow: /wp-admin Disallow: /wp-includes Toestaan: /wp-* . gif Crawl-vertraging: 2 # time-out 2 seconden

Googlen

Googlebot begrijpt de Crawl-delay-richtlijn niet. De time-out voor de robots kan worden gespecificeerd in het webmasterpaneel.

Op de avi1.ru-service kunt u nu SMM-promotie kopen in meer dan 7 van de meest populaire sociale netwerken. Let tegelijkertijd op voldoende lage kosten alle sitediensten.