Rätt robots.txt

Fil robots.txt är den viktigaste fil som beskriver de regler behandling sidor i sökmotorer. Denna fil behövs för att specificera den primära platsen namn, webbplats karta (sitemap.xml), offentliga och privata delarna av webbplatsen.
Fil robots.txt innehåller följande direktiv:

  • User-agent-Direktiv anger att vad robot följande regler
    • * - alla robotar
    • Yandex — stora roboten Yandex
    • Googlebot — Googlebot är det viktigaste
    • StackRambler — sökmotorn Rambler
    • Aport — Aport sökmotor
    • Slurp är Yahoo ' s robot
    • MSNBot är MSN-robot
  • Förkasta Direktivet är förbudet del av webbplatsen
  • Tillåter — Direktivet tillåter att en del av webbplatsen
  • Värd — Direktiv anger den primära platsen namn
  • Webbplatskarta— Direktiv vägledning en webbplats karta (sitemap.xml)
  • Crawl-dröjsmål Direktiv anger hur många sekunder för roboten kan vänta på ett svar från webbplatsen (krävs för tungt lastad resurser, så att roboten inte anser att webbplatsen är tillgänglig)
  • Ren-param Direktiv som beskriver den dynamiska parametrar som inte påverkar innehållet i webbplatsen

Помимо директив в robots.txt используются спец символы:

  • * - lubi (även tomma) sekvens av tecken
  • $ — är en begränsning av reglerna

Att sammanställa robots.txt använd ovanstående riktlinjer och sjungs av de tecken som följer:

  • Anger namnet på den robot som är skriven av en lista av regler
    (User-agent: * - regeln för alla robotar)
  • Stava en förteckning över förbjudna delar av webbplatsen för den angivna robot
    ( Disallow: / - förhindra indexering av hela webbplatsen)
  • Stava en lista över tillåtna delar av webbplatsen
    (Tillåt: /home/ — partition hem tillåten)
  • Anger namnet på den webbplats
    (Värd: crazysquirrel.ru — det viktigaste namnet på webbplatsen crazysquirrel.ru)
  • Anger den absoluta sökvägen till filen sitemap.xml
    (Sitemap: https:// crazysquirrel.ru/sitemap.xml)

Om webbplatsen har inga otillåtna ämnen, robots.txt måste vara minst 4 rader:

User-Agent: *
Tillåter: /
Värd: crazysquirrel.ru
Webbplatskarta: https://crazysquirrel.ru/sitemap.xml

In robots.txt och hur påverkar det indexering av webbplatsen med hjälp av verktyg Yandex

Läser och lämnar kommentarer