Gerador de Robots.txt


São aplicativos que varrem todo o conteúdo publicado na internet com o objetivo de indexá-lo ou verificar alterações ocorridas desde a última visita num site.

No entanto, nem todos os conteúdos de um site serão indexados pelos robots. Páginas de login, páginas repetidas, páginas de impressão são ignorados por eles.

O formato “txt” funciona como um filtro para indexadores automáticos (os Crawlers) fazendo com que profissionais da área possam controlar permissões de acesso a determinados pontos dos sites. O robots.txt controla qual informação de um site deve ou não deve ser indexado pelos sites de busca. A sintaxe do arquivo é bem simples, e deve ser colocada pelo webmaster responsável pelo site na raiz da hospedagem.

Padrão -  Todos os robôs estão
Intervalo dos Buscadores:
Sitemap: (Deixe em branco se nao existir)
     
Especifique os buscadores: Google   googlebot
  MSN Search   msnbot
  Yahoo   yahoo-slurp
  Ask/Teoma   teoma
  Cuil   twiceler
  GigaBlast   gigabot
  Scrub The Web   scrubby
  DMOZ Checker   robozilla
  Nutch   nutch
  Alexa/Wayback   ia_archiver
  Baidu   baiduspider
  Naver   naverbot, yeti
   
Bots especiais: Google Image   googlebot-image
  Google Mobile   googlebot-mobile
  Yahoo MM   yahoo-mmcrawler
  MSN PicSearch   psbot
  SingingFish asterias
  Yahoo Blogs   yahoo-blogs/v3.9
   
Diretórios e arquivos restritos: Buscadores não podem ler o conteúdo de
  Exemplo: /cgi-bin/
  Exemplo: /imagem/
  Exemplo: /*.JPG$
  Exemplo: /*.pdf$