Votre site est à présent référencé et les visiteurs sont contents du contenu que vous proposez... Bref, tout est pour le mieux dans le meilleur des mondes... Mais plus votre site augmente en volume, plus il y a de chance que vous deviez placer des fichiers dont vous ne tenez pas à partager le contenu avec le reste du monde.

Si votre serveur contient des documents des documents que vous voulez rendre accessibles sans que leur contenu ne soit indexé par les moteurs de recherche, robots.txt peut vous aider. Il s'agit d'un fichier au format texte, placé à la racine du site, qui définit de quelle manière les robots doivent traiter vos fichiers.

La syntaxe est assez simple :
User-Agent: * Disallow: /chemin/page.html

Si vous souhaitez interdire tous les fichiers de type Word, vous pouvez alors le préciser de cette manière :
Disallow: *.doc

Voici différentes manières de configurer cette commande :

Disallow: /page.xls
interdit la page page.xls, située à la racine

Disallow: /dossier/
interdit l'accès au répertoire /dossier

Disallow:
autorise l'indexation de tout le site

Disallow: /
interdit l'indexation de tout le site

Lorsque vous utilisez cette restriction dans votre site, gardez quand même à l'esprit que, si vous interdisez au moteur de lire des fichiers de nature confidentielle, vous n'empêchez pas les curieux de demander l'accès à ce fichier et de voir, en clair, le nom des fichiers sensibles... Voici, à titre d'exemple, le fichier robots.txt de Google.be