Que es y como funciona el archivo robots.txt
Todos los días consultamos el navegador de Google para buscar cualquier tipo de información, podemos buscar productos tecnologicos, regalos para esa persona especial o simplemente información para aprender o aumentar nuestro conocimientos como dudas que podamos tener en nuestro trabajo, recetas de cocina de ese plato que nos encanta...
Los buscadores cuando hacemos una consulta, por ejemplo en Google, necesitan información de las diferentes webs para posicionar el contenido de cada una de ellas. Para recoger esa información los buscadores utilizan robots que revisan o rastrean la página para guardar y clasificar toda la información que extraen de cada web y guardarla en sus bases de datos.
Nosotros podemos desde nuestra pagina web indicarles a esos robots io que queremos o no queremos que estos buscadores revisen o indexen nuestra web, si por ejemplo le indicamos que no revisen la web, estos robots no entraran en nuestra web y no recogerán esa información, si los robots de buscadores como Google o Bing no entran en nuestra web, no se posicionara y no podremos por ejemplo trabajar el seo y posicionarnos por los productos o servicios que se ofrecen.
También podemos indicar que estos robots no entren en nuestra web si por ejemplo estamos creando un nuevo diseño o web desde cero y tenemos una url de prueba donde comprobamos o realicemos modificaciones para nosotros tener un seguimiento de como avanza el proyecto.
¿Que es el fichero Robots.txt?
Este archivo es necesario para indicarle a Google que queremos que indexe y acceda al contenido de nuestra web. Para crearlo es tan sencillo como crear un archivo .txt desde nuestro ordenador y ponerle el nombre de Robots, con ello ya tendrá la extensión .txt y tendremos nuestro fichero creado.
Si por ejemplo nuestra web esta creada desde gestores como Wordpress o Prestashop, estas herramientas ya te suelen crear desde cero este archivo o desde Plugins de SEO que instales en tu gestor.
Dentro de este fichero existen una serie de reglas básicas para permitir o no permitir el acceso a nuestra web, puedes por ejemplo indicarles a los buscadores que entren en tu web pero que no accedan a diferentes carpetas o urls que no quieres que se rastreen.
Instrucciones básicas Robots.txt
Las instrucciones que te vamos a indicar son básicas o simplemente unas indicaciones para que puedas crear un robots.txt para empezar a trabajar
Robots.txt para que no se indexe nuestra web:
User-agent:*
Disallow: /
Con el user-agent:* marcamos a todos los buscadores, con este línea indicamos a que motor de búsqueda va dirigida la siguiente norma y con el Disallow: / estamos indicando que no queremos que ningún robots acceda o revise nuestra web.
Si por el contrario queremos que todos los buscadores indexen nuestra web mostraríamos como Allow: /
User-agent:*
Allow:/
Est as son reglas básicas para empezar a trabajar, existen muchas más acciones que se pueden hacer desde el Robots.txt, por ejemplo, evitar que se indexen diferentes carpetas, evitar que se indexen urls, o bloquear el acceso a robots de diferentes buscadores para que no rastreen la web, veremos instrucciones en futuros post y seguiremos hablando de nuevas instrucciones para tener tu robots.txt actualizado.
Registro automático