Desindexando en Google: diferencia entre el robots.txt y el meta robots

Hola amigo ensalzero, si nos lees habitualmente ya sabes que una de nuestras señas de identidad es la transparencia.

Siempre tratamos de escribir sobre temas que conocemos y en los que podemos aportar algo, si no dominamos un tema preferimos no escribir sobre él.

A nosotros nos supone un esfuerzo increíble (y absurdo) disfrazarnos de expertos; y tú, que eres muy listo, te darías cuenta enseguida de que te estamos colando un artículo «de relleno»… ya sabes:

Es mejor callar y parecer tonto que abrir la boca y confimarlo

Por eso es posible que en nuestro blog hayas echado de menos algún artículo sobre SEO. Un artículo escrito por alguien que sabe de verdad, de esos que cuando terminas de leerlo sientes que ha merecido la pena, que no te han engañado. En definitiva, que has aprendido.

Pues enhorabuena amigo, porque hoy por fin todos vamos a aprender algo de SEO en nuestro blog, porque tenemos el honor de recibir a un grande: Álex Serrano

Y después de esta introducción tipo Jose Luis Moreno en Noche de Fiesta te dejamos con él, que seguro que ya tienes ganas de aprender:

Una de las tareas que más se realizan dentro de un proyecto de posicionamiento web es la desindexación. Ahora hablaremos un poco más sobre ella y me centraré además en diferenciar entre las dos formas que hay de hacerlo.

A menudo se confunde el robots.txt y el meta robots, es decir, la etiqueta ‘noindex’. Aunque tienen el mismo objetivo, son distintas y en cada caso debemos utilizar una u otra. En este artículo aprenderás a diferenciarlas y a decidir cuándo desindexar con cada una.

¿Qué significa exactamente desindexar y para qué sirve?

Dentro del mundo del SEO cuando se habla de ‘desindexar una página’ se refiere simplemente a una indicación que se les da a los motores de búsqueda (por ser correcto y no decir directamente Google), para que no incluyan una página concreta en sus índices y por ende, en los resultados de búsqueda.

La labor de desindexación/indexación es fundamental en cualquier proyecto del cual se quiera mejorar el posicionamiento SEO. En el momento que desindexamos una página mediante cualquiera de los métodos que vamos a ver en este post, los motores de búsqueda dejan de incluir esta página y a la larga (a veces tarda más y a veces menos) ese resultado desaparece de las SERPs.

Ese sería el objetivo principal, pero hay más cosas detrás de decidir desindexar una página, como por ejemplo, optimizar el crawl Budget evitando que Google rastree páginas que no necesitamos para nada.

¿Cuándo necesito desindexar alguna página?

Claro, te preguntarás para qué querríamos eliminar nuestras propias páginas de los resultados de Google, ¿verdad? Te entiendo.

No voy a entrar mucho en detalle porque daría para un artículo entero pero lo intento resumir. A Google y otros buscadores debemos mostrarles o indicarles que rastreen e indexen solo aquellas páginas que nos conviene posicionar, por el motivo que sea, que pueden ser muy variados.

Además, existen otros motivos por los que preocuparnos por desindexar ciertas páginas, como el contenido duplicado interno/externo o simplemente para dejar que los crawlers solo gasten su preciado tiempo en aquellas páginas que nos interesan. ¿Realmente necesitas que Google pierda tiempo rastreando páginas que no vas a posicionar?

¿Qué páginas puede que necesites desindexar?

Páginas con contenido de escaso valor
Páginas que generan contenido duplicado interno
Páginas que generan contenido duplicado externo (cookies, aviso legal, condiciones legales…)
Página de contacto en algunos casos
Páginas que puedan generar canibalización de keywords (aunque también puedes hacer canonicals)
Páginas cuyas keywords no tengan volumen de búsqueda.

En este último caso deberás hacer un estudio de palabras clave con alguna de estas herramientas SEO y también comprobar que esas páginas reciben o no tráfico orgánico en la actualidad.

[bctt tweet=»¿Necesitas que #Google pierda tiempo rastreando páginas que no vas a posicionar? por @Alexserramar » username=»ensalzacom»]

Formas de desindexar una página y diferencias entre el Robots.txt y la etiqueta meta name robots

Existe mucha confusión a la hora de desindexar, aunque más bien es ignorancia acerca de la diferencia de ambas formas de conseguir que una página no sea indexada.

Cuando queremos desindexar una página podemos hacerlo de dos maneras, con el archivo robots.txt y con la etiqueta html meta name robots, que tiene este aspecto <meta name=”robots” content=”noindex, follow”>.

En principio, las dos tienen el mismo objetivo, la desindexación (con matices) de una página pero cada una funciona de una forma distinta y debes saber cuál es la diferencia.

Veamos, el robots.txt donde incluimos una página que queremos desindexar o bloquear mediante un “Disallow:” es un archivo que sirve para bloquear páginas a los motores de búsqueda.

Puedes acceder a cualquier robots.txt añadiendo /robots.txt al final del dominio. Todo lo que se añade tras el “Disallow:”, queda bloqueado a los motores de búsqueda como Google, de esta forma no entran y al no entrar lo que ocurre es que a la larga es página termina desapareciendo de Google.

En resumen, no entran a esa página o directorio, no lo rastrean, el contenido sigue siendo visible dentro de la web, pero ni se indexa ni los enlaces que incluye esa página son seguidos por las arañas.

¿Qué ocurre entonces con la etiqueta noindex?

Aunque el objetivo es el mismo, tiene otras implicaciones.

Cuando añades la etiqueta <meta name=”robots” content=”noindex, follow”> a una página, ya sea de forma manual o con algún plugin como Yoast SEO, estás dando una directiva a Google para que NO indexe ese contenido, pero ocurren más cosas…

Como sabrás, dentro de una etiqueta como esta puedes poner distintas variables:

Noindex, follow
Noindex, nofollow
Index, follow
Index, nofollow

Siempre que ponga “noindex” Google no indexará esa página, y si va acompañado de “follow” significa que, aunque esa página no se indexe, los enlaces que estén dentro sí serán seguidos por las arañas y transmitirán autoridad. Si está en “nofollow” esos enlaces no transmitirán autoridad y las arañas no seguirán adelante rastreándolos.

Es decir, la etiqueta “noindex” hace que Google y los demás motores de búsqueda no indexen una página, pero esto no es un bloqueo, ojo. No bloquea como el robots.txt, Google entrará a esa página y perderá algo de tiempo en rastrearla. Eso no es del todo bueno para el crawl budget pero tiene un lado positivo y es que podemos desindexar una página sin renunciar a que los enlaces que tiene transmitan y sean seguidos.

Conclusión:

El robots.txt bloquea, hace que Google no pierda ni un milisegundo en rastrear una página pero tampoco vamos a tener un seguimiento de los enlaces de esas páginas. Por su lado, el meta robots, le dice a Google que no indexe, pero sí hace que rastree ligeramente una página y siga los enlaces, perdiendo así algo de tiempo (menos que si fuera index, obviamente).

También te interesa: Consejos SEO para novatos

Por lo tanto, valora qué método te conviene más en aquellas páginas que vas a desindexar. ¿Tienen enlaces internos que merecen ser seguidos? ¿Merece la pena que Google pierda tiempo rastreando una página que vas a desindexar?

Pues…

¿Qué?, ¿Has visto cómo hay que dejar escribir a los que saben?…

Álex, muchas gracias por pasarte por aquí a enseñarnos, ha sido un honor para nosotros recibirte en nuestra humilde casa.

Nosotros hemos aprendido mucho y estamos seguros de tú también, así que ahora no seas tímido y déjanos un comentario, pregunta o lo que te apetezca.

Gracias por leernos 😉

Álex Serrano

Álex Serrano es Consultor de SEO y Marketing Digital. Profesor en el Máster de Marketing Digital de AulaCM. En su blog, desde hace más de 6 años, habla de Social Media, SEO, Marketing de Contenidos y Publicidad en Redes Sociales.

¿Te apuntas a nuestra newsletter?

* Para cumplir con la nueva Ley de Protección de Datos y que tus datos estén seguros con nosotros, debes leer y aceptar nuestra política de privacidad. Tus datos serán gestionados por nosotros, Ensalza S.L y almacenados en Mailchimp, nuestro proveedor de mailing. No tenemos intención de ceder tus datos a terceros salvo mandato legal y siempre podrás ejercer tus derechos sobre ellos. Puedes informarte sobre nuestra política de privacidad al pie de esta página.

Deja un comentario Cancelar la respuesta

Comentario

Acepto la política de privacidad (Sí, tus datos están seguros con nosotros) *

Antes de enviar el formulario, puedes leer aquí la información básica sobre protección de datos:

Responsable: Ensalza S.L
Finalidad: responder a tu comentario y notificarte sobre nuevas respuestas.
Legitimación: tu consentimiento a través de este formulario.
Destinatarios: no tenemos previsto ceder sus datos a terceros, salvo por obligación legal.
Derechos: tienes derecho a acceder, rectificar, suprimir, portabilidad y oposición a tus datos. Los datos de contacto serán almacenados en nuestros servidores y en Mailchimp, nuestro proveedor de mailing.
Info adicional: puedes consultar la información adicional y detallada sobre protección de datos en el enlace al pie de esta página.

#ensalzamola

¿Quiénes somos?

¿De qué hablamos aquí?

#ensalzamola

Somos un grupo de gente maja que trabajamos codo con codo para que tus proyectos e ideas tomen forma.

Diseñamos, programamos y marketeamos. Conoce más sobre nuestro trabajo en ensalza.com.

Ensalza: agencia de desarrollo y diseño web Madrid
Calle de Alfonso Gomez, 33, 3, 28037 Madrid

Desindexando en Google: diferencia entre el robots.txt y el meta robots

¿Qué significa exactamente desindexar y para qué sirve?

¿Cuándo necesito desindexar alguna página?

¿Qué páginas puede que necesites desindexar?

Formas de desindexar una página y diferencias entre el Robots.txt y la etiqueta meta name robots

¿Qué ocurre entonces con la etiqueta noindex?

Conclusión:

Pues…

Álex Serrano

Deja un comentario Cancelar la respuesta

#ensalzamola

¿Quiénes somos?

¿De qué hablamos aquí?

#ensalzamola

¿Necesitas una web profesional?