Cómo optimizar las instrucciones del robotic para el search engine optimization técnico


Expresado por Amazon Polly

Robotic.txt, instrucciones de robotic en la página y su importancia en search engine optimization

El rastreo, la indexación, la representación y la clasificación son los 4 elementos básicos del search engine optimization. Este artículo se centrará en cómo se pueden mejorar las instrucciones del robotic para tener un impacto positivo en todo el sitio en search engine optimization y ayudarlo a administrar qué páginas de su sitio net deben y no deben indexarse ​​para clasificar potencialmente en Google, según su estrategia comercial.

Google rastreará e indexará tantas páginas de un sitio net como pueda. Siempre que las páginas no estén detrás de una utilidad de inicio de sesión, Google intentará indexar todas las páginas que pueda encontrar, a menos que haya proporcionado instrucciones de robotic específicas para evitarlo. Alojar un archivo robots.txt con instrucciones de rastreo en la raíz de su dominio es una forma más antigua de proporcionar orientación al motor de búsqueda sobre lo que debe y no debe indexarse ​​y clasificarse en el sitio; Le cube a los rastreadores de los motores de búsqueda qué páginas, directorios y archivos deben o no indexarse ​​para una clasificación potencial en Google u otros motores de búsqueda. Ahora, para la mayoría de las indexaciones, Google ve las instrucciones de robots.txt como una recomendación, no como un requisito (la advertencia principal aquí es que el nuevo rastreador de Google, Duplex Bot, que se usa para encontrar información conversacional, todavía se basa en el archivo robots.txt, así como una configuración en Search Console, si necesita bloquear su acceso (esto se discutirá más adelante en un artículo futuro). En cambio, Google ha comenzado a considerar las instrucciones de robots en la página como el recurso principal para obtener orientación sobre el rastreo y la indexación. Las instrucciones de los robots en la página son códigos que se pueden incluir en la etiqueta de la página para indicar instrucciones de indexación de rastreo solo para esa página. . Todas las páginas net que no desea que Google indexe deben incluir instrucciones de robotic específicas en la página que reflejen o agreguen lo que podría estar incluido en el archivo robots.txt. Este tutorial explica cómo bloquear de manera confiable las páginas que de otro modo se pueden rastrear y no están detrás de un firewall o inicio de sesión, se indexen y clasifiquen en Google.

Cómo optimizar las instrucciones del robotic para search engine optimization

  1. Revisa tu archivo robots.txt precise: Puede encontrar el archivo robots.txt en la raíz del dominio, por ejemplo: https://www.ejemplo.com/robots.txt. Siempre debemos comenzar asegurándonos de que ningún directorio optimizado para search engine optimization esté bloqueado en robots.txt. A continuación puede ver un ejemplo de un archivo robots.txt. En este archivo robots.txt, sabemos que se dirige a todos los rastreadores porque cube Person-Agent: *. Es posible que vea robots.txt que son específicos del agente de usuario, pero con una estrella
    es un símbolo de 'comodín' que indica que la regla se puede aplicar ampliamente a 'todos' o 'cualquiera', en este caso, bots o agentes de usuario.  Después de eso, vemos una lista de directorios después de la palabra 'Disallow:'.  Estos son los directorios que solicitamos que no se indexen, queremos impedir que los bots los rastreen e indexen.  Es posible que los archivos que aparecen en estos directorios no se indexen ni clasifiquen.
  2. Ejemplo de archivo Robots.txtRevise las instrucciones de los robots en la página : Google ahora toma las instrucciones de los robots en la página más como una regla que como una sugerencia. Las instrucciones de los robots en la página solo afectan la página en la que se encuentran y también tienen el potencial de limitar el rastreo de las páginas a las que están vinculadas desde la página. Se pueden encontrar en el código fuente de la página en la etiqueta . Aquí hay un ejemplo de instrucciones en la página nombre=’robots contenido=’índice, seguir ‘ /> En este ejemplo, le estamos diciendo al motor de búsqueda que indexe la página y siga los enlaces incluidos en la página, para que pueda encontrar otras páginas.

  3. Para realizar una evaluación de instrucciones en la página a escala, los site owners deben rastrear su sitio net dos veces: una vez como Google Smartphone Crawler o con un agente de usuario móvil, y una vez como Googlebot (para escritorio) o con un agente de usuario de escritorio. Puede usar cualquiera de los rastreadores alojados localmente o basados ​​en la nube (EX: ScreamingFrog, SiteBulb, DeepCrawl, Ryte, OnCrawl, and so forth.). La configuración del agente de usuario es parte de la configuración de rastreo o, a veces, parte de la Configuración avanzada en algunos rastreadores. En Screaming Frog, simplemente use el menú desplegable Configuración en la navegación principal y haga clic en ‘Person-Agent’ para ver el modal a continuación. Los rastreadores móviles y de escritorio se destacan a continuación. Solo puede elegir uno a la vez, por lo que rastreará una vez con cada agente de usuario (también conocido como rastreador móvil y rastreador de escritorio).Auditoría de páginas bloqueadas
    : revise los resultados de los rastreos para confirmar que no hay páginas que contengan instrucciones 'noindex' que deban indexarse ​​y clasificarse en Google.  Luego, haga lo contrario y verifique que todas las páginas que se pueden indexar y clasificar en Google estén marcadas con 'indexar, seguir' o nada en absoluto.  Asegúrese de que todas las páginas que permite que Google indexe sean una página de destino valiosa para un usuario de acuerdo con su estrategia comercial.  Si tiene una gran cantidad de páginas de bajo valor que están disponibles para indexar, podría reducir el potencial de clasificación general de todo el sitio.  Y finalmente, asegúrese de que no está bloqueando ninguna página en Robots.txt que permita que se rastree al incluir 'index,follow' o nada en absoluto en la página.  En el caso de mezclar señales entre Robots.txt e instrucciones de robots en la página, tendemos a ver problemas como el ejemplo a continuación.  Probamos una página en la herramienta de inspección de Google Search Console y descubrimos que una página está
  4. Google Search Console: indexado, aunque bloqueado por robots.txtExamine las instrucciones en la página para dispositivos móviles y computadoras de escritorio :
    • Examine los rastreos para confirmar que las instrucciones de los robots en la página coinciden entre dispositivos móviles y de escritorio:
    • Si está utilizando un diseño receptivo, esto no debería ser un problema, a menos que los elementos de la etiqueta principal se completen dinámicamente con JavaScript o Tag Supervisor. A veces, eso puede introducir diferencias entre las representaciones de escritorio y móviles de la página.
    • Si su CMS crea dos versiones diferentes de la página para el renderizado móvil y de escritorio, en lo que a veces se denomina ‘Diseño adaptable’, ‘Responsivo adaptable’ o ‘Servicio selectivo’, es importante asegurarse de que las instrucciones del robotic en la página que son generados por el sistema de coincidencia entre móvil y escritorio.
    • Si JavaScript modifica o inyecta la etiqueta , debe asegurarse de que JavaScript no esté reescribiendo/eliminando la instrucción en una u otra versión de la página.
      En el siguiente ejemplo, puede ver que las instrucciones en la página de Robots no están en el dispositivo móvil, pero están presentes en el escritorio.
  5. Instrucciones de robots en la página frente a Robots.txtComparar Robots.txt y Robotic On-Web page Instrucción
    : Tenga en cuenta que si el archivo robots.txt y las instrucciones del robotic en la página no coinciden, entonces las instrucciones del robotic en la página tienen prioridad y Google probablemente indexará las páginas en el archivo robots.txt;  incluso aquellos con 'Disallow: /example-page/' si contienen <meta name=”robots” content=”index” /> en la página.  En el ejemplo, puede ver que la página está bloqueada por Robotic.txt pero contiene instrucciones de índice en la página.  Este es un ejemplo de por qué muchos site owners ven “Indexado, aunque bloqueado mi Robots.txt en Google Search Console.” width=”1463″ top=”452″/></a><br /></span></span></li>
<li><strong>Bloqueado en Robots.txt pero con ‘Índice, Seguir’ en las Insturcciones On-Web page Robots </strong><span style=IdentificarFalta la instrucción del robotic en la página
    : el rastreo y la indexación es el comportamiento predeterminado para todos los rastreadores.  En los casos en que las plantillas de página no contengan instrucciones de meta robots en la página, Google aplicará las instrucciones de indexación y rastreo en la página 'indexar, seguir' de manera predeterminada.  Esto no debería ser una preocupación siempre que desee indexar estas páginas.  Si necesita bloquear los motores de búsqueda para que no clasifiquen ciertas páginas, deberá agregar una regla de no indexación con una etiqueta 'noindex' en la página en la etiqueta principal del HTML, como esta: <meta name=”robots” content =, en la etiqueta del archivo fuente HTML. En este ejemplo, el archivo robots.txt bloquea la indexación de la página, pero nos faltan instrucciones en la página para dispositivos móviles y de escritorio. Las instrucciones que faltan no serían una preocupación si queremos que se indexe la página, pero en este caso es muy possible que Google indexe la página aunque la bloqueemos con el archivo Robots.txt.” width=”1463″ top=”452″/>
  6. Bloqueado en Robots.txt sin instrucciones de robots en la páginaIdentificar instrucciones de robotic duplicadas en la página :

Idealmente, una página solo tendría un conjunto de instrucciones de meta robots en la página.  Sin embargo, ocasionalmente hemos encontrado páginas con múltiples instrucciones en la página.  Esta es una gran preocupación porque si no coinciden, puede enviar señales confusas a Google.  Se debe eliminar la versión menos precisa o menos óptima de la etiqueta.  En el siguiente ejemplo, puede ver que la página contiene 2 conjuntos de instrucciones en la página.  Esta es una gran preocupación cuando estas instrucciones están en conflicto.

Página con 2 instrucciones diferentes de robots en la página

Conclusión

Las instrucciones de los robots son críticas para el search engine optimization porque permiten a los site owners administrar y ayudar con la indexación de sus sitios net. El archivo Robots.txt y las instrucciones de robots en la página (también conocidas como metaetiquetas de robots) son dos formas de decirle a los rastreadores de los motores de búsqueda que indexen o ignoren las URL en su sitio net. Conocer las directivas para cada página de su sitio lo ayuda a usted y a Google a comprender la accesibilidad y la priorización del contenido de su sitio. Como práctica recomendada, asegúrese de que su archivo Robots.txt y las instrucciones de robots en la página reciban directivas móviles y de escritorio que coincidan con Google y otros rastreadores auditando las discrepancias con regularidad.

  1. Lista completa de artículos técnicos de search engine optimization:
  2. Cómo descubrir y gestionar solicitudes de ida y vuelta
  3. Cómo hacer coincidir los activos de la página móvil con los de escritorio puede mejorar su search engine optimization
  4. Cómo identificar CSS o JavaScript no utilizados en una página
  5. Cómo optimizar las instrucciones del robotic para el search engine optimization técnico

Cómo usar mapas de sitio para ayudar al search engine optimization

Related Articles

Escanea Tarjetas de Visita a Excel o Contactos de Google

Usamos tarjetas de presentación para almacenar información de contacto de...

Comments

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Same Category

Escanea Tarjetas de Visita a Excel o Contactos de Google

Usamos tarjetas de presentación para almacenar información de...

Relay Robotics amplía el equipo de liderazgo senior de productos

Escucha este artículo (incrustar)https://www.youtube.com/watch?v=f9v-TJOtKT8(/incrustar) Relé de robótica, un desarrollador de...

Metamateriales – Óptica | Weblog de nanotecnología

En el weblog de junio, se cubrió el...
spot_img

Stay in touch!

Follow our Instagram