Yandex tenía un barcada de su código fuente en toda su tecnología supuestamente filtrado por un empleado descontento y parte de eso period el código fuente del motor de búsqueda más grande de Rusia: Yandex. Como puede imaginar, los web optimization y otros se están sumergiendo y viendo qué pueden aprender del código fuente.
Yo personalmente no descargué el código fuente, así que no lo revisé yo mismo, pero quería compartir lo que la gente encontró a través de Twitter a partir de sus investigaciones del código fuente.
Aquí está la versión alfa de una herramienta de exploración para la filtración #Yandex Código de búsqueda.
Te permite navegar a través de los factores de clasificación, ver por etiquetas, and so forth., y comenzar a encontrar conexiones.
¡Fácil de agregar nuevas características si hay algo que quieras ver!https://t.co/AjbYnrDl9P pic.twitter.com/pQ4scOkP6w
— Rob Ousbey: @RobOusbey@mastodon.social (@RobOusbey) 28 de enero de 2023
Descargué el código, lo analicé y también hay mucha información útil para Google web optimization. pic.twitter.com/RWrgnnlpj6
— Alex Buraks (@alex_buraks) 27 de enero de 2023
Teóricamente, ¿cuál es la diferencia entre los algoritmos utilizados en Google y en Yandex?
Son bastante similares:
– hay un análogo de RankBrain – MatrixNet;
– están usando PageRank (casi lo mismo que en Google);
– muchos algoritmos de texto son iguales. pic.twitter.com/Djjl8Bmjwn— Alex Buraks (@alex_buraks) 27 de enero de 2023
Según Statcounter, Yandex está cerca de Yahoo y Bing por cuota de mercado: pic.twitter.com/5GKIvKIvAo
— Alex Buraks (@alex_buraks) 27 de enero de 2023
Principales insights tras analizar esta lista:
#1 La edad de los enlaces es un issue de clasificación. pic.twitter.com/U47uWvEq9w
— Alex Buraks (@alex_buraks) 27 de enero de 2023
# 3 Los números en las URL son malos para las clasificaciones pic.twitter.com/ECgwGeGUfb
— Alex Buraks (@alex_buraks) 27 de enero de 2023
#5 Pesimización dura igual a PR=0 pic.twitter.com/RRbhuJyZr1
— Alex Buraks (@alex_buraks) 27 de enero de 2023
#7 Dato curioso: hay un issue de clasificación separado para mejorar Wikipedia pic.twitter.com/799F8KFpkE
— Alex Buraks (@alex_buraks) 27 de enero de 2023
#9 La antigüedad del documento y la última actualización son factores de clasificación. pic.twitter.com/ay1GTMVEtJ
— Alex Buraks (@alex_buraks) 27 de enero de 2023
En este momento revisé ~ 40% de la lista, hay mucho más (sobre la relevancia del texto, factores de comportamiento, rango de página, enlaces internos, and so forth.).
Continuaré este hilo después de un tiempo.
— Alex Buraks (@alex_buraks) 27 de enero de 2023
El primer hilo tuvo muchas impresiones (500k vistas por el momento, ¡gracias por sus retweets y me gusta!), así que decidí finalizar.https://t.co/UQiQsnpWd2
— Alex Buraks (@alex_buraks) 28 de enero de 2023
#2 Además: issue de clasificación para páginas huérfanas.
Puede encontrarlos fácilmente a través de Screming Frog u otros rastreadores. pic.twitter.com/zIPwAelpD0
— Alex Buraks (@alex_buraks) 28 de enero de 2023
#4 El número de consultas de búsqueda de su sitio/url es un issue de clasificación.
Obviamente más = mejor. pic.twitter.com/xXQ6FMDghP
— Alex Buraks (@alex_buraks) 28 de enero de 2023
#6 Si su URL sería la última para la sesión de búsqueda (el usuario encontrará lo que necesita), podría afectar las clasificaciones.
Hay factores estrictos para esto y factores predecibles también. pic.twitter.com/Zx3sBZORCs
— Alex Buraks (@alex_buraks) 28 de enero de 2023
#8 Factores de clasificación especiales para movies cortos (tiktok, shorts, reels) pic.twitter.com/oKPzL09MID
— Alex Buraks (@alex_buraks) 28 de enero de 2023
# 10 Las palabras clave en la URL son factores de clasificación.
Como podemos ver en la descripción, lo óptimo sería incluir hasta 3 palabras de la consulta de búsqueda. pic.twitter.com/Q1euKWSiST
— Alex Buraks (@alex_buraks) 28 de enero de 2023
# 14 Otro issue de clasificación para la calidad del contenido: video incrustado roto en la página.
Insertar movies: bueno para las clasificaciones.
Movies incrustados rotos – mal. pic.twitter.com/2SUys65PHp— Alex Buraks (@alex_buraks) 28 de enero de 2023
# 16 Si los anclajes de los vínculos de retroceso contienen todas las palabras de las palabras clave, es bueno para el web optimization.
Si está en un solo enlace, es más beneficioso. Especialmente si el orden de las palabras es el mismo. pic.twitter.com/WrbESJ8Da5
— Alex Buraks (@alex_buraks) 28 de enero de 2023
#18 La clasificación de calidad de los textos en el dominio es un issue de clasificación.
Las páginas con contenido de baja calidad afectan a todo el dominio. pic.twitter.com/MJUCTVB9CH
— Alex Buraks (@alex_buraks) 28 de enero de 2023
# 20 Divertido, hay un issue aleatorio como un issue de clasificación separado.
Cuando no entiende por qué parte de la página está en la parte superior, podría ser simplemente aleatorio (para probar los factores de comportamiento). pic.twitter.com/TGtzFrmBOV
— Alex Buraks (@alex_buraks) 28 de enero de 2023
N.° 22 Vínculos de retroceso de los 100 mejores sitios internet según el impacto de PageRank en las clasificaciones.
Eso no es noticia. pic.twitter.com/ikxldWLJqy
— Alex Buraks (@alex_buraks) 28 de enero de 2023
Guau, acabo de encontrar la lista con los pesos iniciales de los factores de clasificación de Yandex.
¿Necesitas un hilo más? 😁
Pesos finales de PS calculados por AI (matrixnet), pero los valores iniciales también son útiles. pic.twitter.com/WeroYQy7Yu
— Alex Buraks (@alex_buraks) 28 de enero de 2023
Dicho esto, yo mismo he estado investigando el código base para encontrar cosas de interés.
Estoy haciendo esto en vivo, así que no sé cuánto tiempo pasará entre los tweets.
— Mic King (@iPullRank) 27 de enero de 2023
Gran parte del código relacionado con Yandex Search se encuentra en los archivos Kernel, ExtSearch, Search y Robotic, pero nuevamente, no podré ser exhaustivo aquí hasta que haya revisado todo.
— Mic King (@iPullRank) 27 de enero de 2023
Algunas cosas realmente interesantes en el archivo web_meta_factors_info/factors_gen.in en lo que respecta a las características y factores del contenido.
Por ejemplo, algunas cosas que esperaríamos como una expectativa mínima de la proximidad de las palabras en un título a las palabras en la consulta. pic.twitter.com/YRsrCpVsqU
— Mic King (@iPullRank) 27 de enero de 2023
Curiosamente, aquí hay muchos raspadores de Google Information, Buying, YouTube e incluso otros servicios de Yandex.
— Mic King (@iPullRank) 27 de enero de 2023
Hmm… esta podría ser la estructura de cómo Yandex almacena documentos en su versión de un servidor de documentos.
Sigo buscando una thought de cómo estructuran su índice invertido. pic.twitter.com/1lwTbOirnx
— Mic King (@iPullRank) 27 de enero de 2023
Aquí hay un protobuf de factores de enlace. pic.twitter.com/1RM6o1xzRg
— Mic King (@iPullRank) 27 de enero de 2023
En el “código de priorización de enlaces” hablan de disminuir la prioridad de los enlaces con el mismo texto desde el mismo host. En otras palabras, no cuente los enlaces de contenido duplicado. pic.twitter.com/dQTUnScCUy
— Mic King (@iPullRank) 27 de enero de 2023
¿Cómo llegaron a esa cantidad de factores de clasificación?
Veo 481 factores solo relacionados con “Clics rápidos” pic.twitter.com/sw5A3ia3Bk
— Mic King (@iPullRank) 28 de enero de 2023
Related a Googs, Yandex tiene múltiples modelos de clasificación para elegir.
En este archivo select_ranking_models.cpp, hablan sobre tener diferentes modelos para diferentes idiomas y ubicaciones. pic.twitter.com/m210tpOUDb
— Mic King (@iPullRank) 28 de enero de 2023
Voy a ver televisión, pero obviamente tengo que agregar esto a mi libro, así que agregaré más en los próximos días.
— Mic King (@iPullRank) 28 de enero de 2023
He estado investigando cómo está estructurado este archivo de robots.
Parece que el directorio de Zora es donde suceden muchas cosas interesantes. Hay un archivoLIMITES.pb.txt que almacena la tasa de solicitudes por segundo para el host y la dirección IP para hosts de 204k. pic.twitter.com/0oulKm58dx
— Mic King (@iPullRank) 28 de enero de 2023
Aquí es donde se recopilan y califican los factores Documento y Consulta.
Parece que va al almacenamiento después de esto aunque. pic.twitter.com/qJAiLfSrsU
— Mic King (@iPullRank) 29 de enero de 2023
Okay, muy rápido, los 5 factores de clasificación más ponderados positiva y negativamente y sus coeficientes en la ponderación inicial en el cálculo de relevancia del documento de Yandex. Negativos primero
#1 FI_ADV: -0.2509284637
Este issue determina que haya publicidad en el sitio.
— Mic King (@iPullRank) 29 de enero de 2023
#3 FI_QURL_STAT_POWER: -0.1943768768
El issue es el número de impresiones de URL para la solicitud.
— Mic King (@iPullRank) 29 de enero de 2023
#5 FI_GEO_CITY_URL_REGION_COUNTRY: -0.168645758
El issue es la coincidencia geográfica del documento y el país desde el que el usuario buscó.
Okay, ahora los 5 factores ponderados positivamente.
— Mic King (@iPullRank) 29 de enero de 2023
Aquí hay un punto de partida para los factores relacionados con los enlaces.https://t.co/fwP8TxuOrM
— Christoph C. Cemper 🇺🇦 🧡 web optimization (@cemper) 30 de enero de 2023
¿Esto te ayudará a hacer web optimization en Google? Probablemente no, pero bueno, es súper interesante.
Ah, pero una vez que encuentran el número óptimo de palabras…
AUGE
— John Mueller está pendiente de Google+ 🐀 (@JohnMu) 29 de enero de 2023
Discusión del foro en WebmasterWorld.