Los algoritmos de Google al descubierto

 

Selección

Natzir Turrado

En este artículo nos adentramos en el funcionamiento interno de Google, una herramienta que todos usamos a diario pero que pocos comprendemos realmente. A raíz de la reciente filtración de documentos en un juicio antimonopolio contra Google, tenemos una gran oportunidad para explorar los algoritmos de Google. De algunos de ellos ya teníamos información, pero lo interesante es ver información interna que nunca había sido compartida con nosotros.

Examinaremos cómo estas tecnologías procesan nuestras búsquedas y determinan los resultados que vemos. En este análisis pretendo ofrecer una visión clara y detallada de los complejos sistemas que están detrás de cada búsqueda en Google.

Además, trataré de representar la arquitectura de Google en un diagrama, teniendo en cuenta los nuevos descubrimientos.

Los algoritmos de Google al descubierto

Primero, nos vamos a centrar en extraer todos los algoritmos mencionados en 2 documentos. El primero es sobre el testimonio de Pandu Nayak (VP Alphabet) y el segundo es sobre el testimonio de Refutación del Profesor Douglas W. Oard, sobre opiniones ofrecidas por el experto de Google, el Prof. Edward A. Fox, en su informe del 3 de junio de 2022. En este último se debatió el famoso y controvertido «Informe Fox», donde Google manipularon los datos del experimento realizado para tratar de demostrar que los datos de usuarios no son tan importantes para ellos.

Trataré de explicar cada algoritmo según información oficial, en caso que la haya, y luego pondré en una imagen la información extraída del juicio.

Navboost

Es clave para Google y uno de los factores más importantes. Esto también salió en el leak de «Project Veritas» de 2019, porque lo añadió Paul Haar a su CV:

Navboost recoge datos de cómo los usuarios interactúan con los resultados de búsqueda, específicamente a través de sus clics en diferentes consultas. Este sistema tabula los clics y utiliza algoritmos que aprenden de las valoraciones de calidad hechas por humanos para mejorar la clasificación de los resultados. La idea es que si un resultado es frecuentemente elegido (y valorado positivamente) para una consulta específica, probablemente debería tener una clasificación más alta. Como curiosidad, Google experimentó hace muchos años quitando Navboost y comprobó como los resultados empeoraron.

RankBrain

Lanzado en 2015, RankBrain es un sistema de inteligencia artificial y aprendizaje automático de Google, esencial en el procesamiento de resultados de búsqueda. A través del aprendizaje automático, mejora continuamente su capacidad para entender el lenguaje y las intenciones detrás de las búsquedas y es especialmente eficaz en interpretar consultas ambiguas o complejas. Se dice que se ha convertido en el tercer factor más importante en el ranking de Google, después del contenido y los enlaces. Utiliza una Unidad de Procesamiento Tensorial (TPU) para mejorar significativamente su capacidad de procesamiento y eficiencia energética.

Deduzco que QBST y Term Weighting son componentes de RankBrain. Así que los incluyo aquí.

QBST (Query Based Salient Terms) se centra en los términos más importantes dentro de una consulta y los documentos relacionados, utilizando esta información para influir en cómo se clasifican los resultados. Esto significa que el motor de búsqueda puede reconocer rápidamente cuáles son los aspectos más importantes de la consulta del usuario y priorizar resultados relevantes. Por ejemplo, esto es especialmente útil para consultas ambiguas o complejas.

En el documento del testimonio, QBST se menciona en el contexto de las limitaciones de BERT. La mención específica es que «BERT no integra grandes sistemas de memorización como navboost, QBST, etc.«​​. Esto significa que, aunque BERT es altamente eficaz en entender y procesar el lenguaje natural, tiene ciertas limitaciones, una de las cuales es su capacidad para manejar o reemplazar sistemas de memorización a gran escala como QBST.

Seguir leyendo: Natzir Turrado

Imagen de Anja en Pixabay

Vistas:

380