Google mediante un algoritmo, puede identificar páginas web de baja calidad, similar a lo que hace el algoritmo de las señales de contenido útil helpful content.
Detectando páginas de baja calidad, contenido de spam y contenido generado por herramientas de Inteligencia Artificial.
El algoritmo no tiene que ser entrenado para encontrar tipos específicos de contenido de baja calidad, puede aprender por sí mismo.
Aunque google no suele identificar la tecnología que emplea en sus algoritmos como los de Penguin, Panda o SpamBrain.
¿Cómo identifica google el contenido útil?
Señales que google identifica como Contenido útil
Sin especificar claramente cuales son las acciones que emplea en sus algoritmos, da pistas generales de lo que sí puede ayudar a que el contenido posicione en los resultados de búsqueda.
A modo de reglas generales, indica una serie de pautas que benefician a lo que denomina contenido útil.
El sistema de contenido útil de la Búsqueda de Google genera una señal que usan los sistemas de clasificación automatizados, que lo forman sistemas como;
- Algoritmo BERT
- Sistemas de información sobre crisis
- Sistemas de anulación de duplicados
- Sistema de dominios de concordancia exacta
- Sistemas de actualización
- Sistema de contenido útil
- Sistemas de análisis de enlaces y PageRank
- Sistemas de noticias locales
- Algoritmo MUM
- Coincidencia neuronal
- Sistemas de contenido original
- Sistemas de disminución de posicionamiento basados en retirada
- Sistema de experiencia en la página
- Sistema de clasificación de fragmentos
- Sistema de reseñas de productos
- Algoritmo RankBrain
- Sistemas de información fiable
- Sistema de diversidad de sitios
- Sistemas de detección de spam
- Sistemas retirados
- Algoritmo Hummingbird
- Sistema de posicionamiento optimizado para móviles
- Sistema de velocidad de página
- Algoritmo Panda
- Algoritmo Penguin
- Sistema de sitios seguros
Con el fin de asegurarse que los usuarios encuentren contenido útil y original, escrito por personas y optimizado para las personas, en los resultados de búsqueda.
El objetivo del sistema de contenido útil es recompensar mejor el contenido que ofrece una experiencia satisfactoria para los visitantes de un sitio web, premiándolo con un buen rendimiento.
El sistema genera una señal a nivel de sitio que tiene en cuenta, entre otras muchas, a la hora de posicionar páginas web.
Identifica automáticamente el contenido que parece tener poco valor, o que, no es muy útil para los usuarios que hacen la búsqueda.
Si determina que un sitio tiene una cantidad alta de contenido poco útil tendrá menos probabilidades de tener un buen rendimiento en la Búsqueda.
El proceso de clasificación es automático y utiliza un modelo de aprendizaje automático, es solo una de las muchas señales que google evalúa para clasificar el contenido.
Estos resultados se generan de forma automática mediante;
- Significado de las consultas
- Relevancia delo contenido
- Calidad del contenido
- Usabilidad de las páginas web
- Contexto y configuración
El algoritmo de contenido útil no es una acción manual o de spam y basa sus esfuerzos en hacer relevantes los contenidos bajo una seria de premisas generales, que se aplican a los contenidos.
A modo de resumen, lo que el algoritmo de contenido útil busca, es contenido generado de personas, para personas, sin intención de buscar ningún otro fin, a través contenido original, útil y de calidad.
Para ello, los modelos de generación de texto pueden predecir la calidad de la página.
Los modelos de lenguaje extenso (LLM) como GPT-3 pueden identificar con precisión el contenido de baja calidad.
Usando clasificadores entrenados para identificar texto generado por máquinas y descubriendo que esos clasificadores podían identificar texto de baja calidad.
Mediante clasificadores entrenados para discriminar entre texto humano y generado por máquina actúan como predictores no supervisados de ‘calidad de página’, capaces de detectar contenido de baja calidad.
Empleando un modelo de generación de texto entrenado para detectar contenido generado por máquinas, generando un nuevo comportamiento, la capacidad de identificar páginas de baja calidad.
Utilizando sistemas como RoBERTa, método de pre entrenamiento que es una versión mejorada de BERT.
- RoBERTa; Método optimizado para pre entrenar sistemas de procesamiento de lenguaje natural (NLP) que mejora las Representaciones de codificador bidireccional de Transformers.
- BERT; Método auto supervisado lanzado por Google en 2018, es una técnica revolucionaria que logró resultados en una variedad de tareas de NLP mientras se basa en texto sin anotaciones extraído de la web.
Los sistemas utilizados;
- Detector GPT-2 basado en RoBERTa de OpenAI.
- GLTR Statistical Detection and Visualization of Generated Text (Detección Estadística y Visualización de Texto Generado). Busca la «firma estadística» del contenido generado por máquinas. Utiliza BERT y GPT-2.
GLTR: Detección Estadística y Visualización de Texto Generado.
Este progreso motiva el desarrollo de métodos simples para detectar el texto generado que pueden ser utilizados y explicados a los no expertos.
GLTR, una herramienta para ayudar a los humanos a detectar si un texto fue generado por un modelo.
Aplica un conjunto de métodos estadísticos de referencia que pueden detectar parámetros de generación en esquemas de muestreo comunes.
Es de código abierto y se implementa públicamente, y ya se ha utilizado ampliamente para detectar texto generado.
La Inteligencia Artificial detecta todas las formas de spam lingüístico.
Hay muchas señales de calidad, que no solo se centra en la calidad lingüística o del lenguaje.
A los efectos de los trabajos de investigación de algoritmos, las frases «calidad de la página» y «calidad del lenguaje» significan lo mismo.
Los documentos escritos a máquina tienden a tener una calidad de lenguaje baja.
La detección de autoría de la máquina puede ser un poderoso proxy para la evaluación de la calidad.
El sistema no tiene que estar entrenado para detectar tipos específicos de contenido de baja calidad, aprende a encontrar todas las variaciones de baja calidad por sí mismo.
Las Pautas para evaluadores de calidad de Google utilizan cuatro puntajes de calidad, bajo, medio, alto y muy alto.
Las puntuaciones se califican con 0, 1 y 2, siendo dos la puntuación más alta.
Las descripciones de las puntuaciones de calidad del lenguaje (LQ):
- 0: LQ bajo. El texto es incomprensible o lógicamente inconsistente.
- 1: LQ medio. El texto es comprensible pero mal escrito (frecuentes errores gramaticales/sintácticos).
- 2: LQ alto. El texto es comprensible y razonablemente bien escrito (errores gramaticales/sintácticos poco frecuentes).
Como resultado, los detectores entrenados para discriminar el texto escrito por humanos frente a los escritos por máquinas son indicadores efectivos de la calidad del lenguaje de las páginas web, superando a un clasificador de spam supervisado de referencia.
Esto quiere decir, que sí, google, con el uso de esta tecnología es capaz de identificar, avaluar y discriminar el contenido útil hecho por y para las personas, del contenido generado por herramientas de inteligencia artificial de generación de textos, imágenes y demás.
Como conclusión final;
Deberíamos desarrollar nuevas normas, pautas y principios para implementar modelos de lenguaje.
¿Quién debería construir e implementar estos grandes modelos de lenguaje?
¿Cómo se responsabilizarán por los posibles daños resultantes de un desempeño deficiente, sesgo o uso indebido?
Para ello se deberían considerar una serie de cuestiones;
Que las universidades puedan construir y evaluar nuevos modelos, exigir legalmente la divulgación cuando se usa IA para generar medios sintéticos, desarrollar herramientas y métricas para evaluar posibles daños y usos indebidos.
Las organizaciones que desarrollan modelos de lenguaje grandes, tienen una capacidad y responsabilidad únicas para establecer normas y pautas que otros pueden seguir.
Herramientas para detectar contenido de IA
- Writer’s AI content detector tool.
- Huggingface GPT-2 Output Detector Demo.
- Giant Language Model Test Room (GLTR).
- ai (AI content and plagiarism detection)
- Content at Scale’s AI content detection tool.
AI content detector tool
Writer’s AI content detector tool.
La herramienta de detección de contenido de IA de Writer detecta GPT 3, GPT 3.5 y ChatGPT.
Ir al sitio: https://writer.com/ai-content-detector/
GPT-2 Output Detector
GPT-2 Output Detector Demo.
Huggingface, es una de las principales comunidades y plataformas para el aprendizaje automático.
Modelo de detector de salida GPT-2, basado en la implementación de Transformers de RoBERTa.
Los resultados comienzan a ser confiables después de alrededor de 50 tokens.
Ir al sitio: https://openai-openai-detector.hf.space/
Giant Language Model Test Room (GLTR)
GLTR permite la inspección de la huella visual de un modelo de lenguaje en el texto de entrada para detectar si un texto podría ser real o falso.
Es una colaboración entre Hendrik Strobelt, Sebastian Gehrmann y Alexander Rush del laboratorio MIT-IBM Watson AI y Harvard NLP.
Ir al sitio: http://gltr.io/dist/index.html
Originality.ai
Originality.ai (AI content and plagiarism detection)
Un verificador de plagio y un detector de inteligencia artificial creado para editores de contenido.
Control de verificar la originalidad de un contenido al identificar cualquier plagio y detectar si se usaron herramientas de IA para crear el contenido.
Ir al sitio: https://originality.ai/
Content at Scale
Content at Scale’s AI content detection tool.
Permite cargar hasta 100 palabras clave y recuperar 100 publicaciones de blog de calidad humana completas (título hasta la conclusión) sin ninguna intervención humana.
Utiliza una combinación de 3 motores de inteligencia artificial, NLP y algoritmos de análisis semántico, rastrea Google y analiza todo el contenido de mayor clasificación para unirlo todo.
Ir al sitio: https://contentatscale.ai/ai-content-detector/
Referencias;
www.searchenginejournal.com/helpful-content-algorithm/
developers.google.com/search/updates/helpful-content-update
developers.google.com/search/ranking-systems-guide
www.google.com/how-search-works/ranking-results/
developers.google.com/search/helpful-content-update
blog.google/more-content-by-people-for-people-in-search/
static.googleusercontent.com/searchqualityevaluatorguidelines.pdf
research.google/pub49668/
storage.googleapis.com/pub-tools-public-publication-data.pdf
www.producthunt.com/detect-gpt
Imagen; concepto-transformacion-digital-vector-fondo-microchip-tecnologia-ai > de rawpixel.com > by Freepik > freepik.es