Bias (sesgo) se refiere a dos conceptos principales: el sesgo en el aprendizaje del modelo y el sesgo en los datos.
Ambos pueden afectar la capacidad del modelo.
Para generalizar correctamente, así como su precisión y fiabilidad.
Sesgo en el Aprendizaje de Modelos (Bias de Modelo)
El sesgo en el aprendizaje de modelos es un error sistemático en la predicción.
Debido a supuestos simplificadores en el modelo.
Estos supuestos permiten que el modelo generalice a partir de los datos de entrenamiento.
Pero pueden llevar a errores cuando se enfrentan a datos complejos.
Ejemplo de Sesgo en Modelos
Supongamos que se está entrenando un modelo para predecir el precio de una casa.
En función de características como el tamaño.
El número de habitaciones y la ubicación.
Si el modelo es una regresión lineal, asumirá que la relación entre las características y el precio es lineal.
En la práctica, esta relación podría ser más compleja.
Con patrones no lineales que la regresión lineal no captura.
El resultado es que el modelo tiende a subestimar o sobreestimar el precio.
En situaciones en las que los datos son complejos.
No se ajustan a la línea recta asumida.
Trade-off entre Bias y Varianza
Existe un equilibrio importante entre el sesgo y la varianza en los modelos de aprendizaje automático.
Conocido como el dilema de sesgo-varianza.
Alto sesgo y baja varianza
El modelo es demasiado simple y no se ajusta bien a los datos de entrenamiento ni de prueba.
Este problema se llama subajuste (underfitting).
Ocurre cuando el modelo no logra capturar patrones importantes en los datos.
Bajo sesgo y alta varianza
El modelo es complejo y se ajusta muy bien a los datos de entrenamiento.
Tiene problemas al generalizar con datos nuevos.
Este fenómeno se llama sobreajuste (overfitting).
Significa que el modelo captura demasiado detalle específico de los datos de entrenamiento.
Para crear modelos efectivos, es necesario encontrar un equilibrio entre el sesgo y la varianza.
Para que el modelo sea capaz de generalizar bien con datos nuevos.
Sesgo en los Datos (Bias en los Datos)
El sesgo en los datos se refiere a un desequilibrio o parcialidad en la representación de los datos de entrenamiento.
Los datos sesgados pueden llevar a decisiones injustas.
El modelo aprende y generaliza patrones que no son representativos de la realidad.
Ejemplos de Sesgo en los Datos
Sesgo de Selección
Cuando ciertos grupos están subrepresentados en los datos de entrenamiento.
En un modelo de reconocimiento facial entrenado principalmente con rostros de un grupo demográfico específico.
El modelo podría no funcionar bien para otros grupos.
Sesgo de Confirmación
Los datos reflejan los prejuicios del recopilador o anotador.
Esto puede ocurrir, por ejemplo, en modelos de clasificación de sentimientos.
Si los ejemplos de comentarios negativos y positivos provienen de fuentes sesgadas.
Sesgo Histórico
Cuando los datos reflejan desigualdades o tendencias sociales pasadas.
En un modelo de selección de candidatos para empleo.
Si se entrena con datos históricos donde existe discriminación de género o raza.
El modelo puede perpetuar estos patrones.
Sesgo de Supervivencia
Ocurre cuando los datos representan únicamente a aquellos que «sobreviven» o pasan ciertas pruebas.
Al analizar la efectividad de un medicamento sin tener en cuenta a los pacientes que abandonaron el tratamiento.
Efectos del Sesgo en los Datos
El sesgo en los datos puede llevar a modelos que discriminan.
Tratan de manera desigual a ciertos grupos o características.
Afectando negativamente la equidad, la ética y la aceptación del modelo en aplicaciones críticas.
Como salud, finanzas, recursos humanos y seguridad.
Estrategias para Reducir el Sesgo
Obtener Datos Representativos
Recopilar datos que reflejen adecuadamente la diversidad del problema a resolver.
Cubriendo todas las posibles variantes.
Evitando el sub o sobre-representación de ciertos grupos.
Preprocesamiento de Datos
Identificar y corregir desequilibrios en los datos mediante técnicas como recolección de datos balanceada.
Muestreo, normalización o técnicas de generación de datos sintéticos para representar grupos minoritarios.
Regularización de Modelos
Usar métodos de regularización que ayuden a controlar el sobreajuste y a balancear el sesgo.
Como L1, L2, o Dropout en redes neuronales.
Evaluación Ética y Equidad en el Modelo
Evaluar el rendimiento del modelo en distintos subgrupos y ajustar según sea necesario.
Esto se puede hacer con métricas específicas para bias y fairness.
Como la paridad de equidad (fairness parity).
La paridad de oportunidad (equalized odds).
Uso de Modelos Ensemble
Los métodos de aprendizaje en conjunto como el bagging y boosting.
Ayudan a reducir el sesgo y la varianza.
Combinan múltiples modelos individuales.
Tienden a producir resultados más equilibrados y precisos.
Ejemplo de Sesgo y Varianza en Redes Neuronales
En una red neuronal profunda, ajustar los parámetros excesivamente.
Usar muchas capas y neuronas puede reducir el sesgo.
El modelo aprende patrones detallados en los datos de entrenamiento.
También aumenta la varianza, provocando sobreajuste.
Para evitar esto, se emplean técnicas de regularización como el dropout.
Conjuntos de validación para encontrar el punto óptimo entre el sesgo y la varianza.
Evitando que el modelo sea demasiado simple o demasiado complejo.
El bias o sesgo es un concepto clave en el desarrollo y entrenamiento de modelos de inteligencia artificial.
Afecta directamente la capacidad del modelo para generalizar con precisión a nuevos datos.
El bias puede venir tanto del modelo como de los datos de entrenamiento.
Es crucial identificar y mitigar sus efectos mediante prácticas de diseño éticas, representativas y técnicas de regularización.
Encontrar un balance entre el sesgo y la varianza es fundamental para lograr modelos que sean precisos.
Justos y útiles en contextos del mundo real.