Regresión logística es un método estadístico y de aprendizaje supervisado.
Utilizado en inteligencia artificial y aprendizaje automático.
Para resolver problemas de clasificación binaria y multiclase.
La regresión logística no realiza una regresión en el sentido tradicional.
Como en la regresión lineal.
Modela la probabilidad de que una instancia.
Pertenezca a una categoría específica.
Fundamentos de la Regresión Logística
La regresión logística se basa en la aplicación de una función logística o sigmoide
Convierte un valor continuo en una probabilidad.
Comprendida entre 0 y 1
Esto la hace ideal para problemas donde el objetivo es predecir.
La pertenencia a una clase.
Positivo o negativo, spam o no spam.
Ecuación de la Regresión Logística
Donde:
P (y = 1∣x): Es la probabilidad de que y = 1y dado un conjunto de características x.
w: Es el vector de pesos asociados a las características.
x: Es el vector de entrada con las características.
b: Es el sesgo o intercepto.
e: Es el número de Euler, la base de los logaritmos naturales.
La función sigmoide transforma el resultado z = w ⋅ x + b
En un rango entre 0 y 1
Permitiendo interpretar este valor como una probabilidad.
Aplicaciones de la Regresión Logística
Clasificación Binaria
Problemas en los que hay solo dos clases, como:
Diagnóstico médico: Enfermo vs. no enfermo.
Análisis de correos: Spam vs. no spam.
Clasificación de transacciones bancarias: Fraude vs. no fraude.
Clasificación Multiclase
Extensiones como Regresión Logística Multinomial
Permiten manejar problemas con más de dos clases.
Esto se logra aplicando estrategias.
«one-vs-rest» o «softmax»
Calcular las probabilidades de pertenencia a cada clase.
Predicción de Probabilidades
Utilizado cuando no solo importa la clase.
También la probabilidad asociada.
Modelos de riesgo en seguros.
Modelos de predicción electoral.
Modelos de Scoring
En marketing y crédito.
Se usa para predecir la probabilidad de respuesta.
De un cliente a una campaña o la probabilidad.
De incumplimiento de un préstamo.
Ventajas de la Regresión Logística
Simplicidad
Es fácil de entender e interpretar.
En problemas con un número reducido de características.
Escalabilidad
Funciona bien con conjuntos de datos pequeños.
Puede ampliarse a conjuntos de datos más grandes.
Utilizando optimizaciones adecuadas.
Probabilidades Interpretables
Produce probabilidades explícitas.
Facilita tomar decisiones basadas en umbrales definidos.
Eficiencia Computacional
Es eficiente para el entrenamiento y la predicción.
En comparación con métodos más complejos.
Como redes neuronales profundas.
Limitaciones de la Regresión Logística
Linealidad en el Espacio de Características
La regresión logística asume que las características.
Las clases están separadas linealmente en el espacio.
La limita en problemas no lineales.
A menos que se apliquen transformaciones de características.
Como el uso de funciones kernel.
Sensibilidad al Ruido y Datos Desbalanceados
Si las clases están desbalanceadas.
El modelo puede sesgarse hacia la clase mayoritaria.
Sobrerregularización
Aunque se pueden emplear técnicas de regularización (L1 y L2).
Evitar el sobreajuste un uso inadecuado.
Puede conducir a modelos subóptimos.
Incapacidad de Modelar Relaciones Complejas
No captura interacciones no lineales entre las variables.
Sin modificaciones significativas.
Ampliaciones y Variantes
Regularización
Para mejorar el rendimiento y evitar el sobreajuste.
Se emplean técnicas como:
Regresión logística L1 (Lasso)
Promueve la selección de características.
Al forzar a que algunos coeficientes sean exactamente cero.
Regresión logística L2 (Ridge)
Penaliza coeficientes grandes.
Favoreciendo modelos más simples.
Regresión Logística Multinomial
Una extensión para manejar problemas multiclase.
Utilizando el modelo de softmax.
Asignar probabilidades a múltiples clases.
Regresión Logística con Kernel
Combina la regresión logística con funciones kernel.
Manejar relaciones no lineales.
En el espacio de características.
Regresión Logística Robusta
Variantes diseñadas para manejar datos.
Con valores atípicos o ruido.
Proceso de Entrenamiento
El entrenamiento de un modelo de regresión logística implica;
Definir la Función de Pérdida
Se utiliza la entropía cruzada (cross-entropy loss)
Para medir la diferencia entre las predicciones.
Del modelo y las etiquetas reales.
Donde:
yi: Es la etiqueta real de la instancia i.
y^i: Es la probabilidad predicha de que yi = 1.
Optimización
Los parámetros w y b se ajustan mediante un método de optimización.
El descenso de gradiente para minimizar la función de pérdida.
Evaluación
Se utilizan métricas como la precisión, el recall.
F1-score o la curva ROC-AUC
Para evaluar el desempeño del modelo.
La regresión logística es una herramienta poderosa y versátil.
Para resolver problemas de clasificación en inteligencia artificial.
Es conceptualmente sencilla puede adaptarse y extenderse.
Para manejar problemas más complejos.
Su capacidad para producir probabilidades interpretables.
Su eficiencia computacional la convierten en una técnica fundamental.
Tanto en aplicaciones prácticas como en la investigación.
Es crucial reconocer sus limitaciones y considerar alternativas.
Cuando se enfrentan problemas que involucran relaciones.
No lineales o estructuras de datos más complejas.
Te puede interesar;
Curso de ChatGPT: Todo lo que debes saber