Curva ROC

Por Manu Duque

Curva ROC (Receiver Operating Characteristic Curve) es una herramienta gráfica fundamental.

Utilizada en aprendizaje automático y estadística para evaluar el rendimiento de un clasificador binario.

Su principal diversión tasa de verdaderos positivos (TPR) y la tasa de falsos positivos (FPR).

A medida que varían los umbrales de decisión.

Definición de la Curva ROC

La curva ROC es un gráfico que representa el rendimiento.

De un clasificador en todos los posibles umbrales de decisión.

En un modelo de clasificación binaria.

El clasificador asigna una probabilidad de pertenencia a una clase positiva.

Generalmente la clase «1» y el umbral de decisión.

Determina a partir de qué probabilidad se clasifica un ejemplo como positivo.

La curva ROC traza la tasa de verdaderos positivos (TPR).

Contra la tasa de falsos positivos (FPR) a medida que se ajusta el umbral.

Tasas en la Curva ROC

Tasa de verdaderos positivos (True Positive Rate – TPR)

También conocida como sensibilidad o recuperación.

Proporción de ejemplos positivos correctamente clasificados como positivos.

Cómo se construye la Curva ROC

Para construir la curva ROC.

Clasificación de los ejemplos

El modelo asigna una probabilidad de pertenecer a la clase positiva para cada ejemplo.

Ajuste del umbral de decisión

Se elige un umbral de decisión que determina si una instancia se clasifica como positiva o negativa.

Si el umbral es 0.5, cualquier ejemplo con una probabilidad mayor o igual a 0.5 será clasificado como positivo.

Si la probabilidad es menor, se clasificará como negativa.

Cálculo de TPR y FPR para cada umbral

Se calculan las tasas de verdaderos positivos y falsos positivos para diferentes valores del umbral.

Esto implica variar el umbral desde el valor más bajo.

Clasifica todo como positivo hasta el valor más alto.

Clasifica todo como negativo.

Trazar la curva

Se traza un gráfico con la tasa de falsos positivos en el eje X y la tasa de verdaderos positivos en el eje Y.

Este gráfico muestra cómo cambia el rendimiento del clasificador al variar el umbral.

Interpretación de la Curva ROC

La curva ROC va desde el punto $(0, 0)$ (donde tanto la TPR como la FPR son cero).

Hasta el punto $(1, 1)$ (donde tanto la TPR como la FPR son uno).

El mejor clasificador es aquel cuya curva está más cerca.

De la esquina superior izquierda del gráfico.

Esto indica una alta tasa de verdaderos positivos y una baja tasa de falsos positivos.

Una buena curva ROC se aproxima a la parte superior izquierda del gráfico.

Significa que el clasificador tiene una alta sensibilidad (TPR).

Y una baja tasa de falsos positivos (FPR).

Un clasificador aleatorio tendría una línea diagonal (una pendiente de 45°).

Va del punto $(0, 0)$ al punto $(1, 1)$ .

El clasificador no tiene poder predictivo y está tomando decisiones al azar.

Área Bajo la Curva ROC (AUC-ROC)

El área bajo la curva ROC (AUC) es una métrica utilizada para cuantificar el rendimiento de un clasificador.

El AUC mide el tamaño del área bajo la curva ROC y tiene un valor entre 0 y 1:

AUC = 1

El clasificador es perfecto.

La curva ROC pasaría por el punto $(0, 1).$

Indica que el modelo clasifica todos los ejemplos positivos correctamente.

No comete ningún error de clasificación.

AUC = 0.5

El clasificador no tiene poder predictivo.

Se comporta como un clasificador aleatorio

AUC < 0.5

El modelo está haciendo peores predicciones que aleatorias.

Indica que el modelo está completamente sesgado y necesita ser corregido.

El AUC-ROC es una métrica muy útil para evaluar el rendimiento.

De un clasificador cuando los datos están desequilibrados.

Cuando los costos de los falsos positivos y los falsos negativos no son iguales.

Proporciona una medida global de la capacidad predictiva del modelo.

Ventajas de la Curva ROC

Evaluación independiente del umbral

A diferencia de otras métricas como la precisión y la exactitud.

La curva ROC no depende de un único valor de umbral.

Evalúa el rendimiento del modelo para todos los umbrales posibles.

Utilidad en clasificación desbalanceada

La curva ROC es particularmente útil cuando las clases están desbalanceadas.

Evalúa tanto los verdaderos positivos como los falsos positivos.

Poporciona una visión más completa del rendimiento del modelo.

AUC-ROC

El área bajo la curva ROC (AUC) proporciona una única métrica.

Para comparar modelos y su valor es intuitivo.

Valores más altos indican mejor rendimiento.

Desventajas de la Curva ROC

No siempre refleja bien el rendimiento en clases desequilibradas

Aunque la curva ROC es útil para muchos casos.

En problemas con clases muy desequilibradas.

El AUC puede dar una impresión equivocada del rendimiento.

Métricas como la puntuación F1 o la curva de precisión/recuperación pueden ser más indicadas.

No muestra el rendimiento relativo de cada clase

La curva ROC solo muestra las tasas de verdaderos positivos y falsos positivos en general.

Sin desglosar el rendimiento para cada clase individual.

En problemas de clasificación multiclase.

Aplicaciones de la Curva ROC

Evaluación de clasificadores binarios

La curva ROC se usa combinada para evaluar clasificadores binarios.

En el caso de la detección de fraude, diagnóstico médico.

Detectar si un paciente tiene una enfermedad.

Clasificación de correos electrónicos (spam/no) correo basura.

Ajuste de umbrales

La curva ROC puede ayudar a decidir el umbral óptimo para un clasificador.

Ajustando el umbral para maximizar el rendimiento.

Según las necesidades específicas.

Optimizando para la tasa de verdaderos positivos.

Minimizando los falsos positivos.

La curva ROC es una herramienta clave para evaluar el rendimiento de los clasificadores.

En tareas de clasificación binaria.

Proporcionando una representación visual.

De cómo varían las tasas de verdaderos y falsos positivos con el ajuste de umbrales.

La métrica AUC derivada de la curva ROC es ampliamente utilizada.

Como una medida global de la capacidad predictiva de un modelo.

Curva ROC

Definición de la Curva ROC

Tasas en la Curva ROC

Cómo se construye la Curva ROC

Interpretación de la Curva ROC

Área Bajo la Curva ROC (AUC-ROC)

Ventajas de la Curva ROC

Desventajas de la Curva ROC

Aplicaciones de la Curva ROC

Cognitive Market Engine CME™: Semantic Mind Ranking™

Cognitive Market Engine CME™: Neuro-Keywords™

Cognitive Market Engine CME™: Cognitive SERP Domination™

Cognitive Market Engine™ CME™: Cognitive Layer Inteligence

COGNITIVE MARKET ENGINE CME™: Data Ingestion Layer

Cognitive Market Engine CME™: Marketing Inteligente Cognitivo