Curva ROC (Receiver Operating Characteristic Curve) es una herramienta gráfica fundamental.
Utilizada en aprendizaje automático y estadística para evaluar el rendimiento de un clasificador binario.
Su principal diversión tasa de verdaderos positivos (TPR) y la tasa de falsos positivos (FPR).
A medida que varían los umbrales de decisión.
Definición de la Curva ROC
La curva ROC es un gráfico que representa el rendimiento.
De un clasificador en todos los posibles umbrales de decisión.
En un modelo de clasificación binaria.
El clasificador asigna una probabilidad de pertenencia a una clase positiva.
Generalmente la clase «1» y el umbral de decisión.
Determina a partir de qué probabilidad se clasifica un ejemplo como positivo.
La curva ROC traza la tasa de verdaderos positivos (TPR).
Contra la tasa de falsos positivos (FPR) a medida que se ajusta el umbral.
Tasas en la Curva ROC
Tasa de verdaderos positivos (True Positive Rate – TPR)
También conocida como sensibilidad o recuperación.
Proporción de ejemplos positivos correctamente clasificados como positivos.
Cómo se construye la Curva ROC
Para construir la curva ROC.
Clasificación de los ejemplos
El modelo asigna una probabilidad de pertenecer a la clase positiva para cada ejemplo.
Ajuste del umbral de decisión
Se elige un umbral de decisión que determina si una instancia se clasifica como positiva o negativa.
Si el umbral es 0.5, cualquier ejemplo con una probabilidad mayor o igual a 0.5 será clasificado como positivo.
Si la probabilidad es menor, se clasificará como negativa.
Cálculo de TPR y FPR para cada umbral
Se calculan las tasas de verdaderos positivos y falsos positivos para diferentes valores del umbral.
Esto implica variar el umbral desde el valor más bajo.
Clasifica todo como positivo hasta el valor más alto.
Clasifica todo como negativo.
Trazar la curva
Se traza un gráfico con la tasa de falsos positivos en el eje X y la tasa de verdaderos positivos en el eje Y.
Este gráfico muestra cómo cambia el rendimiento del clasificador al variar el umbral.
Interpretación de la Curva ROC
La curva ROC va desde el punto (0,0) (0, 0) ( 0 ,0 ) (donde tanto la TPR como la FPR son cero).
Hasta el punto (1,1) (1, 1) ( 1 ,1 ) (donde tanto la TPR como la FPR son uno).
El mejor clasificador es aquel cuya curva está más cerca.
De la esquina superior izquierda del gráfico.
Esto indica una alta tasa de verdaderos positivos y una baja tasa de falsos positivos.
Una buena curva ROC se aproxima a la parte superior izquierda del gráfico.
Significa que el clasificador tiene una alta sensibilidad (TPR).
Y una baja tasa de falsos positivos (FPR).
Un clasificador aleatorio tendría una línea diagonal (una pendiente de 45°).
Va del punto (0,0) (0, 0) (0 ,0) al punto (1,1) (1, 1) ( 1 ,1 ).
El clasificador no tiene poder predictivo y está tomando decisiones al azar.
Área Bajo la Curva ROC (AUC-ROC)
El área bajo la curva ROC (AUC) es una métrica utilizada para cuantificar el rendimiento de un clasificador.
El AUC mide el tamaño del área bajo la curva ROC y tiene un valor entre 0 y 1:
AUC = 1
El clasificador es perfecto.
La curva ROC pasaría por el punto (0,1) (0, 1) ( 0 ,1 ).
Indica que el modelo clasifica todos los ejemplos positivos correctamente.
No comete ningún error de clasificación.
AUC = 0.5
El clasificador no tiene poder predictivo.
Se comporta como un clasificador aleatorio
AUC < 0.5
El modelo está haciendo peores predicciones que aleatorias.
Indica que el modelo está completamente sesgado y necesita ser corregido.
El AUC-ROC es una métrica muy útil para evaluar el rendimiento.
De un clasificador cuando los datos están desequilibrados.
Cuando los costos de los falsos positivos y los falsos negativos no son iguales.
Proporciona una medida global de la capacidad predictiva del modelo.
Ventajas de la Curva ROC
Evaluación independiente del umbral
A diferencia de otras métricas como la precisión y la exactitud.
La curva ROC no depende de un único valor de umbral.
Evalúa el rendimiento del modelo para todos los umbrales posibles.
Utilidad en clasificación desbalanceada
La curva ROC es particularmente útil cuando las clases están desbalanceadas.
Evalúa tanto los verdaderos positivos como los falsos positivos.
Poporciona una visión más completa del rendimiento del modelo.
AUC-ROC
El área bajo la curva ROC (AUC) proporciona una única métrica.
Para comparar modelos y su valor es intuitivo.
Valores más altos indican mejor rendimiento.
Desventajas de la Curva ROC
No siempre refleja bien el rendimiento en clases desequilibradas
Aunque la curva ROC es útil para muchos casos.
En problemas con clases muy desequilibradas.
El AUC puede dar una impresión equivocada del rendimiento.
Métricas como la puntuación F1 o la curva de precisión/recuperación pueden ser más indicadas.
No muestra el rendimiento relativo de cada clase
La curva ROC solo muestra las tasas de verdaderos positivos y falsos positivos en general.
Sin desglosar el rendimiento para cada clase individual.
En problemas de clasificación multiclase.
Aplicaciones de la Curva ROC
Evaluación de clasificadores binarios
La curva ROC se usa combinada para evaluar clasificadores binarios.
En el caso de la detección de fraude, diagnóstico médico.
Detectar si un paciente tiene una enfermedad.
Clasificación de correos electrónicos (spam/no) correo basura.
Ajuste de umbrales
La curva ROC puede ayudar a decidir el umbral óptimo para un clasificador.
Ajustando el umbral para maximizar el rendimiento.
Según las necesidades específicas.
Optimizando para la tasa de verdaderos positivos.
Minimizando los falsos positivos.
La curva ROC es una herramienta clave para evaluar el rendimiento de los clasificadores.
En tareas de clasificación binaria.
Proporcionando una representación visual.
De cómo varían las tasas de verdaderos y falsos positivos con el ajuste de umbrales.
La métrica AUC derivada de la curva ROC es ampliamente utilizada.
Como una medida global de la capacidad predictiva de un modelo.





