La validación cruzada o cross-validation es una técnica fundamental en aprendizaje automático (machine learning ) y estadística.
Se utiliza para evaluar el rendimiento de un modelo de predicción y segura.
Reducir el sesgo asociado a la evaluación de modelos entrenados.
Con un solo conjunto de datos de entrenamiento y validación.
Proporcionar una estimación más confiable.
De su desempeño en datos no vistos (o de prueba).
¿Qué es la Validación Cruzada?
La validación cruzada es un proceso en el cual se divide el conjunto de datos.
En varias subdivisiones o pliegues (pliegues).
Se entrena y valida el modelo varias veces.
Con diferentes combinaciones de estos pliegues.
Para obtener una evaluación más robusta del rendimiento del modelo.
El objetivo de la validación cruzada es proporcionar una mejor estimación del rendimiento de un modelo.
Evitando problemas como el sobreajuste (overfitting) o subajuste (underfitting).
Pueden ocurrir cuando se evalúa un modelo.
Solo en un conjunto de datos de entrenamiento específico.
Tipos de Comunes de Validación Cruzada
Existen varias variantes de validación cruzada.
Se utilizan en función del tamaño del conjunto de datos.
El tipo de problema y la precisión requerida:
Validación Cruzada K- Fold
En la validación cruzada K-Fold
El conjunto de datos se divide en K subconjuntos (o pliegues).
De tamaño aproximadamente igual.
El proceso se repite K veces , donde en cada iteración se utiliza un pliegue diferente.
Como conjunto de validación.
Los demás K − 1K – 1K − 1 Los pliegues se combinan para formar el conjunto de entrenamiento.
El rendimiento del modelo se evalúa promediando las métricas de rendimiento de cada iteración.
Este es uno de los enfoques más comunes de validación cruzada.
La elección de K Depende de la cantidad de datos disponibles. Valores comunes de K hijo 5 o 10.
Ventajas
Proporciona una evaluación robusta del modelo.
Utiliza todos los datos para entrenamiento y validación.
Desventajas
Requiere más tiempo de computación, ya que el modelo se entrenaKKKa veces.
Validación Cruzada Leave-One-Out (LOO)
La validación cruzada Leave-One-Out (LOO) es un caso extremo.
De la validación cruzada K-Fold donde K es igual al número de observaciones en el conjunto de datos.
En cada iteración, se utiliza una sola observación como conjunto de validación.
El resto como conjunto de entrenamiento.
Esto se repite tantas veces como observaciones haya en el conjunto de datos.
Ventajas
Utiliza casi todo el conjunto de datos para entrenamiento en cada iteración.
Es útil cuando el conjunto de datos es pequeño.
Desventajas
Requiere un número muy alto de iteraciones.
Es computacionalmente costoso para grandes conjuntos de datos.
Puede ser más susceptible a la variación si los datos tienen ruido.
Validación Cruzada Estratificada (Stratified K-Fold)
En la validación cruzada estratificada.
La división de los pliegues se hace de manera que cada pliegue tenga una distribución similar.
De las clases que en el conjunto de datos original.
Este tipo de validación cruzada es especialmente útil.
En problemas de clasificación con clases desequilibradas.
Asegura que todas las clases estén representadas adecuadamente en cada pliegue.
Ventajas
Mantiene la proporción de clases en cada pliegue.
Es crucial en problemas de clasificación desequilibrada.
Ofrece una evaluación más confiable en contextos.
Donde las clases no están igualmente distribuidas.
Validación Cruzada de Tiempo
En los problemas de series temporales, donde los datos están ordenados cronológicamente.
Utiliza una variante especial de validación cruzada.
Para respetar la dependencia temporal.
En lugar de dividir aleatoriamente los datos.
La validación cruzada de series temporales divide los datos.
De manera que los conjuntos de entrenamiento siempre ocurren antes que los conjuntos de prueba.
Los pliegues se construyen utilizando ventanas deslizantes.
Asegurando que el modelo siempre se entrene con datos previos al conjunto de validación.
Ventajas
Respeta la secuencia temporal de los datos.
Evita la fuga de datos, ya que no se usa información futura para predecir eventos pasados.
¿Cómo Funciona la Validación Cruzada?
El proceso básico de validación cruzada implica los siguientes pasos.
Dividir el conjunto de datos
Se divide el conjunto de datos en K pliegues (o subconjuntos).
Entrenamiento y Validación
Para cada iteración;
Se entrena el modelo en K −1pliegues.
Se evalúa el modelo utilizando el pliegue restante como conjunto de validación.
Promediar las métricas
Después de realizar las Kiteraciones, se promedian las métricas de rendimiento.ç
Precisión, recuperación, puntuación F1, etc. de todos los pliegues.
Para obtener una estimación del rendimiento global del modelo.
Ajuste del modelo
Si es necesario, se ajustan los parámetros del modelo.
Los hiperparámetros, basándose en los resultados de la validación cruzada.
Ventajas de la Validación Cruzada
Evaluación confiable
La validación cruzada proporciona una evaluación más precisa del rendimiento.
Del modelo que una simple división en conjuntos de entrenamiento y prueba.
Se evalúa el modelo con diferentes subconjuntos de los datos.
Uso eficiente de los datos
Todos los datos se utilizan tanto para entrenamiento como para validación.
Es beneficioso cuando el conjunto de datos es pequeño.
Reducción de la varianza
El promedio de las métricas de rendimiento de varias iteraciones.
Ayuda a reducir la variabilidad en la estimación del desempeño del modelo.
Haciendo que los resultados sean más confiables.
Desventajas de la Validación Cruzada
Costo computacional
La validación cruzada requiere que el modelo se entrene varias veces.
Una vez por cada pliegue.
Puede ser muy costoso computacionalmente.
Para modelos grandes o complejos.
Tiempo de ejecución largo
Debido al número de iteraciones necesarias.
La validación cruzada puede llevar mucho tiempo.
Especialmente con grandes conjuntos de datos o modelos complejos.
¿Cuándo Usar la Validación Cruzada?
La validación cruzada es especialmente útil en las siguientes situaciones.
Evaluación de modelos
Cuando se desea obtener una estimación más precisa del rendimiento.
De un modelo antes de implementarlo en producción.
Selección de modelos y ajuste de hiperparámetros
Durante el proceso de búsqueda de hiperparámetros o de selección de características.
La validación cruzada puede ayudar a elegir el modelo más robusto.
Conjuntos de datos pequeños
Si tienes un conjunto de datos pequeños.
La validación cruzada maximiza el uso de los datos disponibles.
Proporcionando una evaluación más confiable.
La validación cruzada es una técnica poderosa para evaluar el rendimiento.
De un modelo de aprendizaje automático.
Mejorando su capacidad de generalización.
Al permitir una evaluación más robusta.
Reducir los riesgos de sobreajuste y proporciona una mejor estimación.
Cómo el modelo se comportará con datos no vistos.