Instance-based Machine Learning (IL) – Aprendizaje de Máquina Basado en Instancias (IL)
El aprendizaje de máquina basado en instancias (Instance-based learning, IL)
Es una metodología dentro del aprendizaje supervisado.
Donde el modelo aprende directamente de las instancias específicas.
De los datos de entrenamiento.
En lugar de construir una representación generalizada.
Como ocurre en modelos basados en parámetros.
El enfoque principal es almacenar y usar los datos.
Realizar predicciones de manera dinámica.
Características Principales de Algoritmos Instance-based
Dependencia Directa de los Datos de Entrenamiento
El aprendizaje basado en instancias almacena los ejemplos de entrenamiento.
Los utiliza para realizar predicciones.
Basadas en similitudes.
Predicciones Locales
Las predicciones se realizan analizando el vecindario.
De una nueva instancia.
Los puntos más cercanos en el espacio de características.
En lugar de usar una regla global.
Menor Proceso de Entrenamiento
Dado que los datos no se ajustan a un modelo paramétrico.
El tiempo de entrenamiento es mínimo.
El costo computacional durante la predicción puede ser mayor.
Modelos No Generalizados
El rendimiento depende directamente de la calidad.
Cantidad de los datos almacenados.
Puede hacerlo más sensible al ruido.
Funcionamiento de Algoritmos Instance-based
Almacenamiento de Datos
El modelo conserva las instancias de los datos de entrenamiento.
Incluyendo sus características y etiquetas.
Similitud entre Instancias
Se utiliza una métrica de distancia.
La distancia euclidiana o Manhattan.
Medir la similitud entre las instancias almacenadas.
Y los nuevos datos.
Predicción
Basándose en la cercanía a los ejemplos almacenados.
El modelo asigna etiquetas en clasificación.
Valores en regresión a los nuevos datos.
Ejemplo de Algoritmos Instance-based
K-Nearest Neighbors (KNN)
Clasifica una instancia según las etiquetas.
De sus k vecinos más cercanos en el espacio de características.
Métodos de Memoria Adaptativa (Aha)
Permiten que el modelo actualice su almacenamiento.
Dinámicamente eliminando instancias.
Irrelevantes o redundantes.
Algoritmos de Kernel
En técnicas como el aprendizaje con máquinas de soporte (SVM).
Algunos enfoques basados en núcleos.
Pueden depender de instancias específicas.
Para definir los márgenes de decisión.
Ventajas
Simplicidad
Fácil de implementar y comprender.
Adaptabilidad
Puede capturar patrones complejos.
Sin requerir supuestos previos.
Sobre la distribución de los datos.
Modelo Actualizable
Puede agregar nuevas instancias a medida que estén disponibles.
Sin necesidad de reentrenar desde cero.
Buena Precisión para Datos Locales
Particularmente útil para conjuntos de datos.
Los patrones dependen de las relaciones locales.
Desventajas
Alta Complejidad Computacional en Predicciones
Las predicciones requieren comparar la nueva instancia.
Con todas las instancias almacenadas.
Puede ser costoso para conjuntos de datos grandes.
Sensibilidad al Ruido
Si los datos de entrenamiento contienen ruido o valores atípicos.
Pueden afectar negativamente el desempeño del modelo.
Requiere Mucho Almacenamiento
Necesita almacenar todos o una gran parte de los datos.
De entrenamiento, puede ser un desafío.
Para conjuntos de datos grandes.
Falta de Generalización
No crea un modelo generalizado.
Puede llevar a un sobreajuste.
Si los datos no son representativos.
Casos de Uso
Sistemas de Recomendación
Utilizando la similitud entre usuarios.
Productos para sugerir elementos relevantes.
Reconocimiento de Patrones
En áreas como la clasificación de imágenes.
Se comparan características específicas.
Con ejemplos conocidos.
Diagnóstico Médico
Comparando los síntomas de un paciente.
Con casos anteriores almacenados.
Procesamiento de Texto
Utilizando métodos basados en instancias.
Clasificar textos o analizar sentimientos.
Relación con Otros Enfoques
El aprendizaje basado en instancias contrasta con el aprendizaje basado en modelos
Busca generalizar los datos a través de parámetros ajustados.
En regresión lineal o redes neuronales.
Estos dos enfoques a menudo se combinan en sistemas híbridos.
Aprovechan las fortalezas de ambos métodos.
Con el avance en hardware y técnicas de optimización.
El aprendizaje basado en instancias podría volverse más viable.
Para aplicaciones a gran escala.
Cuando se utiliza junto con técnicas de reducción.
De dimensionalidad o selección de características.
Su combinación con enfoques basados en modelos.
Como redes neuronales.
Puede ofrecer soluciones más robustas y escalables.
Te puede interesar;
Curso de ChatGPT: Todo lo que debes saber