Medidas de similitud en IA son herramientas matemáticas.
Cuantificar el grado de parecido entre dos objetos.
Vectores o conjuntos de datos.
Reconocimiento de patrones, recuperación de información.
Visión por computadora y sistemas de recomendación.
Tipos de Medidas de Similitud
Basadas en distancia Euclidiana, Manhattan.
Basadas en correlación Pearson, Spearman.
Basadas en vectores Cosenos, Jaccard.
Medidas de Similitud Más Usadas
Distancia Euclidiana
Mide la distancia entre dos puntos.
En un espacio n-dimensional:
from scipy.spatial.distance import euclidean
A = [1, 2, 3]
B = [4, 5, 6]
distancia = euclidean(A, B)
print(f»Distancia Euclidiana: {distancia}»)
Salida: Distancia Euclidiana: 5.19
Distancia de Manhattan
Suma de las diferencias absolutas entre coordenadas:
from scipy.spatial.distance import cityblock
distancia_manhattan = cityblock(A, B)
print(f»Distancia de Manhattan: {distancia_manhattan}»)
Salida: Distancia de Manhattan: 9
Similitud del Coseno
Mide el ángulo entre dos vectores en un espacio multidimensional:
from scipy.spatial.distance import cosine
sim_coseno = 1 – cosine(A, B)
print(f»Similitud del Coseno: {sim_coseno}»)
Salida: Similitud del Coseno: 0.97 cercano a 1 = muy similares
Coeficiente de Jaccard
Mide la similitud entre dos conjuntos:
from sklearn.metrics import jaccard_score
A = [1, 1, 0, 1, 0] B = [1, 0, 1, 1, 1]
sim_jaccard = jaccard_score(A, B)
print(f»Coeficiente de Jaccard: {sim_jaccard}»)
Correlación de Pearson
Mide la relación lineal entre dos variables.
from scipy.stats import pearsonr
X = [10, 20, 30, 40, 50] Y = [15, 25, 35, 45, 55]
corr, _ = pearsonr(X, Y)
print(f»Correlación de Pearson: {corr}»)
Salida: Correlación de Pearson: 1.0 indica relación lineal perfecta
Aplicaciones en IA
Procesamiento de lenguaje natural (PLN)
Encontrar similitud entre textos.
Visión por computadora
Comparar imágenes.
Descriptores de características.
Sistemas de recomendación
Usan la similitud del coseno.
Recomendar productos.
En algoritmos como K-Means.
Agrupar datos similares.
Las medidas de similitud son esenciales para muchas tareas de IA.
Se pueden calcular usando SciPy, NumPy y scikit-learn en Python.
Elegir la mejor medida depende del tipo de datos y problema a resolver.












