Machine learning (ML) ó el aprendizaje automático es un campo de investigación dedicado a comprender y crear métodos que «aprendan», métodos que aprovechan los datos para mejorar el rendimiento en un conjunto de tareas.
Se considera parte de la Inteligencia Artificial.
Los algoritmos de aprendizaje automático construyen un modelo basado en datos de muestra, conocidos como datos de entrenamiento, para hacer predicciones o tomar decisiones sin estar programados explícitamente para hacerlo.
Los algoritmos de aprendizaje automático se utilizan en una amplia variedad de aplicaciones, como en medicina, filtrado de correo electrónico, reconocimiento de voz, agricultura y visión artificial, donde es difícil o inviable desarrollar algoritmos convencionales para realizar las tareas necesarias.
Un subconjunto del aprendizaje automático está estrechamente relacionado con las estadísticas computacionales, que se enfocan en hacer predicciones usando computadoras, pero no todo el aprendizaje automático es aprendizaje estadístico.
El estudio de la optimización matemática ofrece métodos, teoría y dominios de aplicación al campo del aprendizaje automático.
La minería de datos es un campo de estudio relacionado, que se centra en el análisis exploratorio de datos a través del aprendizaje no supervisado.
Algunas implementaciones de aprendizaje automático usan datos y redes neuronales de una manera que imita el funcionamiento de un cerebro biológico.
En su aplicación a través de problemas comerciales, el aprendizaje automático también se conoce como análisis predictivo.
Los algoritmos de aprendizaje funcionan sobre la base de que es probable que las estrategias, los algoritmos y las inferencias que funcionaron bien en el pasado continúen funcionando bien en el futuro.
Historia del aprendizaje automático
El término aprendizaje automático fue acuñado en 1959 por Arthur Samuel, un empleado de IBM y pionero en el campo de los juegos informáticos y la inteligencia artificial, utilizando el sinónimo de autoaprendizaje.
A principios de la década de 1960, Raytheon Company había desarrollado una «máquina de aprendizaje» experimental con memoria de cinta perforada, llamada CyberTron.
Fue «entrenado» repetitivamente por un operador/maestro humano para reconocer patrones y hacer que reevaluara decisiones incorrectas.
La diferencia entre Machine learning e Inteligencia Artificial se suele malinterpretar.
Machine learning aprende y predice en función de observaciones pasivas, mientras que AI implica un agente que interactúa con el entorno para aprender y tomar medidas que maximicen sus posibilidades de alcanzar con éxito sus objetivos.
Procesamiento de datos
El aprendizaje automático y la minería de datos emplean los mismos métodos y se superponen significativamente.
El aprendizaje automático se centra en la predicción, en función de las propiedades conocidas aprendidas de los datos de entrenamiento, la minería de datos se centra en el descubrimiento de propiedades anteriormente desconocidas en los datos.
Esto es el paso de análisis del descubrimiento de conocimiento en bases de datos.
La minería de datos utiliza muchos métodos de aprendizaje automático, pero con diferentes objetivos.
El aprendizaje automático también emplea métodos de minería de datos como «aprendizaje no supervisado» o como un paso de preprocesamiento para mejorar la precisión.
Parte de la confusión entre estas dos comunidades de investigación proviene de los supuestos básicos con los que trabajan.
En el aprendizaje automático, el rendimiento generalmente se evalúa con respecto a la capacidad de reproducir el conocimiento conocido, mientras que en el descubrimiento de conocimiento y la minería de datos Knowledge Discovery in Databases (KDD) la tarea clave es el descubrimiento de conocimiento previamente desconocido.
Evaluado con respecto al conocimiento conocido, un método desinformado, no supervisado, fácilmente será superado por otros métodos supervisados.
En una tarea típica de KDD, los métodos supervisados no se pueden usar debido a la falta de disponibilidad de datos de entrenamiento.
El aprendizaje automático también tiene vínculos con la optimización.
Muchos problemas de aprendizaje se formulan como la minimización de alguna función de pérdida en un conjunto de ejemplos de entrenamiento.
Las funciones de pérdida expresan la discrepancia entre las predicciones del modelo que se está entrenando y las instancias reales del problema.
Modelos de sistemas de aprendizaje automático
Realizar el aprendizaje automático implica crear un modelo, que se entrena en algunos datos de entrenamiento y luego puede procesar datos adicionales para hacer predicciones.
Se han utilizado e investigado varios tipos de modelos para los sistemas de aprendizaje automático.
Redes neuronales artificiales
Las redes neuronales artificiales (ANN), o sistemas conexionistas, son sistemas informáticos vagamente inspirados en las redes neuronales biológicas que constituyen los cerebros de los animales.
Estos sistemas «aprenden» a realizar tareas considerando ejemplos, generalmente sin estar programados con ninguna regla específica de tareas.
Una ANN es un modelo basado en una colección de unidades o nodos conectados llamados «neuronas artificiales», que modelan vagamente las neuronas en un cerebro biológico.
Cada conexión, como las sinapsis en un cerebro biológico, puede transmitir información, una «señal», de una neurona artificial a otra.
El objetivo original del enfoque ANN era resolver problemas de la misma manera que lo haría un cerebro humano.
El aprendizaje del árbol de decisiones utiliza un árbol de decisiones como modelo predictivo para pasar de las observaciones sobre un elemento, representado en las ramas, a las conclusiones sobre el valor objetivo del elemento, representado en las hojas.
Modelos de entrenamiento de aprendizaje automático
Los modelos de aprendizaje automático requieren una gran cantidad de datos confiables para que los modelos realicen predicciones precisas.
Al entrenar un modelo de aprendizaje automático, los ingenieros de aprendizaje automático deben apuntar y recopilar una muestra de datos grande y representativa.
Los datos del conjunto de entrenamiento pueden ser tan variados como un corpus de texto, una colección de imágenes, datos de sensores y datos recopilados de usuarios individuales de un servicio.
Los modelos entrenados derivados de datos sesgados o no evaluados pueden generar predicciones sesgadas o no deseadas.
Los modelos sesgados pueden generar resultados perjudiciales, lo que aumenta los impactos negativos en la sociedad o los objetivos.
El sesgo algorítmico es un resultado potencial de que los datos no estén completamente preparados para el entrenamiento.
La ética del aprendizaje automático se está convirtiendo en un campo de estudio y se está integrando dentro de los equipos de ingeniería de aprendizaje automático.
Los programas de aprendizaje automático a veces, no logran los resultados esperados.
Las razones son :
- Falta de datos adecuados
- Falta de acceso a los datos
- Sesgo de datos
- Problemas de privacidad
- Tareas y algoritmos mal elegidos
- Herramientas y personas equivocadas
- Falta de recursos
- Problemas de evaluación
El aprendizaje automático plantea una serie de cuestiones éticas.
Los sistemas que se entrenan en conjuntos de datos recopilados con sesgos pueden exhibir estos sesgos en el uso, sesgo algorítmico.
Digitalizando los prejuicios culturales.
La recopilación responsable de datos y la documentación de las reglas algorítmicas utilizadas por un sistema es una parte fundamental del aprendizaje automático.
La IA puede estar bien equipada para tomar decisiones en campos técnicos, que dependen en gran medida de datos e información histórica.
Estas decisiones se basan en la objetividad y el razonamiento lógico.
Debido a que los lenguajes humanos contienen sesgos, las máquinas entrenadas en corpus de lenguaje necesariamente también aprenderán estos sesgos.
También hay preocupaciones entre los profesionales de la salud de que estos sistemas podrían no estar diseñados en interés del público sino como máquinas generadoras de ingresos.
Existe la posibilidad de que el aprendizaje automático en el cuidado de la salud brinde a los profesionales una herramienta adicional para diagnosticar, medicar y planificar vías de recuperación para los pacientes, pero esto requiere que se mitiguen estos sesgos.
Imagen; onda-rejilla-esfera-codigo-binario-logotipo-inteligencia-artificial-ai-concepto-aprendizaje-automatico > de iuriimotov > en Freepik > freepik.es