AlexNet es una arquitectura de red neuronal profunda que marcó un hito en el campo de la visión por computadora y el aprendizaje profundo.
Fue diseñada por Alex Krizhevsky, Ilya Sutskever y Geoffrey Hinton.
Ganó el concurso ImageNet Large Scale Visual Recognition Challenge (ILSVRC) en 2012.
Impulsó significativamente el uso de las redes neuronales convolucionales (CNN).
En tareas de reconocimiento de imágenes.
Características principales de AlexNet
Arquitectura en Capas: AlexNet está formada por 8 capas de aprendizaje
5 capas convolucionales (conv layers) que realizan la extracción de características.
3 capas completamente conectadas (fully connected layers) que actúan como un clasificador.
Filtros Convolucionales y Ventanas Receptivas
Las capas convolucionales de AlexNet aplican filtros a las imágenes de entrada.
Permiten detectar características específicas como bordes, texturas y formas.
A medida que se profundiza en la red.
Los filtros comienzan a detectar características más complejas.
ReLU (Rectified Linear Unit)
La función de activación ReLU se utiliza para añadir no linealidad después de cada capa convolucional.
Acelerando el proceso de entrenamiento comparado con las funciones de activación tradicionales.
Como el sigmoide o la tangente hiperbólica.
Reducción de Sobrerrepresentación (Overfitting)
Para evitar el sobrerrepresentación (overfitting), AlexNet implementa Dropout en las capas completamente conectadas.
Dropout es una técnica que apaga de manera aleatoria algunas neuronas durante el entrenamiento.
Obliga a la red a aprender representaciones más robustas y a no depender de neuronas específicas.
Normalización por Lotes Locales (Local Response Normalization, LRN)
AlexNet usa LRN para normalizar las activaciones de las neuronas.
Ayuda a mejorar la estabilidad y la precisión del entrenamiento.
Max Pooling
Después de algunas capas convolucionales, se aplica una operación de max pooling.
Reduce la resolución espacial dimensión de la imagen.
Ayuda a disminuir la cantidad de parámetros, haciendo la red más eficiente.
Max pooling permite a la red capturar características esenciales sin necesidad de procesar todos los píxeles.
Entrenamiento en GPUs
AlexNet fue entrenada utilizando unidades de procesamiento gráfico (GPUs).
Permitió procesar grandes cantidades de datos con mayor rapidez.
La red fue dividida en dos GPUs para manejar la gran cantidad de operaciones simultáneas.
Tamaño de la Imagen de Entrada
La red fue diseñada para procesar imágenes de entrada de tamaño 227×227 píxeles.
Esto es relativamente pequeño en comparación con las imágenes de alta resolución.
Adecuado para su entrenamiento y evaluación en grandes conjuntos de datos como ImageNet.
Conjunto de Datos ImageNet
AlexNet fue entrenada y probada en ImageNet, un conjunto de datos que contiene millones de imágenes etiquetadas en miles de categorías.
El gran éxito de AlexNet en esta competencia demostró que las CNNs podían superar ampliamente los enfoques tradicionales de reconocimiento de imágenes.
Impacto de AlexNet en el Aprendizaje Profundo
AlexNet revolucionó el campo del aprendizaje profundo y la visión por computadora.
Debido a su éxito en el reconocimiento de imágenes.
Algunos de los principales impactos incluyen.
Popularización de las CNNs
Aunque las redes neuronales convolucionales existían desde la década de 1980.
AlexNet demostró su potencial cuando se entrenan con grandes cantidades de datos y potentes GPUs.
Esto provocó una explosión de interés en las CNNs para diversas aplicaciones.
Desarrollo de Redes Más Profundas
AlexNet fue una de las primeras redes neuronales profundas exitosas.
Condujo al desarrollo de arquitecturas aún más profundas y complejas.
Como VGGNet, GoogleNet, y ResNet.
Aceleración del Uso de GPUs
El uso de GPUs en el entrenamiento de AlexNet mostró cómo la computación en paralelo puede hacer el entrenamiento de redes neuronales profundas mucho más eficiente.
Lllevó a la adopción generalizada de GPUs para este propósito.
Avances en Reconocimiento de Imágenes
El éxito de AlexNet en la clasificación de imágenes de gran escala provocó una revolución.
En aplicaciones relacionadas con la visión por computadora.
Desde el reconocimiento facial hasta los sistemas de conducción autónoma.
Arquitectura de AlexNet
Una visualización simplificada de la arquitectura de AlexNet podría desglosarse de la siguiente manera.
Capa 1 (Conv + Max Pooling): Conv1 → ReLU → Max Pooling.
Capa 2 (Conv + Max Pooling): Conv2 → ReLU → Max Pooling.
Capa 3 (Conv): Conv3 → ReLU.
Capa 4 (Conv): Conv4 → ReLU.
Capa 5 (Conv + Max Pooling): Conv5 → ReLU → Max Pooling.
Capa 6 (Fully Connected + Dropout): FC1 → ReLU → Dropout.
Capa 7 (Fully Connected + Dropout): FC2 → ReLU → Dropout.
Capa 8 (Fully Connected): FC3 (Softmax para la clasificación).
AlexNet fue pionera en demostrar el poder de las redes neuronales convolucionales profundas en tareas de clasificación de imágenes.
Con su enfoque innovador y eficiente, permitió que las CNNs se convirtieran en una herramienta esencial.
Para una amplia gama de aplicaciones de visión por computadora.
Sirvió como base para muchas arquitecturas más modernas.