Formatos de datos estructuras en las que se almacenan y procesan.
Los datos para entrenar modelos de Machine Learning y Deep Learning.
La elección del formato adecuado impacta el rendimiento.
La eficiencia y la compatibilidad.
Con herramientas de análisis.
Tipos de Formatos de Datos en IA
Formatos de Texto
CSV (Comma-Separated Values)
Formato plano.
Los valores están separados por comas.
Común en análisis de datos y Machine Learning.
Nombre,Edad,Salario
Juan,30,2500
María,28,2800
JSON (JavaScript Object Notation)
Almacena datos en formato estructurado.
Útil en APIs y bases de datos NoSQL.
{
«nombre»: «Juan»,
«edad»: 30,
«salario»: 2500
}
XML (Extensible Markup Language)
Similar a JSON, usado en aplicaciones web.
<empleado>
<nombre>Juan</nombre>
<edad>30</edad>
<salario>2500</salario>
</empleado>
Formatos Binarios
Parquet
Optimizado para Big Data y procesamiento rápido.
Utilizado en Apache Spark y Hadoop.
Avro
Formato eficiente para la transmisión de datos.
Compatible con Apache Kafka.
HDF5 (Hierarchical Data Format 5)
Usado en Deep Learning TensorFlow, Keras.
Almacena grandes volúmenes de datos.
En estructuras jerárquicas.
import h5py
with h5py.File(«datos.h5», «w») as f:
f.create_dataset(«dataset1», data=[1, 2, 3, 4, 5])
Formatos de Imagen
PNG, JPEG – Usados en visión por computadora.
TIFF – Formato sin pérdida para imágenes médicas o científicas.
DICOM – Usado en imágenes médicas como radiografías.
import cv2
imagen = cv2.imread(«imagen.png»)
cv2.imshow(«Imagen», imagen)
cv2.waitKey(0)
Elección del Formato de Datos en IA
| Formato | Uso Principal | Ventajas |
|---|---|---|
| CSV | ML y análisis de datos | Fácil de leer y manipular |
| JSON | APIs y datos estructurados | Flexible y legible |
| Parquet | Big Data y procesamiento rápido | Alta eficiencia |
| HDF5 | Deep Learning | Manejo eficiente de datos grandes |
| JPEG/PNG | Visión por Computadora | Compatible con librerías de IA |
La elección del formato depende del tipo de datos y la aplicación en IA.
Para Machine Learning, CSV y Parquet son populares.
Para Deep Learning, HDF5 y formatos de imágenes.
JSON y Avro son ideales para transmisión de datos.







