Big Data

 

Big data o macrodatos, también llamados datos masivosinteligencia de datosdatos a gran escala o big data.

 

Es un término que hace referencia a conjuntos de datos tan grandes y complejos que precisan de aplicaciones informáticas no tradicionales de procesamiento de datos para tratarlos adecuadamente.

 

Los datos son la reproducción simbólica de un atributo o variable cuantitativa o cualitativa, según la RAE;

 

Información sobre algo concreto que permite su conocimiento exacto o sirve para deducir las consecuencias derivadas de un hecho.​

 

Los procedimientos usados para encontrar patrones repetitivos dentro de esos datos son más sofisticados y requieren un software especializado.

 

En textos científicos en español, con frecuencia se usa directamente el término en inglés big data, tal como aparece en el ensayo de Viktor Schönberger ”La revolución de los datos masivos”.

 

El uso del término «big data» tiende a referirse al análisis del comportamiento del usuario, extrayendo valor de los datos almacenados y formulando predicciones a través de los patrones observados.

 

La disciplina dedicada a los datos masivos se enmarca en el sector de las tecnologías de la información y la comunicación.

 

Esta disciplina se ocupa de todas las actividades relacionadas con los sistemas que manipulan grandes conjuntos de datos.

 

Las dificultades más habituales vinculadas a la gestión de estos grandes volúmenes de datos se centran en la recolección y el almacenamiento de los mismos, en las búsquedas, las comparticiones, los análisis, en las visualizaciones y representaciones.

 

La tendencia a manipular enormes volúmenes de datos se debe en muchos casos a la necesidad de incluir dicha información para la creación de informes estadísticos y modelos predictivos utilizados en diversas materias.

 

Como los análisis sobre negocios, sobre publicidad, sobre enfermedades infecciosas, sobre el espionaje y el seguimiento a la población, o sobre la lucha contra el crimen organizado.

 

Los científicos con cierta regularidad encuentran límites en el análisis debido a la gran cantidad de datos en ciertas áreas, tales como la meteorología, la genómica, la conectómica, una aproximación al estudio del cerebro.

 

Las limitaciones también afectan a los motores de búsqueda en internet, a los sistemas de finanzas y a la informática de negocios.

 

Los data sets crecen en volumen debido en parte a la recolección masiva de información procedente de los sensores inalámbricos y los dispositivos móviles, por ejemplo las VANET.

 

El constante crecimiento de los históricos de aplicaciones de los registros, las cámaras, los micrófonos, los lectores de identificación por radiofrecuencia.

 

Los sistemas de gestión de bases de datos relacionales y los paquetes de software utilizados para visualizar datos, tienen dificultades para manejar big data.

 

Big data representa los activos de información caracterizados por un volumen, velocidad y variedad tan altos que requieren una tecnología específica y métodos analíticos para su transformación en valor.​

 

Las tres V; volumen, variedad y velocidad, se han ampliado a otras características complementarias del big data:

  • Aprendizaje automático: los grandes datos no preguntan por qué y simplemente detectan los patrones.​
  • Huella digital: el Big Data es un subproducto libre de costo de la interacción digital.

 

Big Data es donde se necesitan herramientas informáticas paralelas para manejar los datos.

 

Esto representa un cambio distinto y claramente definido en la informática utilizada a través de teorías de programación paralelas y pérdidas de algunas de las garantías y capacidades hechas por el modelo relacional de Codd.

 

La creciente madurez del concepto describe de manera clara y bien nítida, la diferencia entre «Big Data; Datos a gran escala» y «Business intelligence; Inteligencia empresarial».

 

La Business intelligence usa estadísticas descriptivas con datos con alta densidad de información para medir cosas, detectar tendencias.

 

El Big Data usa estadísticas inductivas y conceptos de identificación de sistemas no lineales, para inferir leyes, regresiones, relaciones no lineales y efectos causales.

 

Características del Big Data

  • Volumen: La cantidad de datos generados y guardados.
  • Variedad: El tipo y naturaleza de los datos para ayudar a las personas a analizar los datos y usar los resultados de forma eficaz.
  • Velocidad: La velocidad a la cual se generan y procesan los datos para cumplir las exigencias y desafíos de su análisis.
  • Veracidad: La calidad de los datos capturados puede variar mucho y así afectar a los resultados del análisis.
  • Valor: Los datos generados deben ser útiles, accionables y tener valor.

 

Los sistemas Teradata fueron los primeros en almacenar y analizar 1 terabyte de datos.

 

La definición de big data evoluciona continuamente según la Ley de Kryder.

 

Teradata ha agregado tipos de datos no estructurados, incluidos XML, JSON y Avro.

 

El concepto MapReduce proporciona un modelo de procesamiento en paralelo y se lanzó una implementación asociada para procesar grandes cantidades de datos.

 

Existen herramientas para el manejo de big data, como Apache_Hadoop, NoSQL, Apache_Cassandra, inteligencia empresarial, aprendizaje automático y MapReduce.

 

Estas herramientas tratan con algunos de los tres tipos de big data:

  • Datos estructurados: Datos que tienen definidos su longitud y su formato, como las fechas, los números o las cadenas de caracteres, se almacenan en tablas.
  • Datos no estructurados: Datos en el formato tal y como fueron recolectados, carecen de un formato específico, comoson los PDF, documentos multimedia, correos electrónicos o documentos de texto.
  • Datos semiestructurados: Datos que no se limitan a campos determinados, pero que contiene marcadores para separar los diferentes elementos, como los archivos tipo hojas de cálculo, HTML, XMLo JSON.
  • Técnicas para analizar datos: Pruebas A / B, aprendizaje automático y procesamiento del lenguaje natural
  • Grandes tecnologías de datos: Inteligencia de negocios, computación en la nube y bases de datos
  • Visualización: Tablas, gráficos y otras visualizaciones de los datos.

 

Procedencia de los datos según categorías

  • Generados por las propias personas; Correos electrónicos,
  • Obtenidas a partir de transacciones; La facturación, tarjetas de fidelización, las conexiones de telefonía, los accesos a wifis, el pago con tarjetas de crédito.
  • Mercadotecnia electrónica y web; Cuando se navega por internet.
  • Interacciones máquina a máquina (M2M); Datos obtenidos a partir de la recogida de métricas obtenidas desde dispositivos, medidores, sensores de temperatura, de luz, de altura, de presión, de sonido,etc.
  • Datos biométricos recolectados; Servicios de seguridad, lectores biométricos escáneres de retina, de huellas digitales, o lectores de cadenas de ADN.

 

Las plataformas para extraer, transformar y cargar (ETL), el almacenamiento NoSQL se refiere a Not Only SQL, son sistemas de almacenamiento que no cumplen con el esquema entidad-relación.

  • Almacenamiento clave-valor (key-value)
  • Almacenamiento documental
  • Almacenamiento en grafo
  • Almacenamiento orientado a columnas

 

Mondrian es una plataforma que permite visualizar la información a través de los análisis llevados a cabo sobre los datos que disponemos.

 

Técnicas de análisis de datos

  • Asociación
  • Minería de datos data mining
  • Agrupación clustering
  • Análisis de texto text analytics

 

 

error: Alert: Este contenido está Protegido © !!