viernes, 4 de abril de 2014

Big Data: SAS y Hadoop



Una de las herramientas más maduras en el mundo Big Data es el framework de licencia libre Apache Hadoop. En este post exponemos de forma resumida la integración entre Hadoop y uno de los fabricantes líder en analítica de negocio: SAS.

En primer lugar resumimos los principales componentes de la arquitectura Hadoop:

  • DFS ( Hadoop Distributes File System): Sistema de ficheros distribuidos que sirve de área de almacenamiento del big data, tanto para datos estructurados, como no estructurados.
  • MapReduce: Framework que da soporte a la ejecución en paralelo y permite procesar de forma distribuida grandes conjuntos de datos. La fase Map realiza operaciones de filtrado, tratamiento y ordenación, mientras que la fase Reduce realiza los agregados y la salida de datos.
  • YARN (Yet Another Resource Negotiator): Gestor de recursos que gestiona y planifica jobs, supervisando su ejecución.
  •  Pig: Lenguaje procedimental de alto nivel, que permite tratar conjuntos de datos almacenados en HDFS. Útil para realizar sencillos análisis o procesos ETL.
  • Hive / HiveQL: Lenguaje tipo SQL que facilita el tratamiento vía queries de conjuntos de datos almacenados en sistemas distribuidos.


A continuación resumimos las principales propuestas de SAS en su integración con Haddop (prevista para Julio 2014):

·         Tratamiento de datos:

ü  SAS/ACCESS permite al acceso a datos almacenados en Hadoop vía HiveQL. Las tablas Hive son visualizadas como si fueran tablas SAS empleando las sentencias libname habituales de SAS. Acceso vía procedimientos ‘proc sql’ de SAS.
ü  Posibilidad de ejecutar procesos MapReduce y comandos o scripts HDFS desde código SAS/BASE, con objeto de poder explotar las capacidades de procesamiento paralelo de Hadoop.
ü  SAS Data Management permite la creación vía una intuitiva GUI de flujos de proceso que usan Pig, MapReduce, comandos HDFS o queries Hive, incluyendo un analizador de sintaxis para estos códigos. Herramientas visuales que facilitan la generación de código y la gestión de la metadata asociada a los procesos.
ü  Los siguientes procedimientos SAS están soportados en la integración ( PROC FREQ, PROC RANK, PROC REPORT, PROC SORT, PROC SUMMARY, PROC MEANS y PROC TABULATE)
ü  Posibilidad de emplear las capacidades de calidad de datos del producto DataFlux de SAS en datos provenientes de Hadoop.
ü  Uso de SAS para crear funciones definidas por usuario (UDFs) que pueden ser desplegadas dentro de HDFS, incluyendo la posibilidad de usar SAS Enterprise Miner para generar UDF que pueden ser desplegadas en HFDS y accedidas desde código Hive, Pig o MapReduce.
ü  Capacidades de integración de datos de SAS que permiten cruzar datos Hadoop con datos almacenados en otros entornos y tecnologías.

·         Visualización de datos:

ü  SAS Visual Analytics permite la rápida visualización de datos almacenados en Hadoop con objeto de realizar informes o realizar exploraciones de datos que ayuden a identificar tendencias, relaciones o patrones. Facilita la distribución de resultados vía web o dispositivos móviles.

·         Análisis y modelos:

ü  Los productos SAS High-Performance Analytics permiten aplicar la tecnología in-memory que facilita el desarrollo de modelos analíticos. Estos productos permiten mover grandes conjuntos de datos en memoria, datos procedentes de arquitectura HDFS. Ejecución de algoritmos e iteración de modelos.
ü  Identificación de patrones y tendencias en datos Hadoop dentro de un entorno interactivo y visual.  Uso de potentes modelos predictivos y técnicas de aprendizaje en modelos.

La integración SAS – Hadoop es parte de una estrategia Big Data más amplia, que incluye capacidades grid, in-memory e in-database con objeto de dotar a los entornos big data de Hadoop de mayores capacidades de análisis.


No hay comentarios:

Publicar un comentario