Tal y como avanzamos la semana anterior, seguiremos tratando una de las tendencias del momento, el Big Data.
En nuestro artículo anterior: Big data en SAP
nos centrábamos en algunas cuestiones como la concepción del término,
los problemas a los que se enfrentaba, etc.
En esta entrada abordaremos el tema desde una perspectiva más cercana a las herramientas
para el tratamiento de esta gran cantidad de información y que aporta SAP a este tema.
Empecemos!
Si hablamos de Big Data, la primera herramienta que se nos viene a la cabeza es Hadoop pero…
¿Qué es Apache Hadoop?
Podemos decir que Apache Hadoop se trata de un framework
utilizado principalmente para ejecutar aplicaciones distribuidas.
Dispone de un sistema de archivos propio: el HDFS (Hadoop Distributed File System).
HDFS a su vez está basado en Google File System (GFS) creado en 2003
ya que en ese momento Google comprobó que los sistemas utilizados hasta entonces
para tratar con toda la información de que disponían no eran suficientes.
Necesitaban un sistema de ficheros distribuido, escalable, tolerante a fallos,
con un intensivo acceso a datos y alta concurrencia.
Se basa en el paradigma MapReduce, utilizado para paralelizar procesos en dos fases.
La fase de mapeo es donde se realiza el ‘escaneo’ o recogida de los datos de entrada
produciendo una lista de pares (clave, valor). Estos pares son agrupados por clave y
pasados a la función reduce que se encarga de procesarlos y generar un resultado agrupado de los mismos.
Como curiosidad diremos que Hadoop fue creado por Doug Cutting,
que lo nombró así por el elefante de juguete de su hijo.
¿Es Hadoop la solución definitiva para Big Data?
En el mundo del Big Data, uno de los desafíos a los que se enfrentan los frameworks
basados en Map-Reduce es que su concepción fue planteada para procesar grandes cantidades de datos,
no para un uso en tiempo real de la información.
Muchos Big Data vendors intentan paliar esta problemática con soluciones como Cloudera Impala, Hortonworks, etc.
Pero quizás la que por ahora parece que dará bastante guerra en este tema es: Apache Spark.
Apache Spark, es un proyecto Open Source, que está teniendo un gran auge en el mundo del big data,
ya que para resolver los problemas de MapReduce plantea una carga de los datos HDFS en memoria.
(Os suena esto de algo?).
¿Qué ofrece SAP en temas de Big Data?
SAP está expandiendo sus soluciones para Big Data ofreciendo integración con Hadoop e Apache Spark (entre otros)
en SAP HANA a través de la tecnología Smart Data Access.
Esta tecnología permite interactuar con grandes repositorios externos de información
sin tener que replicar esta información en SAP HANA gracias a sus “virtual tables”.
SDA (Smart Data Access) permite el acceso remoto a:
SAP HANA, SAP IQ, SAP ASE, SAP Event Stream Processor, SAP MaxDB, Teradata Database,
Microsoft SQL Server 2012, Oracle 12c, IBM DB2, Hadoop Hortonworks HDP 2.3, IBM Netezza Appliance.
En definitiva y sintetizando lo planteado por SAP, es aunar el procesamiento/Almacenamiento del Big Data,
pero en tiempo real gracias a SAP HANA.Pudiendo incorporar una capa analítica de BI como por ejemplo Lumira.