Hadoop ecosystem

HDFS y YARN

Yarn se utiliza para subir datos al HDFS (el sistema de archivos de Hadoop), que es distribuido.

Ambari

Es un frontend web para administrar el cluster de Hadoop

Pig

Pig nos permite asignar un formato a los datos leídos y, con este, hacer operaciones sobre los datos. Puede utilizar varios gestores de ejecución como MapReduce o Tez (para executar en memoria, mucho más rápido).

Spark

Es un motor para ejecutar programas sobre un cluster Hadoop. Substituye al MapReduce que es únicamente para Java (a pesar de sus ports).

RDD es un objeto que internamente crea Spark para trabajar con datos.

Programming

Herramientas de usuario

Herramientas del sitio

Tabla de Contenidos

Hadoop ecosystem

HDFS y YARN

Ambari

Pig

Spark

Herramientas de la página