Herramientas de usuario

Herramientas del sitio


wiki2:hadoop:ecosystem

¡Esta es una revisión vieja del documento!


Hadoop ecosystem

HDFS y YARN

Yarn se utiliza para subir datos al HDFS (el sistema de archivos de Hadoop), que es distribuido.

Ambari

Es un frontend web para administrar el cluster de Hadoop

Pig

Pig nos permite asignar un formato a los datos leídos y, con este, hacer operaciones sobre los datos. Puede utilizar varios gestores de ejecución como MapReduce o Tez (para executar en memoria, mucho más rápido).

Spark

Es un motor para ejecutar programas sobre un cluster Hadoop. Substituye al MapReduce que es únicamente para Java (a pesar de sus ports).

RDD es un objeto que internamente crea Spark para trabajar con datos.

wiki2/hadoop/ecosystem.1553949080.txt.gz · Última modificación: 2020/05/09 09:24 (editor externo)