¡Esta es una revisión vieja del documento!
Yarn se utiliza para subir datos al HDFS (el sistema de archivos de Hadoop), que es distribuido.
Es un frontend web para administrar el cluster de Hadoop
Pig nos permite asignar un formato a los datos leídos y, con este, hacer operaciones sobre los datos. Puede utilizar varios gestores de ejecución como MapReduce o Tez (para executar en memoria, mucho más rápido).
Es un motor para ejecutar programas sobre un cluster Hadoop. Substituye al MapReduce que es únicamente para Java (a pesar de sus ports).
RDD es un objeto que internamente crea Spark para trabajar con datos.