Herramientas de usuario

Herramientas del sitio


wiki2:hadoop:ecosystem

Diferencias

Muestra las diferencias entre dos versiones de la página.

Enlace a la vista de comparación

Ambos lados, revisión anterior Revisión previa
Próxima revisión
Revisión previa
wiki2:hadoop:ecosystem [2019/05/08 11:56]
alfred [Apache Sqoop]
wiki2:hadoop:ecosystem [2020/05/09 09:25] (actual)
Línea 28: Línea 28:
 Se puede extender Hive con User Defined Functions. También puedes cargar datos con varias aplicaciones o formatos (avro, xml...). También se puede usar con Spark (Spark puede usar Hive para obtener datos). Se puede extender Hive con User Defined Functions. También puedes cargar datos con varias aplicaciones o formatos (avro, xml...). También se puede usar con Spark (Spark puede usar Hive para obtener datos).
  
 +**Avro** es un formato optimizado para cargar en clusters. Otro formato para Hadoop es el denominado **Parquet**,​ Apache Parquet is a columnar storage format available to any project in the Hadoop ecosystem, regardless of the choice of data processing framework, data model or programming language.
 ===== Formas de leer datos en real time ===== ===== Formas de leer datos en real time =====
  
Línea 92: Línea 93:
  
 The nice thing about Sqoop is that we can automatically load our relational data from MySQL into HDFS, while preserving the structure. The nice thing about Sqoop is that we can automatically load our relational data from MySQL into HDFS, while preserving the structure.
 +
 +Hive and Impala also allow you to create a schema for the HDFS files using ''​CREATE EXTERNAL TABLE''​ commands. However Sqoop does that authomatically. ​
 ===== Notes ===== ===== Notes =====
  
   * **Cloudbase** is a group of tools already pre-installed on a Linux distribution to make easier the use of Hadoop technologies.   * **Cloudbase** is a group of tools already pre-installed on a Linux distribution to make easier the use of Hadoop technologies.
   * {{ :​wiki2:​hadoop:​traditional_etl_vs_elt_on_hadoop.pdf |ETL and ELT}}   * {{ :​wiki2:​hadoop:​traditional_etl_vs_elt_on_hadoop.pdf |ETL and ELT}}
wiki2/hadoop/ecosystem.1557316612.txt.gz · Última modificación: 2020/05/09 09:24 (editor externo)