Cristina Mateos Mayorga – ASIR 20/21
Clúster Datalake
Estudio de una posible creación de una empresa que tendrá un clúster Datalake y test realizados en diferentes tipos de Hadoop, todos ellos instalados en diferentes entornos Linux (CentOs, Ubuntu) en versiones gratuitas de diferentes tipos: Hadoop Apache; Hadoop Cloudera Sandbox; Hadoop Cloudera. Estudio de los diferentes servicios posibles que podemos encontrar en Hadoop, sobre todo en lo relacionado con seguridad: Ranger, Atlas, además de los propios permisos básicos de ficheros (HDFS vs POSIX vs RANGER). Ejemplo de clúster Datalake de Prod Real de una empresa.