QUÉ ES HADOOP
• Hadoop es una plataforma que nos permite
desarrollar aplicaciones que tengan que tratar
con grandes cantidades de datos, hasta
petabytes. Se trata de un subproyecto un
proyecto de Apache que desarrolla software
para realizar búsquedas. Hadoop es muy útil
cuando vamos a realizar proyectos que
necesiten
• Miembros del Proyecto Apache Hadoop
• Hadoop se inspiró en los documentos Google
MapReduce y Google File System (GFS).
• Hadoop es un proyecto de alto nivel Apache
que está siendo construido y usado por una
comunidad global de contribuidores,
mediante el lenguaje de programación Java.
Yahoo! ha sido el mayor contribuidor al
proyecto,[y usa Hadoop extensivamente en su
negocio
Facebook tiene más grande del
mundo clúster Hadoop!
• El cluster Hadoop en Facebook se ha
convertido en el mayor cluster Hadoop de
almacenamiento conocido en el mundo.
cluster: Éstos son algunos de los detalles
acerca de este grupo HDFS individuales:
• 21 PB de almacenamiento en un único HDFS
clúster 2000 machines 2000 máquinas 12 TB
per machine (a few machines have 24 TB
each) 12 TB por máquina (unas pocas
máquinas tienen 24 TB cada uno) 1200
machines with 8 cores each + 800 machines
with 16 cores each 1200 máquinas con 8
núcleos de cada una + 800 máquinas con 16
núcleos de cada 32 GB of RAM per machine
32 GB de RAM por máquina 15 map-reduce
tasks per machine 15 mapas reducir las tareas
por equipo
Empresas que utiliza Hadoop
A9.com Amazonas
Adobe
Adk
Capaz de uva - motor de búsqueda vertical
para la información vino de
confianzanowledge red de anuncios
Arquitectura
• Hadoop consiste básicamente en el Hadoop
Common, que proporciona acceso a los
sistemas de archivos soportados por Hadoop.
El paquete de software The Hadoop Common
contiene los archivos .jar y los scripts
necesarios para hacer correr Hadoop. El
paquete también proporciona código fuente,
documentación, y una sección de contribución
que incluye proyectos de la Comunidad
Hadoop.
• Una funcionalidad clave es que para la
programación efectiva de trabajo, cada
sistema de archivos debe conocer y
proporcionar su ubicación: el nombre del rack
(más precisamente, del switch) donde está el
nodo trabajador. Las aplicaciones Hadoop
pueden usar esta información para ejecutar
trabajo en el nodo donde están los datos y, en
su defecto, en el mismo rack/switch,
reduciendo así el tráfico de red troncal