Hadoop, la plataforma que lidera big data

Ver el tema anterior Ver el tema siguiente Ir abajo

Hadoop, la plataforma que lidera big data

Mensaje por wilson_reas el Sáb Abr 16, 2016 11:31 pm

Hadoop, la plataforma que lidera big data




Big data ha pasado en poco tiempo de ser una tecnología innovadora a convertirse en un mercado y, ahora, a transformarse en una industria. El sistema más utilizado en esta industria para ofrecer capacidades analíticas avanzadas es Hadoop, un software de código abierto, cuyo desarrollo coordina la Apache Foundation, que facilita el almacenamiento de información y permite hacer consultas complejas sobre las bases de datos existentes, resolviéndolas con rapidez.
El origen de Hadoop se remonta a 2004, cuando el ingeniero de software Doug Cutting, que por aquel entonces trabajaba en Google, describe en un documento técnicas para manejar grandes volúmenes de datos, desgranándolos en problemas cada vez más pequeños para hacerlos abordables. Poco después se marchó a Yahoo y allí siguió investigando hasta completar el desarrollo de la plataforma en 2008. El propio buscador utilizaría la tecnología para su negocio, así como otras grandes compañías de Internet, como Facebook, Twitter o eBay.

La procedencia del nombre es mucho menos técnica de lo que se podía esperar. El hijo de tres años de Cutting llamaba a su peluche Hadoop y así bautizó su inventor a la plataforma, que también tomaría de ahí su logo, un elefante amarillo.



¿Que es?

Apache Hadoop es un framework abierto pensado para almacenar y tratar grandes volúmenes de datos, basándose en el proceso paralelo (distribuido). Inicialmente para responder a las necesidades de los grandes buscadores y redes sociales, que requieren a la vez buenos tiempos de respuesta y tolerancia a fallos.

Como repositorio de datos distribuido, a nivel técnico conviene recordar el teorema CAP. Nos indica que en un sistema distribuido no podemos conseguir simultáneamente las tres características siguientes:


  • Consistencia (todos los nodos comparten la misma información simultáneamente).
  • Disponibilidad (la petición a un nodo siempre obtiene respuesta sobre si se ha resuelto o no satisfactoriamente).
  • Tolerancia a particiones (el sistema funciona aunque falle una parte de la conectividad entre nodos).



¿Como funciona?

La plataforma de código abierto dispone de un sistema para almacenar información en el que ésta se replica en varias máquinas, distribuyéndose de tal manera que si una máquina se cae no se pierdan los datos. Si es necesario añadir más información se añaden más servidores sin que haya problemas de compatibilidad o reorganización de los datos.
Componentes


Hadoop está inspirado en el proyecto de Google File System(GFS) y en el paradigma de programación MapReduce, el cual consiste en dividir en dos tareas (mapper – reducer) para manipular los datos distribuidos a nodos de un clúster logrando un alto paralelismo en el procesamiento. Hadoop está compuesto de tres piezas: Hadoop Distributed File System (HDFS), Hadoop MapReduce y Hadoop Common.

Hadoop Distributed File System(HDFS)

Los datos en el clúster de Hadoop son divididos en pequeñas piezas llamadas bloques y distribuidas a través del clúster; de esta manera, las funciones map y reduce pueden ser ejecutadas en pequeños subconjuntos y esto provee de la escalabilidad necesaria para el procesamiento de grandes volúmenes.

Ejemplo de HDFS



Hadoop MapReduce

MapReduce es el núcleo de Hadoop. El término MapReduce en realidad se refiere a dos procesos separados que Hadoop ejecuta. El primer proceso map, el cual toma un conjunto de datos y lo convierte en otro conjunto, donde los elementos individuales son separados en tuplas (pares de llave/valor). El proceso reduce obtiene la salida de map como datos de entrada y combina las tuplas en un conjunto más pequeño de las mismas. Una fase intermedia es la denominada Shuffle la cual obtiene las tuplas del proceso map y determina que nodo procesará estos datos dirigiendo la salida a una tarea reduce en específico.

Ejemplo de MapReduce



Hadoop Common

Hadoop Common Components son un conjunto de librerías que soportan varios subproyectos de Hadoop.

Además de estos tres componentes principales de Hadoop, existen otros proyectos relacionados:

Avro

Es un proyecto de Apache que provee servicios de serialización. Cuando se guardan datos en un archivo, el esquema que define ese archivo es guardado dentro del mismo; de este modo es más sencillo para cualquier aplicación leerlo posteriormente puesto que el esquema esta definido dentro del archivo.

Cassandra

Cassandra es una base de datos no relacional distribuida y basada en un modelo de almacenamiento de , desarrollada en Java. Permite grandes volúmenes de datos en forma distribuida. Twitter es una de las empresas que utiliza Cassandra dentro de su plataforma.
Chukwa
Diseñado para la colección y análisis a gran escala de "logs". Incluye un toolkit para desplegar los resultados del análisis y monitoreo.
Flume
Tal como su nombre lo indica, su tarea principal es dirigir los datos de una fuente hacia alguna otra localidad, en este caso hacia el ambiente de Hadoop. Existen tres entidades principales: sources, decorators y sinks. Un source es básicamente cualquier fuente de datos, sink es el destino de una operación en específico y un decorator es una operación dentro del flujo de datos que transforma esa información de alguna manera, como por ejemplo comprimir o descomprimir los datos o alguna otra operación en particular sobre los mismos.

HBase

Es una base de datos columnar (column-oriented database) que se ejecuta en HDFS. HBase no soporta SQL, de hecho, HBase no es una base de datos relacional. Cada tabla contiene filas y columnas como una base de datos relacional. HBase permite que muchos atributos sean agrupados llamándolos familias de columnas, de tal manera que los elementos de una familia de columnas son almacenados en un solo conjunto. Eso es distinto a las bases de datos relacionales orientadas a filas, donde todas las columnas de una fila dada son almacenadas en conjunto. Facebook utiliza HBase en su plataforma desde Noviembre del 2010.
Referencias



wilson_reas

Mensajes : 3
Fecha de inscripción : 11/02/2016

Ver perfil de usuario

Volver arriba Ir abajo

Re: Hadoop, la plataforma que lidera big data

Mensaje por Iris Luna Maidana el Dom Abr 17, 2016 9:18 am

5 ventajas de la arquitectura de Hadoop


Los puntos fuertes de la arquitectura de Hadoop

La arquitectura de Hadoop permite llevar a cabo un análisis eficaz de grandes datos no estructurados, añadiéndoles un valor que puede ayudar a tomar decisiones estratégicas, a mejorar los procesos de producción, ahorrar costes, hacer un seguimiento de lo que opina la clientela o a extraer conclusiones científicas, pongamos por caso.

Lo hacen posible su tecnología escalable, su velocidad (no en tiempo real, al menos no sin ayuda, como la que proporciona Spark), flexibilidad, entre otros puntos fuertes. Si tenemos que señalar sus cinco principales ventajas, serían las siguientes:

Tecnología altamente escalable: Un clúster de Hadoop puede crecer simplemente añadiendo nuevos nodos. No es necesario hacer ajustes que modifiquen la estructura incicial. Por lo tanto, nos permite un crecimiento fácil, sin estar atados a las características iniciales del diseño, haciendo uso de decenas de servidores de abajo costo que, a diferencia de la base de datos relacional, no puede escalar. Gracias al procesamiento distribuido de MapReduce, los archivos se dividen en bloques de forma sencilla.

Almacenamiento a bajo costo: La informacion no se almacena de forma predefinida, en filas y columnas, como ocurre con las bases de datos tradicionales, sino que Hadoop asigna datos categorizados a través de miles de computadoras baratas, y ello supone un gran ahorro. Sólo así se convierte en factible. De otro modo, no podríamos trabajar con grandes volúmenes de datos, pues el costo sería altísimo, inasumible para la gran mayoría de las empresas.

Flexibilidad:
Al incrementar el número de nodos del sistema también ganamos en capacidad de almacenamiento y procesamiento. A su vez, es posible agregar o acceder a nuevas ydiferentes fuentes de datos (estructurados, semiestructurados y no estructurados), al tiempo que existe la posibilidad de adaptar herramientas accesorias que funcionan en el entorno Hadoop y ayudan en el diseño de procesos, la integración o mejorar otros aspectos.

Velocidad: De poco nos servirán su bajo coste, escalabilidad y flexibilidad si el resultado no es razonablemente rápido. Afortunadamente, Hadoop también permite ejecutar procesamientos y realizar análisis muy rápidos.

Tolerante a fallos: Hadoop es una tecnología que facilita almacenar grandes volúmenes de información, lo que a su vez permite recuperar datos de forma segura. Si un equipo se cae, siempre hay otra copia disponible, con lo que es posible la recuperación de datos en caso de producirse fallos.
bibliografia:
[Tienes que estar registrado y conectado para ver este vínculo]

Iris Luna Maidana

Mensajes : 10
Fecha de inscripción : 02/02/2016

Ver perfil de usuario

Volver arriba Ir abajo

Re: Hadoop, la plataforma que lidera big data

Mensaje por Valeria_Mercado el Dom Abr 17, 2016 12:45 pm

¿Cuáles son los retos de usar Hadoop?





* Hay una brecha de talento ampliamente reconocida.

Puede ser difícil encontrar programadores de nivel de entrada que tienen suficientes conocimientos de Java para ser productivos con MapReduce. Esa es una razón por proveedores de distribución están en una carrera para poner la tecnología relacional (SQL) en la parte superior de Hadoop. Es mucho más fácil encontrar programadores con conocimientos de SQL que las habilidades de MapReduce. Y, la administración de Hadoop parece en parte arte y en parte ciencia, que requieren conocimientos de bajo nivel de los sistemas operativos, hardware y la configuración del kernel de Hadoop.


* Los datos de seguridad. 
Otro desafío se centra en los problemas de seguridad de los datos fragmentados, aunque las nuevas herramientas y tecnologías están surgiendo. El protocolo de autenticación Kerberos es un gran paso hacia la fabricación de entornos Hadoop seguro.


* La gestión de datos de pleno derecho y la gobernabilidad.

Hadoop no tiene un fácil-manejo, ni herramientas con características completas para la gestión de datos, limpieza de datos, metadatos y la gobernabilidad. Su especial carencia son herramientas para la calidad de los datos y la normalización.


La construcción de un motor de recomendación en Hadoop



Uno de los usos más populares de análisis de algunos de los adoptadores más grandes de Hadoop es para sistemas de recomendación basados ​​en la web. Facebook - las personas que tal vez conozcas. LinkedIn -. Puestos de trabajo que podría estar interesado en Netflix, eBay, Hulu - elementos que pueden desear. Estos sistemas analizan enormes cantidades de datos en tiempo real para predecir rápidamente preferencias antes de los clientes salen de la página web.

Cómo: Un sistema de recomendación puede generar un perfil de usuario explícitamente (mediante la consulta del usuario) e implícitamente (observando el comportamiento del usuario) - a continuación, se compara este perfil para hacer referencia a características (observaciones de toda una comunidad de usuarios) para proporcionar recomendaciones pertinentes. SAS proporciona una serie de técnicas y algoritmos para la creación de un sistema de recomendación, que van desde las medidas básicas de distancia a la matriz factorización y filtrado de colaboración - todos los cuales se puede hacer dentro de Hadoop.





Nota curiosa:
"Hadoop" era el nombre de un elefante de juguete de color amarillo propiedad del hijo de uno de sus inventores.


fuente:
[Tienes que estar registrado y conectado para ver este vínculo]

Valeria_Mercado

Mensajes : 7
Fecha de inscripción : 04/02/2016

Ver perfil de usuario

Volver arriba Ir abajo

Big Data Hadoop

Mensaje por angel rojas el Dom Abr 17, 2016 5:25 pm

Big Data Hadoop

Hadoop Sistema de archivos se ha desarrollado utilizando diseño de sistema de archivos distribuidos. Se ejecuta en hardware de productos básicos. A diferencia de otros sistemas distribuidos, HDFS es muy tolerantes y diseñado utilizando hardware de bajo coste.

HDFS tiene gran cantidad de datos y proporciona un acceso más fácil. Para almacenar estos datos de gran tamaño, los archivos se almacenan en varias máquinas. Estos archivos se almacenan en forma redundante para rescatar el sistema de posibles pérdidas de datos en caso de fallo. HDFS también permite que las aplicaciones de procesamiento en paralelo.
Características de los HDFS

   Es adecuado para el almacenamiento y procesamiento distribuido.
   Hadoop proporciona una interfaz de comandos para interactuar con HDFS.
   Los servidores de namenode datanode y ayudar a los usuarios a comprobar fácilmente el estado del clúster.
   Streaming el acceso a los datos del sistema de ficheros.
   HDFS proporciona permisos de archivo y la autenticación.

¿Qué otras características nos trae hadoop 2?

Hadoop 2 también incluye nuevas características diseñadas para mejorar la escalabilidad y la disponibilidad del sistema. Por ejemplo, introdujeron un Hadoop Distributed File System (HDFS) de alta disponibilidad (HA), rasgo que aporta una nueva arquitectura NameNode a Hadoop. Anteriormente, Hadoop clusters tenían un NameNode que mantenía un árbol de directorios de archivos HDFS y seguimiento donde se almacenan los datos en un cluster. El esquema de alta disponibilidad de Hadoop 2 permite a los usuarios configurar los cluster con NameNodes redundante, quitando la posibilidad de que un solitario NameNode se convierta en un punto único de fallo (SPoF) dentro de un cluster. Mientras tanto, una nueva capacidad de Federación HDFS permite construir clusters horizontalmente con múltiples NameNodes que trabajan de forma independiente, pero comparten una base común de almacenamiento de datos, ofreciendo mejor escala de cálculos en comparación con Apache Hadoop 1.x.

¿Qué novedades tenemos frente a la seguridad Big Data?

Hadoop 2 también añadió soporte para Microsoft Windows y una capacidad de copia instantánea que hace copias de sólo lectura point-in-time de un sistema de archivos disponibles para datos backup y recuperación ante desastres (DR). Además, la revisión ofrece gran compatibilidad binaria con las aplicaciones existentes de MapReduce construido para las versiones 1.x Hadoop.

Bibliografia:
[Tienes que estar registrado y conectado para ver este vínculo]

angel rojas

Mensajes : 7
Fecha de inscripción : 04/02/2016

Ver perfil de usuario

Volver arriba Ir abajo

Re: Hadoop, la plataforma que lidera big data

Mensaje por Henry Quispe Acarapi el Dom Abr 17, 2016 9:30 pm

El Escosistema de Hadoop


En Hadoop tenemos un ecosistema muy diverso, que crece día tras día, por lo que es difícil saber de todos los proyectos que interactúan con Hadoop de alguna forma. A continuación sólo mostraremos los más comunes.
   


Chukwa

Chukwa es un sistema de captura de datos y framework de análisis que trabaja con Hadoop para procesar y analizar grandes volúmenes de logs. Incluye herramientas para mostrar y monitorizar los datos capturados.


Apache Flume

Apache Flume es un sistema distribuido para capturar de forma eficiente, agregar y mover grandes cuantidades de datos log de diferentes orígenes (diferentes servidores) a un repositorio central, simplificando el proceso de recolectar estos datos para almacenarlos en Hadoop y poder analizarlos. Flume y Chukwa son proyectos parecidos, la principal diferencia es que Chukwa está pensado para ser usado en Batch.


Henry Quispe Acarapi

Mensajes : 10
Fecha de inscripción : 04/02/2016

Ver perfil de usuario

Volver arriba Ir abajo

Hadoop versus los sistemas de gestión de bases de datos relacionales

Mensaje por behimar alvarado el Lun Abr 18, 2016 2:32 am

Hadoop versus los sistemas de gestión de bases de datos relacionales



Se suele asociar el marco de trabajo de datos de código abierto Hadoop al manejo de inmensas cantidades de datos. Y es lógico: el sistema de almacenamiento de Hadoop lo utilizan, por ejemplo, empresas como Facebook y Yahoo!, usuarias intensivas de información. De hecho, Yahoo! no solo fue uno de las primeras en adoptarlo sino que contribuye activamente a esta plataforma y ha implementado una red Hadoop de 50.000 nodos. Asimismo, Facebook cuenta con un sistema Hadoop con más de 10.000 nodos. En definitiva, si una empresa precisa manejar grandes cantidades de datos, Hadoop puede ser su salvación.

No obstante, Arun Murthy, vicepresidente de Apache Hadoop en la Apache Software Foundation y arquitecto de la empresa Hortonworks, pinta una imagen diferente de Hadoop y su uso en la empresa. Para Murthy, el uso de Hadoop va más allá de las grandes cantidades de datos. Una de las mayores fortalezas de Hadoop en su capacidad para escalar y Yahoo! y Facebook son buenos ejemplos de este aspecto. No obstante, se suele hablar poco acerca de cómo esta plataforma puede ayudar a conseguir datos analíticos para la toma de decisiones en empresas de cualquier tamaño.
Todos los datos son iguales

El almacenamiento de datos solía ser caro en el pasado reciente. Hace sólo cinco años, las pymes y grandes empresas se encontraron con que tenían que conservar y mantener una cantidad explosiva de conjuntos de datos: correos electrónicos, resultados de búsquedas, datos de ventas, inventarios, datos de clientes, click-throughs en páginas web… todo esto y más cada vez en mayores cantidades. Y tratar de manejarlo en un sistema de gestión de bases de datos relacional (o RDBMS, en sus siglas en inglés) resultaba una propuesta demasiado cara. Con la llegada de todos estos eventos, cualquier organización que tratase de mantener la gestión de datos en buenas condiciones y los costes a raya trataría de tomar muestras para crear subconjuntos de datos más pequeños. Esta muestra reducida de datos históricos se clasificaría de forma automática según ciertas suposiciones. Y la primera de ellas sería que algunos de esos datos siempre serán más importantes que el resto.

Por ejemplo, las prioridades para los datos de e-commerce podrían basarse en la (razonable) suposición de que los datos de tarjetas de crédito serían más importantes que los de producto, que a su vez serían más importantes que los datos de click-through.

Si se trata de desarrollar un modelo de negocio basado en un conjunto de suposiciones, no sería difícil extraer información para poder tomar decisiones empresariales. Pero la información siempre estaría basada en esas suposiciones, ¿qué ocurriría entonces si estuviesen fuesen equivocadas?

Como se redujo la muestra de datos, cualquier nuevo escenario empresarial tendría que utilizar esos mismos conjuntos de datos, los datos originales se habrían perdido para siempre. Y debido al alto coste de un sistema de almacenamiento basado en RDBMS, a menudo esos datos quedarían aislados dentro de la organización. Ventas tendría sus propios datos, Marketing los suyos, Contabilidad los suyos, etc. Y por ello las decisiones se limitarían a cada parte de la organización y no a la totalidad. Con Hadoop no se realiza ningún tipo de supuesto, porque se conservan todos los datos”.

Éste quizá sea el mayor beneficio de Hadoop, aunque a menudo quede escondido en el fondo, escondido tras la idea de los reducidos costes financieros de esta tecnología. “La reducción de muestras obliga a suponer qué parte de los datos será mayor y más importante que el resto –explica Murthy–. En Hadoop, todos los datos tienen el mismo valor”.

Puesto que todos los datos son iguales, y están igualmente disponibles, en cualquier momento se pueden desarrollar distintos escenarios empresariales, sin limitación y utilizando siempre los datos originales. Es más, los datos que antes quedaban aislados ahora pueden accederse y compartirse para analizar las actividades de la organización de una forma más global.

La diferencia en cómo se perciben los datos es enorme, porque ahora ya no hay nada parecido a los datos históricos. Es más, puesto que los datos se almacenan tal cual, muchos de los costes operativos en la gestión de los datos, asociados con cosas como extraer, transformar y cargar operaciones, se reducirán sensiblemente.

No se puede evitar el hecho de que el beneficio más comentado de Hadoop probablemente sea su menor coste. Puesto que todo el framework es open source bajo la licencia de software de Apache no existen costes de licencia por el software base.
Cuando no utilizar

No obstante, a pesar de las potenciales ventajas de implementar Hadoop, existen algunas limitaciones que la organización debería tener en mente antes de dar el salto. En primer lugar, si la empresa genera informes interactivos secundarios a partir de sus datos o los utiliza en transacciones complejas en múltiples pasos, una solución RDBMS podía seguir siendo la mejor apuesta, ya que Hadoop no es especialmente fuerte en estas áreas. Si los datos de la organización se actualizan y cambian a través de inserciones y eliminaciones, ésta es otra razón para mantenerse alejado de Hadoop.

Cloudera, un proveedor comercial de Hadoop que cuenta con Doug Cutting, uno de los inventores del framework, utiliza un modelo abierto del core, por lo que el software base de Hadoop es gratuito, pero las extensiones de Cloudera están sujetas a licencia. Hortonworks, que Murthy fundó junto con otros miembros del equipo Hadoop de Yahoo! a principios de 2011, mantiene todo el software gratuito y de código abierto y genera beneficios a través de sus programas de formación y soporte.

Por otro lado, otra fuente adicional de ahorro es que a diferencia de RDBMS Hadoop no requiere un hardware costoso ni procesadores de gama alta. Cualquier servidor convencional enganchado a la red Hadoop funcionará correctamente. Esto significa que un nodo Hadoop sólo necesita un procesador, una tarjeta y unos cuantos discos duros, con un coste total de unos 3.000 euros, mientras que un sistema RDBMS puede costar entre 8.000 y 11.000 euros por terabyte. Esta diferencia tan sustancial explica por qué Hadoop está en boca de todos, probablemente de forma merecida.

behimar alvarado

Mensajes : 3
Fecha de inscripción : 02/02/2016

Ver perfil de usuario

Volver arriba Ir abajo

Re: Hadoop, la plataforma que lidera big data

Mensaje por yvory_saavedra el Sáb Abr 30, 2016 5:35 pm

MAS SOBRE HADOOP




• PIG - una plataforma para la manipulación de los datos almacenados en HDFS que incluye un compilador para programas de MapReduce y un lenguaje de alto nivel llamado latín de cerdo. Proporciona una forma de realizar extracciones de datos, transformaciones y de carga, y el análisis básico sin tener que escribir programas MapReduce.

• HIVE - un almacenamiento de datos y lenguaje de consulta SQL-como que presenta los datos en forma de tablas. programación Colmena es similar a la programación de la base de datos. (Fue desarrollado inicialmente por Facebook).

• HBase - una base de datos relacional distribuida que se ejecuta en la parte superior de Hadoop. tablas HBase pueden servir como entrada y salida para los trabajos de
MapReduce.

• HCatalog - una capa de gestión de la tabla y el almacenamiento de datos que ayuda a los usuarios compartir y acceder.

• Ambari - una interfaz web para administrar, configurar y probar los servicios de Hadoop y componentes.

• Cassandra - Un sistema de base de datos distribuida.

• Chukwa - un sistema de recogida de datos para el seguimiento de grandes sistemas distribuidos.
Aforador - software que recoge, agregados y mueve grandes cantidades de transmisión de datos en HDFS.

• Oozie - un planificador de tareas de Hadoop.

• Sqoop - un mecanismo de conexión y transferencia de datos que se mueve entre Hadoop y bases de datos relacionales.

• Spark - un marco de clúster informática de código abierto con el análisis en memoria.

• Solr - una escalable herramienta de búsqueda que incluye la indexación, la fiabilidad, la configuración central, la conmutación por error y recuperación.

• Zookeeper - una aplicación que coordina los procesos distribuidos.


yvory_saavedra

Mensajes : 12
Fecha de inscripción : 02/02/2016

Ver perfil de usuario

Volver arriba Ir abajo

Re: Hadoop, la plataforma que lidera big data

Mensaje por Contenido patrocinado


Contenido patrocinado


Volver arriba Ir abajo

Ver el tema anterior Ver el tema siguiente Volver arriba

- Temas similares

 
Permisos de este foro:
No puedes responder a temas en este foro.