Big Data: Manejo de gran estructura de data Y Herramientas.

¿Qué es Big Data?

El Big Data es el análisis masivo de datos. Una cuantía de datos, tan sumamente grande, que las aplicaciones de software de procesamiento de datos que tradicionalmente se venían usando no son capaces de capturar, tratar y poner en valor en un tiempo razonable.

También se podría decir que el Big Data son conjuntos de datos de gran variedad, que se generan en grandes volúmenes y a una velocidad cada vez mayor.

¿Qué es Virtual Box?

VirtualBox es un software que simula una computadora real, lo que permite al usuario instalar, ejecutar y usar otros sistemas operativos como aplicaciones normales. Una computadora así en una computadora.

También se le conoce a VirtualBox como un código abierto de software para la virtualización de la x86 computación arquitectura. Actúa como un hipervisor, creando una VM (máquina virtual) donde el usuario puede ejecutar otro SO (sistema operativo).

¿Cuál es su función?

Este software tiene como función virtualizar sistemas operativos dentro de nuestro ordenador existente, creando lo que se conoce como máquina virtual. Un hipervisor de tipo 2 se diferencia con los de tipo 1 en que necesita un sistema operativo para funcionar, a diferencia de los de tipo 1 en los que el propio hipervisor funciona sobre el hardware, o máquina host.

¿Qué es Hadoop?

Hadoop es un framework que es utilizado para almacenar grandes cantidades de datos y permitir consultas sobre dichos datos, que se ofrecerán con un bajo tiempo de respuesta. Esto se consigue mediante la ejecución distribuida de código en múltiples nodos (máquinas), cada uno de los cuales se encarga de procesar una parte del trabajo a realizar.

Hadoop en Big Data

Hadoop es utilizado en Big Data para ofrecer capacidades de análisis de datos avanzadas. Entre sus usos más extendidos están:

Almacenar grandes cantidades de información de una manera estructurada o en su formato original para poder ser analizada y procesada posteriormente.
Realizar desarrollos y establecer entornos de prueba que permitan mejorar la eficiencia de los procesos y operaciones de las organizaciones, innovar, etc.
Analizar, descubrir y definir patrones de comportamiento mediante el procesamiento de las grandes cantidades de datos recibidos de los dispositivos IoT (“Internet of Things”), utilizando Hadoop como su repositorio de información.

¿Qué es Sqoop?

Sqoop es una herramienta para transferir datos entre bases de datos relacionales y Hadoop (HDFS). La herramienta utiliza MapReduce para realizas dichas operaciones, por lo que consigue aprovechar el entorno distribuido de nuestro cluster Hadoop obteniendo un rendimiento óptimo.

Tiene como objetivo ayudar en el intercambio eficiente de big data entre RDBMS y Hadoop. Con la ayuda de Sqoop, los usuarios pueden importar fácilmente datos de bases de datos relacionales a Hadoop y sus sistemas relacionados (como HBase y Hive); al mismo tiempo, también pueden extraer datos de los sistemas Hadoop y exportarlos a bases de datos relacionales.

Write a comment ...