Big Data y Sistemas Distribuidos: Conceptos Clave y Tipos de Datos

Clasificado en Informática

Escrito el en español con un tamaño de 4,4 KB

Espiral del Conocimiento y la Era del Big Data

La espiral del conocimiento se compone de cuatro etapas:

  • Socialización
  • Externalización: Conversión de conocimiento implícito a explícito.
  • Internalización: Conversión de conocimiento explícito a implícito.
  • Combinación: Generación de nuevo conocimiento a partir del conocimiento existente.

Este proceso se relaciona con la jerarquía del conocimiento:

  • Datos
  • Información
  • Conocimiento
  • Sabiduría

En la actualidad, la cantidad de datos generados es inmensa. Se estima que 40 zettabytes equivalen a 57 veces el número de granos de arena en todas las playas del mundo.

¿Qué es el Big Data?

El Big Data se refiere al conjunto de tecnologías que permiten el análisis de un gran volumen de datos. Abarca las nuevas tecnologías que hacen posible el almacenamiento y procesamiento de estos datos, así como el uso que se hace de la información obtenida a través de dichas tecnologías.

Fuentes del Big Data

  • Producidos por personas: Correo electrónico, redes sociales, etc.
  • Entre máquinas (M2M): Comunicación machine to machine.
  • Biométricos: Sensores de huella dactilar, reconocimiento facial, etc.
  • Marketing web: Códigos para recopilar información sobre el comportamiento dentro de las páginas web.
  • Transacciones de datos: Transacciones bancarias, carritos de compra en línea, etc.

Tipos de Datos en el Contexto del Big Data

  • Estructurados: Se pueden almacenar en tablas con una clara definición de longitud y formato, como números, tablas y fechas.
  • No estructurados: Se almacenan en su forma original, sin un formato predefinido.
  • Semiestructurados: Poseen una cierta estructura, pero no lo suficientemente regular para ser gestionados como datos estructurados. Contienen patrones comunes que los describen y proporcionan información sobre sus relaciones. Un ejemplo es el formato HTML.

Sistemas Distribuidos: La Base del Procesamiento de Big Data

Un sistema distribuido se define como "A collection of independent computers that appear to the users of the system as a single computer" (Una colección de computadoras independientes que se presentan a los usuarios del sistema como una sola computadora).

Elementos de un Sistema Distribuido

  • Programas: Conjunto de instrucciones a ejecutar.
  • Procesos
  • Datos
  • Componentes: Software y hardware.
  • Redes de computadores: Permiten la comunicación entre los componentes.
  • Protocolos
  • Middleware: Software que soporta la ejecución distribuida.

Ventajas de los Sistemas Distribuidos

  • Compartir recursos.
  • Buena relación coste-rendimiento.
  • Capacidad de crecimiento.
  • Tolerancia a fallos.
  • Disponibilidad.
  • Replicación.
  • Distribución de la carga de trabajo.
  • Aumento de la concurrencia.

Tipos de Sistemas Distribuidos

  • Multiproceso Simétrico (SMP): Arquitectura de ordenadores en la que dos o más procesadores comparten una memoria central.
  • Sistemas Clúster y Supercomputadores: Centralizados, basados en la agrupación de computadores genéricos de forma económica y ampliable.
  • Grid Computing o Sistemas de Información Distribuidos: Se basan en agregar y compartir recursos en un ecosistema distribuido.
  • Cloud Computing u Omnipresentes: Ofrecen escalabilidad y recursos virtualizados de forma dinámica.

Diferencias entre Clúster y Nube

Un clúster se diferencia de la nube en que es un grupo de computadoras conectadas por una red de área local (LAN) estrechamente acoplado.

Ventajas del Big Data

  • Escalabilidad.
  • Rapidez.
  • Economía.
  • Código abierto (Open Source).
  • Base sólida para la toma de decisiones.

Entradas relacionadas: