Datuak Hartzea eta Big Data Prozesamendua: ETL, ELT eta Flume

Clasificado en Informática

Escrito el en vasco con un tamaño de 246,39 KB

Datuak Hartzea

Datuen Kudeaketa Zikloa

Datuen kudeaketa zikloak lau fase nagusi ditu:

  1. Datuak hartzea
  2. Datuak gordetzea
  3. Datuak tratatzea
  4. Balioa ematea

Zer da Datuak Hartzea?

Iturri desberdinetatik datozen datu bolumen handiak sistema batera inportatzeko prozesua da, ondoren tratatu eta aztertzeko helburuarekin.

Big Data Prozesamendua

Gure Big Data aplikazioaren ondorioz datu gordinak bildu eta datu aberastu bihurtzeko etapa da. Adibidez: Batch edo Streaming bidez.

1. Batch Prozesamendua

  • Batch eredua jarraitzen du.
  • Datu guztiak gorde egiten dira lehendabizi, eta gero tratatzen dira periodikoki eta datu-blokeetan.

2. Streaming Prozesamendua

  • Datuak denbora errealean (real-time) tratatzen dira.
  • Datuak jaso eta berehala prozesatzera transferitzen dira.

ETL (Extract, Transform & Load)

ETL datuak kudeatzeko prozesu klasikoa da:

  • Iturri heterogeneoetatik datuak erauzteko prozesua da, leku bakar batean formatu desberdinekin.
  • Datuak baliozkotu, garbitu eta beharrezko transformazioak aplikatzen zaizkie.
  • Azkenik, datuak datu-base bakarrean gordetzen dira (data lake edo data warehouse izenekin ere ezagutzen dena).

Hnv0EWzLgi0JJUkhCWU8HhcyyNVHEkqrFOW9VijZ3iKVbEtCyU09JKP60AhoBDQCGgGNgEbAPgj8DVkBXfgXfvZ0AAAAAElFTkSuQmCC

ELT (Extract, Load & Transform)

ELT datuak kudeatzeko ikuspegi modernoagoa da:

  • Iturri desberdinetako datuak jasotzen dira.
  • Transformaziorik aplikatu gabe zuzenean data lake-ean gordetzen dira.
  • Ondoren, datuei, beharraren arabera, transformazioak aplikatzen zaizkie.

31mxg+pfDKDuAAAAAElFTkSuQmCC

Datuak Hartzeko Tresnak

Datuak hartzeko tresna nagusiak:

  • Apache Flume
  • Apache NiFi
  • Apache Kafka
  • Elastic (Elasticsearch)

Apache Flume

Zer da Apache Flume?

Hainbat iturritatik datu-biltegi zentral batera datu-kopuru handiak modu eraginkorrean bildu, gehitu eta mugitzeko sistema da.

Ezaugarri nagusiak:

  • Hadoop-erako datuak biltzeko open source zerbitzua.
  • Sistema banatuekin bateragarria.
  • Banatua.
  • Eskalagarria.
  • Fidagarria.
  • Akatsen aurrean tolerantea.

Zein da bere motibazioa?

Apache Flume-ren hasierako arrazoia zerbitzariek eta sistemek sortutako log asko erabiltzea izan zen. Hala ere, oso azkar hedatu zen erabilera, beste datu-iturri batzuk sartzeko, hala nola sare-trafikoa, sare sozialak, posta elektronikoak eta sistema zentral batean bildu eta modu eraginkorrean biltegiratu beharreko ia edozein datu. Hadoop-ekin sinergia ona du.

Nola funtzionatzen du? Osagaiak

  1. Gertaera: Datu unitatea.
  2. Agentea: Kontainerra.
  3. Source (Iturria): Gertaeren hartzailea.
  4. Interceptor (Hartzailea): Gertaeren transformatzailea.
  5. Channel (Kanala): Gertaeren bufferra.
  6. Sink (Hustubidea): Gertaeren garraiolaria.

Osagaien xehetasunak

1. Gertaera (Datu unitatea)

Bi atal ditu:

  1. Headers (Map <string, string>): Goiburu propioak gehitu daitezke (hostname, timestamp, etab.).
  2. Payload (byte[]): Normalean txikia izaten da.
2. Agenteak

Hainbat sistema etengabe datuak sortzen dituztenak Gertaera eran. Sistema horiek ordenagailu desberdinetan egon daitezke, bakoitzak bere Agentearekin.

3. Interceptor (Hartzailea)

Gertaera ez-egokiak iragazten ditu. Gertaerei metadatuak gehitzen dizkie (timestamp, hostname, UUID, etab.).

ondLkICmAAAAAElFTkSuQmCC

Entradas relacionadas: