Datuak Hartzea eta Big Data Prozesamendua: ETL, ELT eta Flume

Escrito el 15 de Octubre de 2025 en vasco con un tamaño de 246,39 KB

Datuak Hartzea

Datuen Kudeaketa Zikloa

Datuen kudeaketa zikloak lau fase nagusi ditu:

Datuak hartzea
Datuak gordetzea
Datuak tratatzea
Balioa ematea

Zer da Datuak Hartzea?

Iturri desberdinetatik datozen datu bolumen handiak sistema batera inportatzeko prozesua da, ondoren tratatu eta aztertzeko helburuarekin.

Big Data Prozesamendua

Gure Big Data aplikazioaren ondorioz datu gordinak bildu eta datu aberastu bihurtzeko etapa da. Adibidez: Batch edo Streaming bidez.

1. Batch Prozesamendua

Batch eredua jarraitzen du.
Datu guztiak gorde egiten dira lehendabizi, eta gero tratatzen dira periodikoki eta datu-blokeetan.

2. Streaming Prozesamendua

Datuak denbora errealean (real-time) tratatzen dira.
Datuak jaso eta berehala prozesatzera transferitzen dira.

ETL (Extract, Transform & Load)

ETL datuak kudeatzeko prozesu klasikoa da:

Iturri heterogeneoetatik datuak erauzteko prozesua da, leku bakar batean formatu desberdinekin.
Datuak baliozkotu, garbitu eta beharrezko transformazioak aplikatzen zaizkie.
Azkenik, datuak datu-base bakarrean gordetzen dira (data lake edo data warehouse izenekin ere ezagutzen dena).

Hnv0EWzLgi0JJUkhCWU8HhcyyNVHEkqrFOW9VijZ3iKVbEtCyU09JKP60AhoBDQCGgGNgEbAPgj8DVkBXfgXfvZ0AAAAAElFTkSuQmCC

ELT (Extract, Load & Transform)

ELT datuak kudeatzeko ikuspegi modernoagoa da:

Iturri desberdinetako datuak jasotzen dira.
Transformaziorik aplikatu gabe zuzenean data lake-ean gordetzen dira.
Ondoren, datuei, beharraren arabera, transformazioak aplikatzen zaizkie.

31mxg+pfDKDuAAAAAElFTkSuQmCC

Datuak Hartzeko Tresnak

Datuak hartzeko tresna nagusiak:

Apache Flume
Apache NiFi
Apache Kafka
Elastic (Elasticsearch)

Apache Flume

Zer da Apache Flume?

Hainbat iturritatik datu-biltegi zentral batera datu-kopuru handiak modu eraginkorrean bildu, gehitu eta mugitzeko sistema da.

Ezaugarri nagusiak:

Hadoop-erako datuak biltzeko open source zerbitzua.
Sistema banatuekin bateragarria.
Banatua.
Eskalagarria.
Fidagarria.
Akatsen aurrean tolerantea.

Zein da bere motibazioa?

Apache Flume-ren hasierako arrazoia zerbitzariek eta sistemek sortutako log asko erabiltzea izan zen. Hala ere, oso azkar hedatu zen erabilera, beste datu-iturri batzuk sartzeko, hala nola sare-trafikoa, sare sozialak, posta elektronikoak eta sistema zentral batean bildu eta modu eraginkorrean biltegiratu beharreko ia edozein datu. Hadoop-ekin sinergia ona du.

Nola funtzionatzen du? Osagaiak

Gertaera: Datu unitatea.
Agentea: Kontainerra.
Source (Iturria): Gertaeren hartzailea.
Interceptor (Hartzailea): Gertaeren transformatzailea.
Channel (Kanala): Gertaeren bufferra.
Sink (Hustubidea): Gertaeren garraiolaria.

Osagaien xehetasunak

1. Gertaera (Datu unitatea)

Bi atal ditu:

Headers (Map <string, string>): Goiburu propioak gehitu daitezke (hostname, timestamp, etab.).
Payload (byte[]): Normalean txikia izaten da.

2. Agenteak

Hainbat sistema etengabe datuak sortzen dituztenak Gertaera eran. Sistema horiek ordenagailu desberdinetan egon daitezke, bakoitzak bere Agentearekin.

3. Interceptor (Hartzailea)

Gertaera ez-egokiak iragazten ditu. Gertaerei metadatuak gehitzen dizkie (timestamp, hostname, UUID, etab.).

ondLkICmAAAAAElFTkSuQmCC

Entradas relacionadas:

Etiquetas: