Datuak Hartzea eta Big Data Prozesamendua: ETL, ELT eta Flume
Clasificado en Informática
Escrito el en
vasco con un tamaño de 246,39 KB
Datuak Hartzea
Datuen Kudeaketa Zikloa
Datuen kudeaketa zikloak lau fase nagusi ditu:
- Datuak hartzea
- Datuak gordetzea
- Datuak tratatzea
- Balioa ematea
Zer da Datuak Hartzea?
Iturri desberdinetatik datozen datu bolumen handiak sistema batera inportatzeko prozesua da, ondoren tratatu eta aztertzeko helburuarekin.
Big Data Prozesamendua
Gure Big Data aplikazioaren ondorioz datu gordinak bildu eta datu aberastu bihurtzeko etapa da. Adibidez: Batch edo Streaming bidez.
1. Batch Prozesamendua
- Batch eredua jarraitzen du.
- Datu guztiak gorde egiten dira lehendabizi, eta gero tratatzen dira periodikoki eta datu-blokeetan.
2. Streaming Prozesamendua
- Datuak denbora errealean (real-time) tratatzen dira.
- Datuak jaso eta berehala prozesatzera transferitzen dira.
ETL (Extract, Transform & Load)
ETL datuak kudeatzeko prozesu klasikoa da:
- Iturri heterogeneoetatik datuak erauzteko prozesua da, leku bakar batean formatu desberdinekin.
- Datuak baliozkotu, garbitu eta beharrezko transformazioak aplikatzen zaizkie.
- Azkenik, datuak datu-base bakarrean gordetzen dira (data lake edo data warehouse izenekin ere ezagutzen dena).
ELT (Extract, Load & Transform)
ELT datuak kudeatzeko ikuspegi modernoagoa da:
- Iturri desberdinetako datuak jasotzen dira.
- Transformaziorik aplikatu gabe zuzenean data lake-ean gordetzen dira.
- Ondoren, datuei, beharraren arabera, transformazioak aplikatzen zaizkie.
Datuak Hartzeko Tresnak
Datuak hartzeko tresna nagusiak:
- Apache Flume
- Apache NiFi
- Apache Kafka
- Elastic (Elasticsearch)
Apache Flume
Zer da Apache Flume?
Hainbat iturritatik datu-biltegi zentral batera datu-kopuru handiak modu eraginkorrean bildu, gehitu eta mugitzeko sistema da.
Ezaugarri nagusiak:
- Hadoop-erako datuak biltzeko open source zerbitzua.
- Sistema banatuekin bateragarria.
- Banatua.
- Eskalagarria.
- Fidagarria.
- Akatsen aurrean tolerantea.
Zein da bere motibazioa?
Apache Flume-ren hasierako arrazoia zerbitzariek eta sistemek sortutako log asko erabiltzea izan zen. Hala ere, oso azkar hedatu zen erabilera, beste datu-iturri batzuk sartzeko, hala nola sare-trafikoa, sare sozialak, posta elektronikoak eta sistema zentral batean bildu eta modu eraginkorrean biltegiratu beharreko ia edozein datu. Hadoop-ekin sinergia ona du.
Nola funtzionatzen du? Osagaiak
- Gertaera: Datu unitatea.
- Agentea: Kontainerra.
- Source (Iturria): Gertaeren hartzailea.
- Interceptor (Hartzailea): Gertaeren transformatzailea.
- Channel (Kanala): Gertaeren bufferra.
- Sink (Hustubidea): Gertaeren garraiolaria.
Osagaien xehetasunak
1. Gertaera (Datu unitatea)
Bi atal ditu:
- Headers (Map <string, string>): Goiburu propioak gehitu daitezke (hostname, timestamp, etab.).
- Payload (byte[]): Normalean txikia izaten da.
2. Agenteak
Hainbat sistema etengabe datuak sortzen dituztenak Gertaera eran. Sistema horiek ordenagailu desberdinetan egon daitezke, bakoitzak bere Agentearekin.
3. Interceptor (Hartzailea)
Gertaera ez-egokiak iragazten ditu. Gertaerei metadatuak gehitzen dizkie (timestamp, hostname, UUID, etab.).