Kas ir Datu ezers? Tā ir arhitektūra

Kas ir Datu ezers?

Datu ezers ir krātuves krātuve, kurā var uzglabāt lielu daudzumu strukturētu, daļēji strukturētu un nestrukturētu datu. Tā ir vieta, kur glabāt visu veidu datus savā dzimtajā formātā, neierobežojot konta lielumu vai failu. Tas piedāvā lielu datu daudzumu, lai palielinātu analītisko veiktspēju un vietējo integrāciju.

Datu ezers ir kā liels konteiners, kas ir ļoti līdzīgs īstam ezeram un upēm. Tāpat kā ezerā, kurā ieplūst vairākas pietekas, datu ezerā ir strukturēti dati, nestrukturēti dati, mašīna no mašīnas, apaļkoki, kas plūst reāllaikā.

Datu ezers demokratizē datus un ir rentabls veids, kā saglabāt visus organizācijas datus vēlākai apstrādei. Pētniecības analītiķis var koncentrēties uz nozīmes modeļu atrašanu datos, nevis pašos datos.

Atšķirībā no hierarhiskas datu programmatūras nama, kurā dati tiek glabāti failos un mapēs, datu ezeram ir plakana arhitektūra. Katram datu ezera datu elementam tiek piešķirts unikāls identifikators un marķēts ar metadatu informācijas kopu.

Šajā apmācībā jūs uzzināsit-

Kāpēc Data Lake?

Datu ezera izveides galvenais mērķis ir datu zinātniekiem piedāvāt nerafinētu datu skatu.

Datu ezera izmantošanas iemesli ir šādi:

  • Sākoties tādiem uzglabāšanas dzinējiem kā Hadoop, ir kļuvis viegli saglabāt atšķirīgu informāciju. Nav nepieciešams modelēt datus uzņēmuma mēroga shēmā ar Data Lake.
  • Palielinoties datu apjomam, datu kvalitātei un metadatiem, uzlabojas arī analīžu kvalitāte.
  • Datu ezers piedāvā biznesa veiklību
  • Mašīnmācību un mākslīgo intelektu var izmantot, lai prognozētu peļņu.
  • Tā piedāvā konkurences priekšrocības īstenotājai organizācijai.
  • Nav datu tvertnes struktūras. Datu ezers sniedz 360 grādu skatu uz klientiem un padara analīzi stabilāku.

Datu ezera arhitektūra

Attēlā parādīta biznesa datu ezera arhitektūra. Zemākie līmeņi attēlo datus, kas pārsvarā atrodas miera stāvoklī, bet augšējie-reāllaika darījumu datus. Šie dati plūst caur sistēmu bez kavēšanās vai ar nelielu aizkavēšanos. Tālāk ir norādīti svarīgi datu ezera arhitektūras līmeņi:

  1. Norīšanas līmenis : Līmeņi kreisajā pusē attēlo datu avotus. Datus varētu ievietot datu ezerā partijās vai reāllaikā
  2. Ieskatu līmenis: Labajā pusē esošie līmeņi attēlo pētniecības pusi, kurā tiek izmantoti sistēmas ieskati. Datu analīzei var izmantot SQL, NoSQL vaicājumus vai pat Excel.
  3. HDFS ir rentabls risinājums gan strukturētiem, gan nestrukturētiem datiem. Tā ir nosēšanās zona visiem datiem, kas atrodas sistēmas miera stāvoklī.
  4. Destilācijas līmenis ņem datus no uzglabāšanas riepas un pārvērš tos strukturētos datos, lai atvieglotu analīzi.
  5. Apstrādes līmenis palaist analītiskos algoritmus un lietotāju vaicājumus ar dažādiem reāllaika, interaktīviem, sērijveida datiem, lai ģenerētu strukturētus datus vieglākai analīzei.
  6. Vienots operāciju līmenis regulē sistēmas pārvaldību un uzraudzību. Tas ietver revīziju un prasmju pārvaldību, datu pārvaldību, darbplūsmas pārvaldību.

Galvenie datu ezera jēdzieni

Tālāk ir sniegti galvenie Datu ezera jēdzieni, kas jāsaprot, lai pilnībā izprastu Datu ezera arhitektūru

Datu ievadīšana

Datu ievadīšana ļauj savienotājiem iegūt datus no dažādiem datu avotiem un ielādēt datu ezerā.

Datu ievade atbalsta:

  • Visu veidu strukturēti, daļēji strukturēti un nestrukturēti dati.
  • Vairākas norīšanas, piemēram, sērijveida, reāllaika, vienreizēja ielāde.
  • Daudzu veidu datu avoti, piemēram, datu bāzes, tīmekļa serveri, e -pasti, IoT un FTP.

Datu uzglabāšana

Datu glabāšanai jābūt mērogojamai, tā piedāvā rentablu uzglabāšanu un ļauj ātri piekļūt datu izpētei. Tam jāatbalsta dažādi datu formāti.

Datu pārvaldība

Datu pārvaldība ir process, lai pārvaldītu organizācijā izmantoto datu pieejamību, lietojamību, drošību un integritāti.

Drošība

Drošība ir jāievieš katrā Datu ezera slānī. Tas sākas ar uzglabāšanu, atrašanu un patēriņu. Pamatvajadzība ir apturēt piekļuvi neatļautiem lietotājiem. Tam vajadzētu atbalstīt dažādus rīkus, lai piekļūtu datiem, izmantojot viegli orientējamu GUI un informācijas paneļus.

Autentifikācija, uzskaite, autorizācija un datu aizsardzība ir dažas svarīgas datu ezera drošības iezīmes.

Datu kvalitāte:

Datu kvalitāte ir būtiska Data Lake arhitektūras sastāvdaļa. Dati tiek izmantoti, lai precīzi noteiktu uzņēmuma vērtību. Ieskatu iegūšana no sliktas kvalitātes datiem radīs sliktas kvalitātes ieskatus.

Datu atklāšana

Datu atklāšana ir vēl viens svarīgs posms pirms datu vai analīzes sagatavošanas. Šajā posmā tiek izmantota marķēšanas tehnika, lai izteiktu datu izpratni, organizējot un interpretējot Datu ezerā uzņemtos datus.

Datu audits

Divi galvenie datu revīzijas uzdevumi ir izsekot izmaiņām galvenajā datu kopā.

  1. Izmaiņu izsekošana svarīgos datu kopas elementos
  2. Tiek fiksēts, kā/ kad/ un kurš mainās uz šiem elementiem.

Datu revīzija palīdz novērtēt risku un atbilstību.

Datu līnija

Šis komponents attiecas uz datu izcelsmi. Tas galvenokārt attiecas uz to, kur tas laika gaitā mainās un kas ar to notiek. Tas atvieglo kļūdu labojumus datu analīzes procesā no izcelsmes līdz galamērķim.

Datu izpēte

Tas ir datu analīzes sākuma posms. Tas palīdz identificēt pareizo datu kopu, kas ir būtiska pirms datu izpētes uzsākšanas.

Visām dotajām sastāvdaļām ir jāsadarbojas, lai tām būtu svarīga loma datu ezera veidošanā, lai tās varētu viegli attīstīties un izpētīt vidi.

Datu ezera brieduma posmi

Datu ezera brieduma posmu definīcija dažādās mācību grāmatās atšķiras. Lai gan būtība paliek nemainīga. Pēc brieduma stadijas definīcija ir no nespeciālista viedokļa.

1. posms: apstrādājiet un uzņemiet datus mērogā

Šis pirmais datu gatavības posms ietver spēju pārveidot un analizēt datus. Šeit uzņēmumu īpašniekiem ir jāatrod rīki atbilstoši savām prasmēm, lai iegūtu vairāk datu un izveidotu analītiskas lietojumprogrammas.

2. posms: analītiskā muskuļa veidošana

Šis ir otrais posms, kas ietver spēju pārveidot un analizēt datus. Šajā posmā uzņēmumi izmanto rīku, kas ir vispiemērotākais viņu prasmēm. Viņi sāk iegūt vairāk datu un veidot lietojumprogrammas. Šeit uzņēmuma datu noliktavas un datu ezera iespējas tiek izmantotas kopā.

3. posms: EDW un Data Lake darbojas vienoti

Šis solis ietver datu un analītikas iegūšanu pēc iespējas vairāk cilvēku rokās. Šajā posmā datu ezers un uzņēmuma datu noliktava sāk darboties savienībā. Abiem ir sava loma analītikā

4. posms: Uzņēmējdarbības iespējas ezerā

Šajā datu ezera brieduma posmā datu ezeram tiek pievienotas uzņēmuma iespējas. Informācijas pārvaldības, informācijas dzīves cikla pārvaldības iespēju un metadatu pārvaldības pieņemšana. Tomēr ļoti maz organizāciju var sasniegt šo brieduma līmeni, taču nākotnē šis skaitlis palielināsies.

Datu ezera ieviešanas paraugprakse:

  • Arhitektūras komponentiem, to mijiedarbībai un identificētajiem produktiem jāatbalsta vietējie datu veidi
  • Datu ezera dizains jābalsta uz pieejamo, nevis prasīto. Prasība par shēmu un datiem nav definēta, kamēr tā nav vaicāta
  • Dizains jāvadās pēc vienreiz lietojamām sastāvdaļām, kas integrētas pakalpojuma API.
  • Datu atklāšana, ievadīšana, uzglabāšana, administrēšana, kvalitāte, pārveidošana un vizualizācija jāpārvalda neatkarīgi.
  • Datu ezera arhitektūra ir jāpielāgo konkrētai nozarei. Tai būtu jānodrošina, ka šim domēnam nepieciešamās iespējas ir neatņemama dizaina sastāvdaļa
  • Ir svarīgi ātrāk atklāt jaunus datu avotus
  • Data Lake palīdz pielāgotai pārvaldībai iegūt maksimālo vērtību
  • Datu ezeram jāatbalsta esošās uzņēmuma datu pārvaldības metodes un metodes

Datu ezera izveides izaicinājumi:

  • Datu ezerā datu apjoms ir lielāks, tāpēc procesam vairāk jābalstās uz programmatisko administrēšanu
  • Ir grūti tikt galā ar retiem, nepilnīgiem, nepastāvīgiem datiem
  • Plašākam datu kopas un avota apjomam nepieciešama plašāka datu pārvaldība un atbalsts

Atšķirība starp datu ezeriem un datu noliktavu

Parametri Datu ezeri Datu noliktava
Dati Datu ezeri uzglabā visu. Datu noliktava koncentrējas tikai uz biznesa procesiem.
Apstrāde Dati galvenokārt netiek apstrādāti Augsti apstrādāti dati.
Datu veids Tas var būt nestrukturēts, daļēji strukturēts un strukturēts. Tas galvenokārt ir tabulas formā un struktūrā.
Uzdevums Kopīgojiet datu pārvaldību Optimizēta datu izgūšanai
Veiklība Ļoti veikls, pēc vajadzības konfigurējiet un pārkonfigurējiet. Salīdzinot ar Datu ezeru, tas ir mazāk veikls un tam ir fiksēta konfigurācija.
Lietotāji Datu ezeru galvenokārt izmanto datu zinātnieks Biznesa profesionāļi plaši izmanto datu noliktavu
Uzglabāšana Datu ezeru dizains zemu izmaksu uzglabāšanai. Tiek izmantota dārga krātuve, kas nodrošina ātru reakcijas laiku
Drošība Piedāvā mazāku kontroli. Ļauj labāk kontrolēt datus.
EDW nomaiņa Datu ezers var būt EDW avots Papildina EDW (nevis aizstāj)
Shēma Lasīšanas shēma (nav iepriekš definētu shēmu) Rakstīšanas shēma (iepriekš noteiktas shēmas)
Datu apstrāde Palīdz ātri iegūt jaunus datus. Jauna satura ieviešana prasa daudz laika.
Datu precizitāte Dati ar zemu detalizācijas pakāpi vai precizitāti. Dati kopsavilkuma vai apkopotā detalizācijas līmenī.
Rīki Var izmantot atvērtā koda/ rīkus, piemēram, Hadoop/ Map Reduce Galvenokārt komerciāli instrumenti.

Datu ezera izmantošanas priekšrocības un riski:

Šeit ir dažas galvenās priekšrocības, izmantojot Data Lake:

  • Pilnībā palīdz ar produktu jonizējošo un uzlaboto analīzi
  • Piedāvā rentablu mērogojamību un elastību
  • Piedāvā vērtību no neierobežotiem datu veidiem
  • Samazina ilgtermiņa īpašuma izmaksas
  • Ļauj ekonomiski saglabāt failus
  • Ātri pielāgojams izmaiņām
  • Datu ezera galvenā priekšrocība ir centralizācija no dažādiem satura avotiem
  • Lietotāji no dažādiem departamentiem var būt izkaisīti visā pasaulē elastīga piekļuve uz datiem

Datu ezera lietošanas risks:

  • Pēc kāda laika Data Lake var zaudēt aktualitāti un impulsu
  • Projektējot Data Lake, ir lielāks risks
  • Nestrukturēti dati var izraisīt nevaldāmu haosu, neizmantojamus datus, atšķirīgus un sarežģītus rīkus, uzņēmuma mēroga sadarbību, vienotu, konsekventu un kopīgu
  • Tas arī palielina uzglabāšanu un aprēķina izmaksas
  • Nav iespējams iegūt ieskatu no citiem, kuri ir strādājuši ar datiem, jo ​​nav ņemts vērā iepriekšējo analītiķu secinājumi
  • Lielākais datu ezeru risks ir drošība un piekļuves kontrole. Dažreiz datus var ievietot ezerā bez jebkādas uzraudzības, jo dažiem datiem var būt vajadzība pēc privātuma un regulējuma

Kopsavilkums:

  • Datu ezers ir krātuves krātuve, kurā var uzglabāt lielu daudzumu strukturētu, daļēji strukturētu un nestrukturētu datu.
  • Datu ezera izveides galvenais mērķis ir datu zinātniekiem piedāvāt nerafinētu datu skatu.
  • Vienoti darbības līmeņi, apstrādes līmenis, destilācijas līmenis un HDFS ir svarīgi datu ezera arhitektūras slāņi
  • Datu ievadīšana, datu glabāšana, datu kvalitāte, datu audits, datu izpēte, datu atklāšana ir dažas svarīgas datu ezera arhitektūras sastāvdaļas
  • Datu ezera dizains jābalsta uz pieejamo, nevis prasīto.
  • Data Lake samazina ilgtermiņa īpašumtiesību izmaksas un ļauj ekonomiski saglabāt failus
  • Lielākais datu ezeru risks ir drošība un piekļuves kontrole. Dažreiz datus var ievietot ezerā bez jebkādas uzraudzības, jo dažiem datiem var būt vajadzība pēc privātuma un regulējuma.