Kā datu glabātuves ir datu noliktavas nākotne[+5 Learning Resources]

Tā kā uzņēmumi ģenerē arvien vairāk datu, tradicionālās pieejas datu noliktavas uzturēšana kļūst arvien grūtāka un dārgāka. Datu glabātuve, salīdzinoši jauna pieeja datu glabāšanai, piedāvā šīs problēmas risinājumu, nodrošinot mērogojamu, elastīgu un rentablu veidu, kā pārvaldīt lielu datu apjomu.

Šajā ziņojumā mēs izpētīsim, kā Data Vaults ir datu noliktavas nākotne un kāpēc arvien vairāk uzņēmumu izmanto šo pieeju. Nodrošināsim arī mācību resursus tiem, kas vēlas ienirt tēmā dziļāk!

Kas ir Data Vault?

Data Vault ir datu noliktavas modelēšanas tehnika, kas īpaši piemērota veiklām datu noliktavām. Tas piedāvā augstu elastības pakāpi paplašinājumiem, pilnīgu datu vienību laika historizāciju un ļauj stingri paralēli veikt datu ielādes procesus. Dens Linsteds 90. gados izstrādāja Data Vault modelēšanu.

Pēc pirmās publikācijas 2000. gadā viņa ieguva lielāku uzmanību 2002. gadā, izmantojot rakstu sēriju. 2007. gadā Linstedt ieguva Bila Inmona atbalstu, kurš to raksturoja kā “optimālo izvēli” savai Data Vault 2.0 arhitektūrai.

Ikviens, kurš izmanto terminu “agile data noliktava”, ātri nonāks pie Data Vault. Tehnoloģijas īpašā iezīme ir tā, ka tā ir vērsta uz uzņēmumu vajadzībām, jo ​​tā nodrošina datu noliktavas elastīgas, mazas piepūles pielāgošanas iespējas.

Data Vault 2.0 ņem vērā visu izstrādes procesu un arhitektūru un sastāv no komponentu metodes (ieviešanas), arhitektūras un modeļa. Šīs pieejas priekšrocība ir tā, ka izstrādes laikā tiek ņemti vērā visi biznesa informācijas aspekti ar pamatā esošo datu noliktavu.

Data Vault modelis piedāvā mūsdienīgu risinājumu tradicionālo datu modelēšanas pieeju ierobežojumu pārvarēšanai. Ar savu mērogojamību, elastību un veiklību tas nodrošina stabilu pamatu tādas datu platformas izveidei, kas spēj pielāgoties mūsdienu datu vides sarežģītībai un daudzveidībai.

Data Vault centrmezgla un spieķu arhitektūra un entītiju un atribūtu atdalīšana nodrošina datu integrāciju un harmonizāciju vairākās sistēmās un domēnos, veicinot pakāpenisku un elastīgu attīstību.

Datu glabātuves būtiska loma datu platformas izveidē ir vienota patiesības avota izveide visiem datiem. Tā vienotais datu skatījums un atbalsts vēsturisko datu izmaiņu tveršanai un izsekošanai, izmantojot satelīttabulas, nodrošina atbilstību, auditu, normatīvās prasības, kā arī visaptverošu analīzi un pārskatu sagatavošanu.

Data Vault gandrīz reāllaika datu integrācijas iespējas, izmantojot delta ielādi, atvieglo liela datu apjoma apstrādi strauji mainīgās vidēs, piemēram, lielo datu un IoT lietojumprogrammās.

Data Vault salīdzinājumā ar tradicionālajiem datu noliktavas modeļiem

Trešā parastā veidlapa (3NF) ir viens no slavenākajiem tradicionālajiem datu noliktavas modeļiem, ko bieži dod priekšroka daudzās lielās implementācijās. Starp citu, tas atbilst Bila Inmona, viena no datu noliktavas koncepcijas “priekštečiem”, idejām.

  Kā notīrīt kešatmiņu un sīkfailus pārlūkprogrammā Mozilla Firefox

Inmon arhitektūra ir balstīta uz relāciju datu bāzes modeli un novērš datu dublēšanu, sadalot datu avotus mazākās tabulās, kas tiek glabātas datu centros un ir savstarpēji savienotas, izmantojot primārās un ārējās atslēgas. Tas nodrošina, ka dati ir konsekventi un precīzi, ieviešot atsauces integritātes noteikumus.

Parastās veidlapas mērķis bija izveidot visaptverošu, uzņēmuma mēroga datu modeli pamata datu noliktavai; tomēr tai ir mērogojamības un elastības problēmas, kas saistītas ar ļoti savienotiem datu tīkliem, ielādes grūtībām gandrīz reāllaika režīmā, darbietilpīgiem pieprasījumiem un lejupejošu dizainu un ieviešanu.

Kimbala modelis, ko izmanto OLAP (tiešsaistes analītiskajai apstrādei) un datu tirgiem, ir vēl viens slavens datu noliktavas modelis, kurā faktu tabulās ir apkopoti dati un dimensiju tabulas apraksta saglabātos datus zvaigznīšu shēmā vai sniegpārsliņu shēmas dizainā. Šajā arhitektūrā dati tiek sakārtoti faktu un dimensiju tabulās, kas ir denormalizētas, lai vienkāršotu vaicājumu iesniegšanu un analīzi.

Kimbal ir balstīts uz dimensiju modeli, kas ir optimizēts vaicājumiem un ziņošanai, padarot to ideāli piemērotu biznesa informācijas lietojumprogrammām. Tomēr tai ir bijušas problēmas ar uz priekšmetu orientētas informācijas izolāciju, datu dublēšanu, nesaderīgām vaicājumu struktūrām, mērogojamības grūtībām, faktu tabulu nekonsekventu precizitāti, sinhronizācijas problēmām un vajadzību pēc lejupejošas dizaina ar augšupēju ieviešanu.

Turpretim Data Vault arhitektūra ir hibrīda pieeja, kas apvieno gan 3NF, gan Kimball arhitektūras aspektus. Tas ir modelis, kura pamatā ir relāciju principi, datu normalizācija un dublēšanas matemātika, kas atšķirīgi attēlo attiecības starp entītijām un atšķirīgi strukturē tabulas laukus un laikspiedolus.

Šajā arhitektūrā visi dati tiek glabāti neapstrādātu datu glabātuvē vai datu ezerā, savukārt parasti izmantotie dati tiek glabāti normalizētā formātā biznesa glabātuvē, kurā ir vēsturiski un kontekstam raksturīgi dati, kurus var izmantot pārskatu veidošanai.

Data Vault risina problēmas tradicionālajos modeļos, nodrošinot efektīvāku, mērogojamāku un elastīgāku. Tas nodrošina gandrīz reāllaika ielādi, labāku datu integritāti un vieglu paplašināšanu, neietekmējot esošās struktūras. Modeli var arī paplašināt, nepārvietojot esošās tabulas.

Modelēšanas pieejaDatu struktūraDesign Approach3NF modelēšanas tabulas 3NFBottom-upKimbal ModelingStar shēmā vai Snowflake SchemaNo augšas uz lejuData VaultHub-and-SpokeApakšā-up

Datu glabātuves arhitektūra

Data Vault ir centrmezgla un spieķu arhitektūra, un tā būtībā sastāv no trim slāņiem:

Pakāpju slānis: apkopo neapstrādātus datus no avota sistēmām, piemēram, CRM vai ERP

Datu noliktavas slānis: modelējot kā Data Vault modeli, šis slānis ietver:

  • Raw Data Vault: saglabā neapstrādātus datus.
  • Business Data Vault: ietver saskaņotus un pārveidotus datus, pamatojoties uz uzņēmējdarbības noteikumiem (neobligāti).
  • Metrics Vault: saglabā izpildlaika informāciju (neobligāti).
  • Operacionālā glabātuve: saglabā datus, kas tieši no operētājsistēmām ieplūst datu noliktavā (pēc izvēles).

Datu marta slānis: šis slānis modelē datus kā zvaigznīšu shēmu un/vai citas modelēšanas metodes. Tas sniedz informāciju analīzei un ziņošanai.

Attēla avots: Lamia Yessad

Data Vault nav nepieciešama atkārtota arhitektūra. Jaunas funkcijas var veidot paralēli tieši, izmantojot Data Vault koncepcijas un metodes, un esošie komponenti netiek zaudēti. Frameworks var ievērojami atvieglot darbu: tie veido slāni starp datu noliktavu un izstrādātāju un tādējādi samazina ieviešanas sarežģītību.

  Kas ir “Stans” un no kurienes šis vārds cēlies?

Datu glabātuves sastāvdaļas

Modelēšanas laikā Data Vault visu objektam piederošo informāciju sadala trīs kategorijās – atšķirībā no klasiskās trešās normālās formas modelēšanas. Pēc tam šī informācija tiek glabāta stingri atsevišķi viena no otras. Funkcionālās zonas var kartēt Data Vault tā sauktajos centrmezglos, saitēs un satelītos:

#1. Centrmezgli

Centrmezgli ir galvenā biznesa koncepcija, piemēram, klients, pārdevējs, pārdošana vai produkts. Centrmezgla tabula tiek veidota ap uzņēmuma atslēgu (veikala nosaukumu vai atrašanās vietu), kad datu noliktavā pirmo reizi tiek ieviests jauns šīs biznesa atslēgas gadījums.

Centrā nav aprakstošas ​​informācijas un FK. Tas sastāv tikai no biznesa atslēgas ar noliktavas ģenerētu ID vai jaucējatslēgu secību, ielādes datuma/laika zīmogu un ieraksta avotu.

#2. Saites

Saites izveido attiecības starp biznesa atslēgām. Katrs saites ieraksts modelē jebkura skaita centrmezglu nm attiecības. Tas ļauj datu glabātuvei elastīgi reaģēt uz izmaiņām avota sistēmu biznesa loģikā, piemēram, uz izmaiņām attiecību sirsnībā. Tāpat kā centrmezglā, saite nesatur aprakstošu informāciju. Tas sastāv no centrmezglu secības ID, uz kuriem tas atsaucas, noliktavas ģenerēta secības ID, ielādes datuma/laika zīmoga un ieraksta avota.

#3. Satelīti

Satelītos ir aprakstošā informācija (konteksts) biznesa atslēgai, kas saglabāta centrmezglā, vai saitē saglabātām attiecībām. Satelīti darbojas “tikai ievietošanai”, kas nozīmē, ka satelītā tiek saglabāta visa datu vēsture. Vairāki satelīti var aprakstīt vienu biznesa atslēgu (vai attiecības). Tomēr satelīts var aprakstīt tikai vienu atslēgu (centrmezglu vai saiti).

Attēla avots: Carbidfischer

Kā izveidot Data Vault modeli

Datu glabātuves modeļa izveide ietver vairākas darbības, no kurām katra ir ļoti svarīga, lai nodrošinātu, ka modelis ir mērogojams, elastīgs un spēj apmierināt uzņēmuma vajadzības.

#1. Identificējiet entītijas un atribūtus

Identificējiet uzņēmējdarbības vienības un to atbilstošos atribūtus. Tas ietver ciešu sadarbību ar biznesa ieinteresētajām personām, lai izprastu viņu prasības un datus, kas tām jāiegūst. Kad šīs entītijas un atribūti ir identificēti, sadaliet tos centrmezglos, saitēs un satelītos.

#2. Definējiet entītiju attiecības un izveidojiet saites

Kad esat identificējis entītijas un atribūtus, tiek definētas attiecības starp entītijām un tiek izveidotas saites, kas attēlo šīs attiecības. Katrai saitei tiek piešķirta biznesa atslēga, kas identificē attiecības starp entītijām. Pēc tam tiek pievienoti satelīti, lai uztvertu entītiju atribūtus un attiecības.

#3. Izveidojiet noteikumus un standartus

Pēc saišu izveides ir jāizveido noteikumu kopums un datu glabātuves modelēšanas standarti, lai nodrošinātu, ka modelis ir elastīgs un spēj apstrādāt izmaiņas laika gaitā. Šie noteikumi un standarti ir regulāri jāpārskata un jāatjaunina, lai nodrošinātu, ka tie joprojām ir atbilstoši un atbilst uzņēmējdarbības vajadzībām.

#4. Aizpildiet modeli

Kad modelis ir izveidots, tas ir jāaizpilda ar datiem, izmantojot pakāpeniskas ielādes pieeju. Tas ietver datu ielādi centrmezglos, saitēs un satelītos, izmantojot delta slodzi. Delta tiek ielādēta, lai nodrošinātu, ka tiek ielādētas tikai datos veiktās izmaiņas, samazinot datu integrēšanai nepieciešamo laiku un resursus.

#5. Pārbaudiet un apstipriniet modeli

Visbeidzot, modelis ir jāpārbauda un jāvalidē, lai nodrošinātu, ka tas atbilst biznesa prasībām un ir pietiekami mērogojams un elastīgs, lai apstrādātu turpmākās izmaiņas. Regulāra apkope un atjaunināšana jāveic, lai nodrošinātu, ka modelis joprojām atbilst biznesa vajadzībām un turpina nodrošināt vienotu datu skatījumu.

  Kā izveidot savienojumu ar Frontier bezvadu maršrutētāju vai modemu

Data Vault mācību resursi

Data Vault apgūšana var sniegt vērtīgas prasmes un zināšanas, kas ir ļoti pieprasītas mūsdienu uz datiem balstītajās nozarēs. Šeit ir visaptverošs resursu saraksts, tostarp kursi un grāmatas, kas var palīdzēt apgūt Data Vault sarežģījumus.

#1. Datu noliktavas modelēšana ar Data Vault 2.0

Šis Udemy kurss ir visaptverošs ievads Data Vault 2.0 modelēšanas pieejai, Agile projektu vadībai un lielo datu integrācijai. Kurss aptver Data Vault 2.0 pamatus un pamatus, tostarp tās arhitektūru un slāņus, biznesa un informācijas glabātuves, kā arī uzlabotas modelēšanas metodes.

Tajā ir aprakstīts, kā no jauna izveidot Data Vault modeli, pārveidot tradicionālos modeļus, piemēram, 3NF un dimensiju modeļus, par Data Vault, kā arī izprast Data Vault dimensiju modelēšanas principus. Kursā nepieciešamas pamatzināšanas par datu bāzēm un SQL pamatiem.

Šis vislabāk pārdotais kurss ar augstu vērtējumu 4,4 no 5 un vairāk nekā 1700 atsauksmēm ir piemērots ikvienam, kas vēlas izveidot spēcīgu pamatu Data Vault 2.0 un lielo datu integrācijai.

#2. Datu glabātuves modelēšana izskaidrota ar lietošanas gadījumu

Šis Udemy kurss ir paredzēts, lai palīdzētu jums izveidot Data Vault modeli, izmantojot praktisku biznesa piemēru. Tas kalpo kā datu glabātuves modelēšanas ceļvedis iesācējiem, aptverot tādus galvenos jēdzienus kā atbilstošie scenāriji Data Vault modeļu izmantošanai, tradicionālās OLAP modelēšanas ierobežojumi un sistemātiska pieeja Data Vault modeļa izveidei. Kurss ir pieejams personām ar minimālām zināšanām datubāzē.

#3. Datu glabātuves guru: pragmatisks ceļvedis

Patrika Kubas kunga Data Vault Guru ir visaptverošs datu glabātuves metodoloģijas ceļvedis, kas piedāvā unikālu iespēju modelēt uzņēmuma datu noliktavu, izmantojot automatizācijas principus, kas ir līdzīgi programmatūras piegādē izmantotajiem.

Grāmatā sniegts pārskats par mūsdienu arhitektūru un pēc tam sniegts pamatīgs ceļvedis, kā nodrošināt elastīgu datu modeli, kas pielāgojas izmaiņām uzņēmumā, datu krātuvē.

Turklāt grāmata paplašina datu glabātuves metodoloģiju, nodrošinot automatizētu laika skalas korekciju, audita pēdas, metadatu kontroli un integrāciju ar veikliem piegādes rīkiem.

#4. Mērogojamas datu noliktavas izveide, izmantojot Data Vault 2.0

Šī grāmata sniedz lasītājiem visaptverošu ceļvedi, kā izveidot mērogojamu datu noliktavu no sākuma līdz beigām, izmantojot Data Vault 2.0 metodoloģiju.

Šajā grāmatā ir apskatīti visi būtiskie mērogojamas datu noliktavas izveides aspekti, tostarp Data Vault modelēšanas tehnika, kas paredzēta, lai novērstu tipiskas datu noliktavas kļūmes.

Grāmatā ir daudz piemēru, lai palīdzētu lasītājiem skaidri saprast jēdzienus. Ar tās praktiskajām atziņām un reāliem piemēriem šī grāmata ir būtisks resurss ikvienam, kas interesējas par datu noliktavu.

#5. Zilonis ledusskapī: soļi, kas veikti, lai Data Vault gūtu panākumus

Džona Džailsa Zilonis ledusskapī ir praktisks ceļvedis, kura mērķis ir palīdzēt lasītājiem gūt panākumus Data Vault, sākot ar biznesu un beidzot ar biznesu.

Grāmata koncentrējas uz uzņēmuma ontoloģijas un biznesa koncepciju modelēšanas nozīmi un sniedz soli pa solim norādījumus par to, kā šīs koncepcijas pielietot, lai izveidotu stabilu datu modeli.

Izmantojot praktiskus padomus un paraugus, autore piedāvā skaidru un nesarežģītu sarežģītu tēmu skaidrojumu, padarot grāmatu par lielisku ceļvedi tiem, kas ir iesācēji Data Vault.

Nobeiguma vārdi

Data Vault pārstāv datu noliktavas nākotni, piedāvājot uzņēmumiem ievērojamas priekšrocības veiklības, mērogojamības un efektivitātes ziņā. Tas ir īpaši labi piemērots uzņēmumiem, kuriem ātri jāielādē liels datu apjoms, un tiem, kas vēlas veikli attīstīt savas biznesa informācijas lietojumprogrammas.

Turklāt uzņēmumi, kuriem ir esoša tvertnes arhitektūra, var gūt lielu labumu, ieviešot augšupēju galveno datu noliktavu, izmantojot Data Vault.

Iespējams, jūs interesē arī informācija par datu izcelsmi.