#simpleit: Hvordan bygge en dataplattform uten budsjett

Denne artikkelen er for små selskaper som kanskje ikke har et dedikert datateam eller bare en enkelt ressurs for å drive en dataplattform. Fokuset i denne artikkelen er på et oppsett av dataplattform for små bedrifter. Denne artikkelen tar sikte på å vise hvordan du oppretter den beste dataplattformen for organisasjonen din uten et databudsjett. Alt du trenger er en bærbar PC og litt teknisk kunnskap.

Før jeg forklarer hvordan du setter opp en dataplattform, la oss se på hva som ville være den beste dataplattformen for virksomheten din. Data er et stort tema i dag, det er mange artikler du kan lese om dataplattformer etc. Ingen dataplattform er universell. Når du setter opp en dataplattform, brukes byggeblokker til å sette opp en dataplattform som passer til bedriften din.

Faktum er at en dataplattform for ett selskap vil se litt annerledes ut enn for et annet selskap. Når du oppretter den beste dataplattformen for deg og bedriften din, er det viktig å svare på noen spørsmål om bedriftens kultur, forretningsmål, struktur og mer.

Data

Å bygge en dataplattform er å stille noen spørsmål om selskapet ditt – det vil si at du trenger et sentralt depot for alle bedriftens data, noe som muliggjør innsamling, lagring, levering og styring av disse dataene samtidig som du opprettholder sikkerheten på tvers av datalivssyklusen. La oss ta en titt på noen av de mer kritiske spørsmålene?

Hvordan vil du få innkjøp av interessenter?

En dataplattform er bare nyttig hvis brukerne – interessenter på tvers av virksomheten, er åpne for og kjent med den. Før du oppretter en dataplattform, er det viktig å få alle som kan dra nytte av den om bord før de lager en dataplattform.

Ansatte på alle områder på tvers av virksomheten bør forstå hvordan dataplattformen til slutt vil gi verdi til dem. Det er den første jobben til datateamet: å forklare og vise frem denne verdien og etablere en metode for å måle suksess selv når selskapet skalerer.

Hvem eier hva i datastakken?

Hvordan skal dataene brukes? Vil det være en delt ressurs som vises på tvers av virksomheten? Hvordan eier selskapets data på ulike punkter i datalivssyklusen: Datateamet kan eie rådataene, for eksempel før de overleverer dem til markedsføringsteamet for analyse og innsikt, som deretter kan analyseres og brukes på et instrumentbord for ledergruppen.

Den ende-til-ende-datastakken består av flere byggesteiner som støtter hvert av disse teamene.

Hvordan vil du måle suksess?

Når du bygger en dataplattform, er det viktig å måle hvordan interessenter kan utnytte data for å støtte forretningsbehov og fastslå kvaliteten og effektiviteten til datateamets ytelse.

Vil du sentralisere eller desentralisere dataplattformen din

Bør firmaet velge å konsolidere datateamet? Vil sentralisering pålegge for mange flaskehalser? Vil en desentralisert tilnærming føre til duplisering og kompleksitet? Å forstå hvordan hvert alternativ ser ut – og å velge den beste modellen for virksomheten din er en viktig vurdering når du bygger dataplattformen din.

Hvordan vil du takle datapålitelighet og tillit?

Etter hvert som datavolumene øker, blir datapåliteligheten stadig viktigere. Enten du bygger datapålitelighetsverktøyet ditt eller kjøper et, vil det bli en viktig del av en funksjonell dataplattform.

Teknologi

La oss se på teknologihensynene du må tenke på på forhånd før du begynner å bygge en dataplattform. Her er noen av mine tanker om emnet:

Inkrementell tenkning

Det første logiske trinnet er å designe dataplattformen trinnvis. Når et bestemt trinn mislykkes, vil du gå tilbake til det forrige, og unngå å rekomputere hele prosessen. Når du håndterer store databelastninger, vil du raskt innse at det å bygge en trinnvis stakk ikke kan være en ettertanke.

Lego blokk montering

Hvis du støter på et problem, vil du skrive et stykke kode for å fikse det, og en mer nyskapende tilnærming er å finne eksisterende byggeklosser for å løse dette problemet i stedet.

Design en dataplattform som krever en begrenset mengde koding. Jo mindre egendefinert kode som opprettes, jo bedre er virksomheten, spesielt hvis du er et datateam for én person.

hvorfor? Siden jo mer tilpasset kode du skriver, jo mer kode må virksomheten din opprettholde, jo mer enhetstesting må du gjøre, og jo mer kompleks blir koden din å forstå av andre.

Se i stedet etter eksisterende blokker levert av datastakkens forskjellige komponenter, r-orkestrator, skyleverandør, lager osv., og sett dem sammen for å betjene prosjektbehovene dine. Det vil være billigere og enklere å vedlikeholde, men det vil frigjøre tiden din for de viktigste aspektene ved arbeidet ditt.

Effektiv overvåking

Når du har opprettet ditt første datasamlebånd, kan det fortsatt mislykkes – Det er viktig å sette opp riktig varsling og overvåking. Du vil være klar over ting når de begynner å oppføre seg dårlig før noen andre i virksomheten din, din interne klient, klager.

Sett opp en utmerket varslingspraksis som genererer færre varsler på høyere nivå og behandler disse som produksjonshendelser. Du kan opprette et instrumentbord som viser driftskritiske feil, slik at feil kan håndteres i prioritert rekkefølge.

Administrasjon av dataprodukter

Det kan være krevende at du er et datateam for én person for å administrere oppgaven for databehandling. Databehandling krever forskjellige ferdigheter. Selv om du bør ha samme empati for klienter, trenger du også en dyp teknisk forståelse av innganger og utganger. Og selvfølgelig, hvis du bor i en SQL-verden, trenger du en følelse av databasestruktur og SQL-spørringer. Du har kanskje alt det, så ikke bekymre deg.

Dataplattformen

Min filosofi har alltid lent seg mot #simpleit, prinsippet om å forenkle systemer ved å ha så få IT-systemer som gir et selskaps komplette service. Det samme prinsippet gjelder for dataplattformer.

Den grunnleggende rørledningen

Den primære rørledningen krever litt programmering for å skrive et datautpakkende skript, og jeg gjør dette med Python. Jeg laster også inn dataene til en MySQL-database som er installert på den bærbare datamaskinen. Dette er ikke en planlagt jobb, så du må kjøre den når du trekker ut nye data. Jeg bruker i dette scenariet Google Data Studio for å koble til min lokale bærbare datamaskin for å hente dataene inn i en rapport.

Dette er et eksempel på en datasamlebånd som du kan konfigurere med din egen tid.

Grunnleggende datasamlebånd i skyen

Du kan ta det samme skriptet og justere koden som skal utføres som en Cloud Function, så kan du registrere deg på Google Cloud Platform og kjøre et planlagt datapipeline i Cloud. Avhengig av hvor ofte du trenger å utføre Cloud-funksjonen, vil du være innenfor gratisnivået hvis du gjør det 2 – 3 ganger om dagen som en satsvis jobb. Den eneste forskjellen fra Basic Pipeline er at i stedet for MySQL bruker vi BigQuery, og vi har et planleggeroppsett. Jeg bruker også Cloud Storage som en datasjø for å lagre filer av ekstraktene.

Dataplattformen Ingen budsjett med åpen kildekode

Siden de to foregående eksemplene er mer grunnleggende, må du vedlikeholde kode for datasamlebåndet, og som jeg sa tidligere, jo mindre kode må du opprettholde, jo mer tid har du til andre oppgaver.

Å være et enpersonsdatateam i selskapet mitt, er den ultimate dataplattformen jeg bruker basert på to open source-verktøy, Airbyte og Superset. Disse to bompengene er Open Source-verktøy, og du kan kjøre dem med docker.

Airbyte

Airbyte er et dataintegrasjonsverktøy med åpen kildekode der du med bare noen få klikk kan sette opp alle ELT-datasamlebåndene dine på få minutter, til og med de tilpassede, noe som gjør at teamet ditt kan fokusere på innsikt og innovasjon.

Med Airbyte kan du koble kilden til en destinasjon som oppretter en datatilkobling. Det skal ikke være behov for å skrive kode så mange kilder, og målkoblinger er allerede tilgjengelige. Hvis du trenger å skrive litt kode for en veldig tilpasset kildekontakt, kommer Airbyte med et Connector Development Kit (CDK) som lar deg skrive den tilpassede kontakten.

Supersett

Apache Superset er et open source-program for datautforskning og visualisering, og du kan også bygge dashbord og tidsplaner for å sende dashbordet til interessenten din.  

Dataplattformoppsettet med Docker

Å sette opp denne dataplattformen på din lokale skrivebord / bærbare datamaskin tar bare minutter. Det første trinnet er å laste ned Docker Desktop.

Når du har docker desktop installert og kjører, må du klone Airbyte og Apache Superset fra deres respektive GitHub-repositorium.

Hurtigstart for Airbyte

Airbyte hurtigstart er grei. Bare gjør følgende.

$ git klone https://github.com/airbytehq/airbyte.git
$ cd airbyte
$ docker-komponere opp

Hurtigstart for Supersett

For Superset, les Superset-dokumentasjonen. Installasjonen er så enkel som Airbyte:

$ git klone https://github.com/apache/superset.git
$ cd supersett
$ docker-komponere -f docker-compose-non-dev.yml opp

Dette vil starte Airbyte- og Superset-beholderen i docker desktop:

Nå er du klar til å bruke denne kraftige åpen kildekode-dataplattformen. Det fine med dette oppsettet er at jeg kan bruke MySQL-forekomsten som jeg kjører lokalt for å laste inn data fra Airbyte og bruke Superset til å bygge et dashbord fra disse dataene. Jeg er ikke begrenset til det, og jeg kan fortsatt bruke Airbyte BigQuery-kontakten som destinasjon og deretter gjøre litt rapportering med Data Studio.

Konklusjon

Det er en veldig fleksibel måte å sette opp datasamlebåndet på. Du kan vokse ved å legge til andre byggeklosser som dbt, Airflow etc.

Hvis du er et lite team, kan du starte med bare noen få legoblokker for dataplattformen din og vokse etter hvert som etterspørselen øker.

Et råd jeg har er ikke å bli båret bort av nye verktøy eller bli påvirket av andre på jevnaldrende sammenkomster eller konferanser. Følg retningen din uten å bli diktert til. Jo mer du blir påvirket av andre eller av nye verktøy, blir tiden din tatt bort fra hovedmålet ditt om å levere en dataplattform for selskapet ditt. Hold deg unna høyt meningsfulle kolleger, da det ikke alltid er den beste retningen.

Hvis du er en dataavdeling for én person eller et lite team, har du ikke tid til å lære og kjempe med andre verktøy og teknologier. Ved hjelp av disse verktøyene kommer du rett inn i de gode tingene i transformeringene dine – ingenting å sette opp og administrere.

Leave a reply:

Your email address will not be published.

Site Footer

Sliding Sidebar

Brilliantly

SAFE!

2022