#simpleit: Sådan opbygges en dataplatform uden et budget

Mon 11 2022

#simpleit: Sådan opbygges en dataplatform uden et budget

by bernt & torsten

Denne artikel er til små virksomheder, der måske ikke har et dedikeret datateam eller kun en enkelt ressource til at drive en dataplatform. Fokus i denne artikel er på en opsætning af en dataplatform for små virksomheder. Denne artikel har til formål at vise, hvordan du opretter den bedste dataplatform til din organisation uden et databudget. Alt hvad du behøver er en bærbar computer og lidt teknisk knowhow.

Før jeg forklarer, hvordan du opretter en dataplatform, lad os se på, hvad der ville være den bedste dataplatform for din virksomhed. Data er et stort emne i dag, der er mange artikler, du kan læse om dataplatforme osv. Ingen dataplatform er universel. Opsætning af en dataplatform bruger byggesten til at oprette en dataplatform, der passer til din virksomhed.

Faktum er, at en dataplatform for et firma vil se lidt anderledes ud end for et andet firma. Når du opretter den bedste dataplatform for dig og din virksomhed, er det vigtigt at besvare et par spørgsmål om din virksomheds kultur, forretningsmål, struktur og meget mere.

Data

Opbygning af en dataplatform er at stille et par spørgsmål om din virksomhed – dvs. ville du have brug for et centralt lager for alle din virksomheds data, hvilket muliggør erhvervelse, opbevaring, levering og styring af disse data, samtidig med at sikkerheden opretholdes på tværs af datalivscyklussen. Lad os se på nogle af de mere kritiske spørgsmål?

Hvordan vil du få interessenternes buy-in?

En dataplatform er kun nyttig, hvis dens brugere – interessenter på tværs af virksomheden – er åbne for og fortrolige med den. Før du opretter en dataplatform, er det vigtigt at få alle, der kan drage fordel af den, om bord, før du opretter en dataplatform.

Medarbejdere på alle områder på tværs af virksomheden skal forstå, hvordan dataplatformen i sidste ende vil give værdi til dem. Det er datateamets oprindelige opgave: at forklare og fremvise denne værdi og etablere en metode til måling af succes, selv når virksomheden skalerer.

Hvem ejer hvad i datastakken?

Hvordan vil dataene blive brugt? Vil det være en fælles ressource set på tværs af virksomheden? Hvordan ejer virksomhedens data på forskellige tidspunkter i datalivscyklussen: Datateamet kan f.eks. eje de rå data, før de afleverer dem til marketingteamet til analyse og indsigt, som derefter kan analyseres og anvendes på et dashboard til ledelsesteamet.

Datastakken fra ende til anden består af flere byggesten, der understøtter hvert af disse teams.

Hvordan vil du måle succes?

Når du bygger en dataplatform, er det vigtigt at måle, hvordan interessenter kan udnytte data til at understøtte forretningsbehov og fastslå kvaliteten og effektiviteten af datateamets præstationer.

Vil du centralisere eller decentralisere din dataplatform

Skal din virksomhed vælge at konsolidere datateamet? Vil centralisering medføre for mange flaskehalse? Vil en decentral tilgang føre til dobbeltarbejde og kompleksitet? At forstå, hvordan hver mulighed ser ud – og vælge den bedste model til din virksomhed er en vigtig overvejelse, når du bygger din dataplatform.

Hvordan vil du tackle datapålidelighed og tillid?

Efterhånden som datamængderne stiger, bliver datapålideligheden stadig vigtigere. Uanset om du bygger dit datapålidelighedsværktøj eller køber et, bliver det en væsentlig del af en funktionel dataplatform.

Teknologi

Lad os se på de teknologiske overvejelser, som du skal tænke på på forhånd, før du begynder at opbygge en dataplatform. Her er nogle af mine tanker om emnet:

Trinvis tænkning

Det første logiske skridt er at designe din dataplatform trinvist. Når et bestemt trin mislykkes, går du tilbage til det forrige og undgår at genberegne hele processen. Når du håndterer store databelastninger, vil du hurtigt indse, at opbygning af en trinvis stak ikke kan være en eftertanke.

Samling af legoklodser

Hvis du støder på et problem, skriver du et stykke kode for at løse det, og en mere innovativ tilgang er at finde eksisterende byggesten til at løse dette problem i stedet.

Design en dataplatform, der kræver en begrænset mængde kodning. Jo mindre brugerdefineret kode der oprettes, jo bedre er virksomheden, især hvis du er et en-persons datateam.

Hvorfor? Fordi jo mere brugerdefineret kode du skriver, jo mere kode skal din virksomhed vedligeholde, jo flere enhedstest skal du udføre, og jo mere kompleks bliver din kode at forstå af andre.

I stedet skal du kigge efter allerede eksisterende blokke, der leveres af din datastaks forskellige komponenter, r orkestrator, cloududbyder, lager osv., Og saml dem for at imødekomme dine projektbehov. Det vil være billigere og lettere at vedligeholde, men det vil frigøre din tid til de centrale aspekter af dit arbejde.

Effektiv overvågning

Når du har oprettet din første datapipeline, kan den stadig mislykkes – Det er vigtigt at konfigurere korrekt alarmering og overvågning. Du vil gerne være opmærksom på ting, da de begynder at opføre sig forkert, før en anden i din virksomhed, din interne klient, indgiver en klage.

Konfigurer en fremragende alarmeringspraksis, der genererer færre advarsler på højere niveau og behandler dem som produktionshændelser. Du kan oprette et dashboard, der viser missionskritiske fejl, så der kan tages hånd om fejl i prioriteret rækkefølge.

Administration af dataprodukter

Det kan være krævende, at du er et en-persons datateam til at administrere Data Product Management-opgaven. Data Product Management kræver forskellige færdigheder. Mens du skal have den samme empati for klienter, har du også brug for en dyb teknisk forståelse af input og output. Og selvfølgelig, hvis du bor i en SQL-verden, skal du have en følelse af databasestruktur og SQL-forespørgsler. Du har måske alt det, så du skal ikke bekymre dig.

Dataplatformen

Min filosofi har altid lænet sig mod #simpleit, princippet om at forenkle systemer ved at have så få it-systemer, der leverer en virksomheds komplette service. Det samme princip gælder for dataplatforme.

Den grundlæggende rørledning

Den primære pipeline kræver lidt programmering for at skrive et dataudtræksscript, og det gør jeg med Python. Jeg indlæser også dataene i en MySQL-database installeret på min bærbare computer. Dette er ikke et planlagt job, så du skal køre det, når du udtrækker nye data. Jeg bruger i dette scenarie Google Data Studio til at oprette forbindelse til min lokale bærbare computer for at trække dataene ind i en rapport.

Dette er et eksempel på en datapipeline, som du kan konfigurere med din egen tid.

Den grundlæggende datapipeline i skyen

Du kan tage det samme script og justere koden, der skal udføres som en Cloud-funktion, så kan du tilmelde dig Google Cloud Platform og køre en planlagt datapipeline i skyen. Afhængigt af hvor ofte du har brug for at udføre Cloud-funktionen, vil du være inden for det gratis niveau, hvis du gør det 2 – 3 gange om dagen som et batchjob. Den eneste forskel fra Basic Pipeline er, at vi i stedet for MySQL bruger BigQuery, og vi har en planlægningsopsætning. Jeg bruger også Cloud Storage som en datasø til at gemme filer af uddragene.

Open Source-dataplatformen uden budget

Da de to foregående eksempler er mere grundlæggende, skal du vedligeholde kode til din pipeline, og som jeg sagde før, jo mindre kode du skal vedligeholde, jo mere tid har du til andre opgaver.

Som et en-persons datateam i min virksomhed er den ultimative dataplatform, jeg bruger, baseret på to open source-værktøjer, Airbyte og Superset. Disse to vejafgifter er Open Source-værktøjer, og du kan køre dem med docker.

Airbyte

Airbyte er et open source-dataintegrationsværktøj, hvor du med blot nogle klik kan konfigurere alle dine ELT-datapipelines på få minutter, selv dine brugerdefinerede, hvilket giver dit team mulighed for at fokusere på indsigt og innovation.

Med Airbyte kan du forbinde din kilde med en destination, der opretter en dataforbindelse. Der bør ikke være behov for at skrive nogen kode, da mange kilder, og destinationsstik allerede er tilgængelige. Hvis du har brug for at skrive noget kode til et meget brugerdefineret kildestik, leveres Airbyte med et Connector Development Kit (CDK), der giver dig mulighed for at skrive din brugerdefinerede connector.

Supersæt

Apache Superset er et open source-program til dataudforskning og visualisering, og du kan også oprette dashboards og tidsplaner for at sende dashboardet til din interessent.

Opsætningen af dataplatformen med Docker

At oprette denne dataplatform på dit lokale skrivebord / bærbare computer tager kun få minutter. Det første trin er at downloade Docker Desktop.

Når du har docker-skrivebordet installeret og kørende, skal du klone Airbyte og Apache Superset fra deres respektive GitHub-lager.

Airbyte hurtig start

Airbyte hurtig start er ligetil. Bare gør følgende.

$ git klon https://github.com/airbytehq/airbyte.git
$ cd airbyte
$ docker-komponere op

Superset hurtig start

Læs Superset-dokumentationen for Superset. Installationen er så enkel som Airbyte:

$ git klon https://github.com/apache/superset.git
$ cd superset
$ docker-compose -f docker-compose-non-dev.yml up

Dette starter Airbyte- og Superset-containeren i docker-skrivebordet:

Nu er du klar til at bruge denne kraftfulde open source-dataplatform. Skønheden ved denne opsætning er, at jeg kan bruge MySQL-forekomsten, som jeg kører lokalt til at indlæse data fra Airbyte og bruge Superset til at opbygge et dashboard ud fra disse data. Jeg er ikke begrænset til det, og jeg kan stadig bruge Airbyte BigQuery-connectoren som destination og derefter foretage en rapportering med Data Studio.

Konklusion

Det er en meget fleksibel måde at konfigurere din datapipeline på. Du kan vokse ved at tilføje andre byggesten som dbt, Airflow osv.

Hvis du er et lille team, skal du starte med blot et par legoklodser til din dataplatform og vokse, efterhånden som efterspørgslen stiger.

Et råd, jeg har, er ikke at lade mig rive med af nye værktøjer eller lade mig påvirke af andre til peer-sammenkomster eller konferencer. Følg den retning, du er på vej uden at blive dikteret til. Jo mere du bliver påvirket af andre eller af nye værktøjer, bliver din tid taget væk fra dit hovedmål om at levere en dataplatform til din virksomhed. Hold dig væk fra meget meningsfulde kolleger, da det ikke altid er den bedste retning.

Hvis du er en en-persons dataafdeling eller et lille team, har du ikke tid til at lære og kæmpe med andre værktøjer og teknologier. Ved hjælp af disse værktøjer kommer du direkte ind i de gode ting i dine transformationer – intet at oprette og administrere.