Kas on võimalik saada edukaks Big Data arhitektiks ilma Data Science'i õppimata? Mis vahe on Big Data arhitekti ja andmeteadlase vahel?


Vastus 1:

Täname teid mitme A2A eest! :)

See on minu isiklik kogemus selles küsimuses.

Miniclipis on meil andmeteaduste meeskond ja andmetöötluse meeskond. Andmetehnoloogia meeskond tegeleb kõigi suurandmetega. Tööga saaks andmeteaduste meeskond seda teha, kuid teeksime seda halvemini ja aeglasemalt ... me ei taha seda! :)

Andmetöötlusmeeskond ei pea tegelikult uurima domeeniteadmiste spetsiifikat, kuidas andmeteadusmeeskond läheb. Kuid nad teavad üsna palju masinõppimist ja suuremates automatiseeritud andmeprojektides töötame koos.

Nii et minu arvates võite saada edukaks suurandmete arhitektiks / inseneriks ilma andmeteadusteta, st ilma domeeni / algoritmiliste teadmisteta, mille ettevõtted sõltuvad andmeteadlastest. Siiski saate palju parema andmeinsenerina, kui saate sellega oma käed.


Vastus 2:

Nõustuge Marciniga. Andmeteadlased võivad suurandmete arhitekti abil kasutada suurandmete infrastruktuuri. IMO, mõned peamistest kaalutlustest, mida suurandmete arhitekt peaks teadma, on järgmised, mille osaks on andmete analüüs / teadus (punkt 3 allpool):

1) Andmete sisestamine - pakkimine ja voogesitus

2) Andmesalvestus - hajutatud salvestusruum, NoSQL

3) Töötlemine ja analüüs ** - pakkide töötlemine, voo töötlemine, analüüs. Suurte andmete arhitekt peaks siin vähemalt teadma saadaolevaid analüüsivahendeid / API-sid, et saaks neid soovitada ja Big Data infrastruktuuri kaasata (põhineb ka ärikasutuse juhtumil ja andmeteadlaste eelistustel). Vähesed tegurid, mida andmeteadlase võimaldamiseks kasutatavas töövahendis kaaluda võiksid olla - saadaolevate algoritmide tüübid, emakeele tugi, ühenduvus suure andmekeskkonnaga, andmete parsimisvõimalused, andmete profileerimine jne.

4) tarbimine - partii või voo tarbimine

5) Riistvaravajadus Big Data levitatava keskkonna erinevate komponentide jaoks

6) suurandmete keskkonna operatiivvajadused


Vastus 3:

Nõustuge Marciniga. Andmeteadlased võivad suurandmete arhitekti abil kasutada suurandmete infrastruktuuri. IMO, mõned peamistest kaalutlustest, mida suurandmete arhitekt peaks teadma, on järgmised, mille osaks on andmete analüüs / teadus (punkt 3 allpool):

1) Andmete sisestamine - pakkimine ja voogesitus

2) Andmesalvestus - hajutatud salvestusruum, NoSQL

3) Töötlemine ja analüüs ** - pakkide töötlemine, voo töötlemine, analüüs. Suurte andmete arhitekt peaks siin vähemalt teadma saadaolevaid analüüsivahendeid / API-sid, et saaks neid soovitada ja Big Data infrastruktuuri kaasata (põhineb ka ärikasutuse juhtumil ja andmeteadlaste eelistustel). Vähesed tegurid, mida andmeteadlase võimaldamiseks kasutatavas töövahendis kaaluda võiksid olla - saadaolevate algoritmide tüübid, emakeele tugi, ühenduvus suure andmekeskkonnaga, andmete parsimisvõimalused, andmete profileerimine jne.

4) tarbimine - partii või voo tarbimine

5) Riistvaravajadus Big Data levitatava keskkonna erinevate komponentide jaoks

6) suurandmete keskkonna operatiivvajadused