La scienza dei dati non si limita allo sviluppo di software

Opinione

Ona delle cose più scoraggianti che trovo quando parlo con i data scientist è un'attenzione particolare allo sviluppo del software. “Codifichi in R o Python? Panda ha una nuova funzionalità! Quanti anni di esperienza hai con la biblioteca "x"?"

In questo senso, di recente ho visto un tweet in cui si affermava che Data Science ha barriere all'ingresso estremamente basse. Il tweet suggeriva che tutto ciò che devi fare è seguire alcuni corsi di sviluppo software online e sei a posto! Mi ha fatto rivoltare lo stomaco. Ha confuso l’intero campo della scienza dei dati con lo sviluppo di software.

Perché i Data Scientist fingono di essere sviluppatori di software? La scienza dei dati è molto più di questo. È estremamente deludente vedere i data scientist spingere singolarmente il lato dello sviluppo software nel campo.

Foto di James Heal on Unsplash

Il software è importante per i data scientist? Ovviamente. La codifica qualificata è una parte importante del lavoro? SÌ. C'è molto che i data scientist possono imparare dagli sviluppatori di software? Assolutamente. Le competenze di sviluppo software sono l'attributo più importante di un Data Scientist? NO.

Quando spingiamo lo sviluppo software come l'elemento più importante della scienza dei dati, rischiamo di trasformare i nostri team e il nostro campo in un altro dipartimento IT. Questo non vuol dire criticare il lavoro dell'IT. Ho lavorato con molte grandi aziende e non saprei dirti quante persone incredibilmente intelligenti e di talento ho incontrato all'interno dei dipartimenti IT. Ma questi team svolgono ruoli definiti nelle loro organizzazioni. In generale, non guidano la strategia aziendale complessiva. Tuttavia, vedo così tanti data scientist che entrano in campo con il desiderio di influenzare decisioni grandi e importanti in un'azienda, per poi concentrarsi interamente sulla massimizzazione delle capacità di sviluppo software.

Lo sviluppo del software è uno strumento importante nella tua cintura. Ma non è l'unico strumento. Non possiamo fare grandi promesse sul supporto dei processi decisionali critici per l'azienda e poi tornare a parlare esclusivamente di sviluppo software.

Ho scritto degli strumenti più attitudinali di cui hanno bisogno i data scientist qui. Ma anche dal punto di vista tecnico non c’è solo il software.

Queste sono le quattro competenze critiche, al di fuori dello sviluppo di software, che mancano a molti data scientist.

Contesto statistico di base

Non capirai veramente cosa sta facendo il tuo codice se non conosci le statistiche di base dietro di esso. Ho incontrato molti data scientist che riuscivano a codificare un complicato modello di deep learning in pochissimo tempo, ma riuscivano a malapena a cogliere il significato di una distribuzione normale.

Data scientist esperti conoscono le basi dei loro strumenti. Mike Tyson l'ha detto bene: "Tutti hanno un piano finché non ricevono un pugno in faccia". Ebbene, quando il tuo modello di Data Science si comporta male e ti prende a pugni in faccia, spesso è la comprensione dei fondamenti che ti consentirà di correggere la rotta.

Foto di Bogdan Yukhymchuk on Unsplash

Devi avere solide basi matematiche e statistiche. Conosci i concetti fondamentali della Statistica Frequentista? Che dire della statistica bayesiana? Se dovessi scrivere lo pseudocodice del primo principio per un modello che stai sfruttando, potresti? Quali sono le lacune che ti mancano e come le colmi?

Inoltre, direi che spesso le migliori soluzioni nella scienza dei dati sono più fondamentali di quanto molti vorrebbero ammettere. L'eleganza delle soluzioni semplici e fondamentali è una lezione che i Data Scientist di maggior successo mi hanno mostrato ripetutamente.

Pensiero critico

I migliori data scientist sono bravi a comprendere le argomentazioni, a mettere in discussione gli altri e a svelare la verità su ciò che qualcuno sta apportando alla conversazione. La scienza dei dati non consiste nel rigurgitare informazioni riga per riga; c'è molta più arte di così. Arte che nasce dalla capacità di decifrare la qualità delle informazioni che ricevi.

Alcuni dei più grandi errori che ho visto nei progetti di Data Science sono iniziati con qualcuno che dava per scontate informazioni errate o un argomento debole senza metterlo in discussione. Se stai intraprendendo un progetto, è tuo compito porre le domande giuste e analizzare la situazione dall'inizio. Dire che stavi prendendo ordini o che eri partito con cattive informazioni è una scappatoia che non ti porterà molto lontano.

Trovo che il pensiero critico sia uno dei fattori determinanti più potenti per determinare se qualcuno avrà successo nella scienza dei dati. Il pensiero critico è necessario per qualsiasi posizione aziendale, ma è particolarmente cruciale nella scienza dei dati. Le domande poste sono troppo ambigue per essere affrontate senza un adeguato esame. Perché? Perché in un contesto aziendale sarai il destinatario di molte informazioni, teorie e opinioni. In parte sarà ben fondato, in parte non così tanto. In qualità di Data Scientist stai tentando di trasformare quelle informazioni e quelle idee in modelli statistici. Se non riesci a decifrare la qualità delle informazioni che ricevi, ti perderai in mare.

Foto di Anastasia Taioglou on Unsplash

Per sviluppare i muscoli per il dibattito, i Data Scientist hanno bisogno di una conoscenza di base della filosofia. Ci sono corsi gratuiti disponibili online che ti aiuteranno ad arrivarci. I migliori non sono mirati specificamente alla scienza dei dati. Per molti data scientist questi corsi saranno frustranti: le risposte giuste non saranno in bianco e nero. Questo è il punto.

Comunicazione

È un peccato, ma ho visto modelli di alta qualità fallire a causa della scarsa comunicazione. Il Data Scientist non è stato in grado di spiegare chiaramente cosa stesse facendo il loro modello o cosa significassero i risultati. Poiché nessuno riusciva a comprendere il loro lavoro, il progetto fu considerato un fallimento. In realtà, i risultati avrebbero potuto essere estremamente illuminanti. Tuttavia, se non riesci a far emergere queste informazioni in modo chiaro, significativo e riconoscibile per i tuoi clienti e i membri del team, non otterrai mai il grande impatto a cui miravi.

Oserei dire che, non importa quanto sia ben eseguito un progetto di Data Science, non sarà considerato un successo senza un'adeguata comunicazione. Se non sai come sarà il tuo progetto, stai mettendo tutto il tuo duro lavoro a rischio di essere rapidamente licenziato.

Foto di Creatori di campagne on Unsplash

Alcune buone comunicazioni derivano da un buon background statistico, altre da forti capacità di pensiero critico. Ma la comunicazione, di per sé, è un’abilità chiave. È il motivo per cui spesso trovi persone incredibilmente intelligenti relegate in qualche angolo buio e isolato dell'ufficio. Semplicemente non sanno come comunicare e il risultato è che gran parte dell'impatto del loro lavoro va perso.

C’è qualcosa da dire riguardo alla pratica specifica della comunicazione. Ancora una volta, ci sono molti corsi online per portarti al livello che devi raggiungere. E ancora una volta, i migliori di questi corsi non sono specifici della scienza dei dati.

Competenza nel dominio

Di recente ho ascoltato per caso una discussione tra data scientist sull'analisi dei prezzi, un campo in cui ho una certa esperienza. Ho potuto vedere la mancanza di comprensione del lato commerciale della questione. I data scientist si lanciavano direttamente nelle domande sulla selezione del modello, ma non avevano quasi alcuna comprensione delle limitazioni pratiche dei dati che avrebbero dovuto affrontare. Senza competenze nel settore, si stavano avviando verso un fallimento sicuro.

Solo perché puoi coltivare una pianta d'appartamento, non significa che puoi gestire un vigneto. Le sfumature contano. È fondamentale apprendere le specifiche del problema che si intende risolvere.

Foto di Jaime Casap on Unsplash

A volte guardo al mondo accademico e rimango sconcertato dallo stato attuale della scienza dei dati. Nel mondo accademico, si inizia con le competenze del settore e quindi si applicano modelli statistici. La modellazione statistica è secondaria rispetto alla comprensione teorica. Tuttavia, nella scienza dei dati iniziamo con la modellazione statistica e spesso trascuriamo la comprensione teorica, l’esperienza del settore, che sta alla base delle domande poste.

Penso che il modello accademico sia perfetto? Lontano da esso. E non consiglierei a tutti i data scientist di essere esperti di dominio. Ma i data scientist devono trovare un modo per incorporare le competenze del settore nel loro lavoro. Sia lavorando in una nicchia industriale specifica o trovando partner commerciali che possano fornire conoscenze di base per un progetto.

C'è di più nella scienza dei dati oltre allo sviluppo di software Ripubblicato dalla fonte https://towardsdatascience.com/theres-more-to-data-science-than-software-development-eb8c2fd5ac0c?source=rss—-7f60cf5620c9—4 tramite https:// versodatascience.com/feed

<!–

->

Timestamp:

Di più da Consulenti Blockchain