I data scientist rinunciano all'uso del codice open source a causa di preoccupazioni sulla sicurezza PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

I data scientist evitano l'uso del codice open source a causa di problemi di sicurezza

Le vulnerabilità nei componenti open source, come i difetti diffusi rivelati 10 mesi fa in Log4j 2.0, hanno costretto i data scientist a rivalutare il codice open source frequentemente utilizzato nell’analisi e nella creazione di modelli di machine learning.

Secondo un rapporto di Anaconda, una società di piattaforme di scienza dei dati, nell'ultimo anno, il 40% dei data scientist, degli analisti aziendali e degli studenti intervistati ha ridotto l'uso di componenti open source, mentre un terzo è rimasto stabile e solo 7 % ha incorporato più codice open source nei propri progetti. Secondo Anaconda, la maggior parte degli intervistati non fa capo al dipartimento di informatica (18%), ma lavora all'interno del proprio gruppo di scienza dei dati o di ricerca e sviluppo (47%).Stato della scienza dei dati al 2022” rapporto, pubblicato la settimana scorsa.

Mentre gli sviluppatori di software e l’IT hanno già iniziato a esaminare il codice sicuro, le preoccupazioni sulla sicurezza del software open source sono una tendenza relativamente nuova per il mondo della scienza dei dati, afferma Peter Wang, co-fondatore e CEO di Anaconda.

"Vediamo un'enorme percentuale di persone che lavorano in organizzazioni in cui l'IT ha creato un atteggiamento molto rigido nei confronti dell'open source e di Python", afferma. “Questi non sono sviluppatori esperti. … Sono scienziati dei dati e persone che utilizzano l’apprendimento automatico e potrebbero non essere affatto sviluppatori molto esperti, che utilizzano tutto ciò che possono scaricare per eseguire le loro analisi, per poi trasferirlo all’IT”.

Negli ultimi due anni la sicurezza dei componenti open source e della catena di fornitura del software in generale è diventata una considerazione primaria tra gli sviluppatori di software, le aziende e i governi nazionali. A maggio, ad esempio, il National Institute of Standards and Technology (NIST) degli Stati Uniti ha pubblicato linee guida per affrontare i rischi della catena di fornitura del software. Inoltre, un numero crescente di fornitori di software si sono uniti alla Open Software Security Foundation (OpenSSF) della Linux Foundation.

Mentre molti team di data science analizzano i componenti open source alla ricerca di vulnerabilità, molti invece creano il proprio software. Fonte: rapporto “2022 State of Data Science” di Anaconda.

Nel complesso, la maturità degli sforzi di sicurezza delle organizzazioni è migliorata. Circa la metà delle aziende dispone di una politica di sicurezza open source, che porta a prestazioni migliori nelle misure di preparazione alla sicurezza, secondo il sondaggio di giugno. Inoltre, gli sforzi per controllare il rischio open source sono aumentati del 51% negli ultimi 12 mesi, ha affermato uno studio sulla maturità della sicurezza il settembre 21.

"Con l'attenzione posta sulle catene di fornitura del software, la maggior parte delle organizzazioni aziendali sta adottando un approccio alla sicurezza delle applicazioni basato sul rischio", ha affermato Jason Schmitt, direttore generale del Synopsys Software Integrity Group, in una dichiarazione che annuncia lo studio. “Un simile approccio riconosce che la sicurezza non è limitata al codice base; include il processo di sviluppo del software in cui le revisioni e i test di sicurezza “si spostano ovunque” per migliorare continuamente i risultati di sicurezza”.

Gli sviluppatori espandono l'uso dell'open source 

Secondo altri dati, le società di software non vedono alcun tipo di diminuzione nell’utilizzo dell’open source. Invece, le organizzazioni di sviluppo si stanno concentrando sul miglioramento della sicurezza del software open source e sull'utilizzo della sicurezza come guida principale nella selezione dei componenti.

Nel "Stato della catena di fornitura del software nel 2021” rapporto, ad esempio, Sonatype ha scoperto che i quattro principali ecosistemi open source – Maven Central Repository (Java), Node.js (JavaScript), Python Package Index (Python) e NuGet gallery (.NET) – ospitavano 37 milioni di utenti. progetti e componenti open source, con un aumento del 20% anno su anno. Anche la domanda per questi componenti è in aumento: sono stati scaricati più di 2.2 trilioni di componenti, ovvero un aumento annuo del 73%.

Un allontanamento dai pacchetti open source da parte della comunità dei data science, auto-riferito, è probabilmente indicativo di una maggiore consapevolezza dei problemi di sicurezza e di una minore necessità di eliminare i componenti open source in fase di sviluppo, afferma Tracy Miranda, responsabile dell'open source presso Chainguard.

Sebbene i team di data science e quelli di sviluppo possano aver reagito in modo diverso ai principali problemi di sicurezza, come Log4j 2.0 — Le aziende, quando si allontanano da un pacchetto open source, hanno poche possibilità di adottare un pacchetto diverso i cui manutentori hanno posto maggiore enfasi sulla sicurezza, dice.

“Le aziende sfruttano l’open source come un modo per aumentare la loro velocità, quindi se stanno ridimensionando, a cosa si ridurranno? Scrivere codice internamente? Utilizzando versioni di terze parti impacchettate?" Miranda dice, aggiungendo invece che "penso che possiamo aspettarci di vedere le aziende essere più esigenti riguardo alla qualità dell'open source che utilizzano, soprattutto in relazione alle funzionalità di sicurezza".

I data scientist stanno cercando di recuperare terreno

La disconnessione tra le due parti è probabilmente dovuta al diverso pubblico dei vari sondaggi. Il sondaggio di Anaconda si è concentrato sui professionisti della scienza dei dati, come si può vedere dalla scelta dei linguaggi di programmazione da parte degli intervistati: il 58% ha utilizzato Python e il 42% ha utilizzato SQL, mentre solo il 26% ha utilizzato JavaScript. 

Una misura migliore dei sentimenti degli sviluppatori di software è il "Sondaggio per sviluppatori 2022", che ha rilevato che mentre il 58% delle "persone che imparano a programmare" utilizza Python, solo il 44% degli sviluppatori professionisti programma in quel linguaggio. D'altra parte, secondo il sondaggio di StackOverflow, il 68% degli sviluppatori professionisti utilizza JavaScript.

Inoltre, mentre i professionisti della scienza dei dati lavorano presso aziende che nella stragrande maggioranza (87%) consentono software open source, circa un quarto (26%) ha una supervisione minima da parte del dipartimento IT delle proprie scelte open source, afferma il rapporto Anaconda. In un altro 18% delle aziende, il reparto IT specifica solo circa la metà dei componenti open source disponibili.

I manutentori dei progetti più critici – di cui ce ne sono centinaia, se non migliaia – devono utilizzare dipendenze sicure, testare il proprio codice e convalidare l’affidabilità dei contributori. I manutentori dovrebbero anche pubblicare una scorecard sulla sicurezza: un'iniziativa creata da Google ora gestita dalla Open Source Security Foundation (OpenSSF), che attribuisce un grado di sicurezza ad un progetto sulla base di quasi 20 criteri diversi.

Sebbene la consapevolezza sia probabilmente in aumento, non esiste una soluzione rapida, afferma Miranda.

“La realtà è che prima non esistevano opzioni più sicure”, afferma. "Ridurre le dipendenze non necessarie per ridurre la superficie di attacco è sensato, ma è difficile da fare una volta che l'albero delle dipendenze è diventato grande."

Timestamp:

Di più da Lettura oscura