Tämän postauksen ovat kirjoittaneet Jan Paul Assendorp, Thomas Lietzow, Christopher Masch, Alexander Meinert, tri Lars Palzer ja Jan Schillemans SIGNAL IDUNAsta.
SIGNAL IDUNA, suuri saksalainen vakuutusyhtiö, kehittelemme parhaillaan itseämme uudelleen muutosohjelmallamme VISION2023 tullaksemme entistä asiakaslähtöisemmiksi. Kaksi näkökohtaa ovat keskeisiä tässä muutoksessa: suuren osan työvoimasta uudelleenorganisointi poikkitoimiviksi ja ketteriksi tiimeiksi ja aidosti datavetoiseksi yritykseksi tuleminen. Tässä motto "Sinä rakennat, käytät sitä" on tärkeä vaatimus monialaiselle tiimille, joka rakentaa data- tai koneoppimistuotteen (ML). Tämä asettaa tiukat rajoitukset sille, kuinka paljon työryhmä voi käyttää tuotteen tuotantoon ja pyörittämiseen.
Tämä postaus näyttää, kuinka SIGNAL IDUNA vastaa tähän haasteeseen ja hyödyntää sitä AWS-pilvi mahdollistaakseen monitoimitiimien rakentamisen ja käyttöönoton omia ML-tuotteitaan. Tätä tarkoitusta varten esittelemme ensin ketterän tiimin organisaatiorakenteen, joka asettaa keskeiset vaatimukset tuotteen kehittämiseen ja pyörittämiseen käytettävälle pilviinfrastruktuurille. Seuraavaksi näytämme, kuinka SIGNAL IDUNAn kolme keskustiimiä mahdollistavat monitoimitiimien rakentamisen AWS-pilveen datatuotteita minimaalisella avustuksella tarjoamalla sopivan työnkulun ja infrastruktuuriratkaisut, joita voidaan helposti käyttää ja mukauttaa. Lopuksi tarkastellaan lähestymistapaamme ja verrataan sitä klassisempaan lähestymistapaan, jossa kehitys ja toiminta erotetaan tiukemmin.
Agile@SI – organisaatiomuutoksen perusta
SIGNAL IDUNA on vuoden 2021 alusta lähtien ryhtynyt toteuttamaan strategiaansa Agile@SI ja luomaan ketteriä menetelmiä asiakaslähtöisten ratkaisujen kehittämiseen koko yritykselle [1]. Aiemmat tehtävät ja tavoitteet ovat nyt monitoimitiimien, ns kokoonpanot. Nämä ryhmät käyttävät ketteriä menetelmiä (kuten Scrum-kehystä), tekevät omat päätöksensä ja rakentavat asiakaslähtöisiä tuotteita. Tyypillisesti ryhmät sijaitsevat liiketoiminta-alueilla, kuten markkinoinnissa, ja monet painottavat voimakkaasti dataohjattujen ja ML-käyttöisten tuotteiden rakentamista. Tyypillisiä käyttötapauksia vakuutuksissa ovat esimerkiksi asiakkaiden vaihtuvuuden ennustaminen ja tuotesuositus.
ML:n monimutkaisuuden vuoksi ML-ratkaisun luominen yhden joukkueen toimesta on haastavaa ja vaatii siten eri ryhmien yhteistyötä.
SIGNAL IDUNAlla on kolme keskeistä tiimiä, jotka tukevat ML-ratkaisujen luomista. Näiden kolmen ryhmän ympäröimänä on tiimi, joka vastaa ML-ratkaisun kehittämisestä ja pitkäaikaisesta toiminnasta. Tämä lähestymistapa noudattaa AWS-jaetun vastuun mallia [2].
Yllä olevassa kuvassa kaikki joukkueet on esitetty yleiskatsauksessa.
Pilven käyttöönotto
Squad Cloud Enablement tarjoaa taustalla olevan pilviinfrastruktuurin koko organisaatiolle. Heidän tehtävänsä on antaa tiimille mahdollisuus rakentaa tuotteita itse pilviteknologioiden varaan. Tämä lyhentää ML:n kaltaisten uusien tuotteiden rakentamiseen kuluvaa aikaa, ja se noudattaa periaatetta "Sinä rakennat, sinä käytät sitä".
Data Office/Data Lake
Data Office/Data Lake -ryhmä tukee tietojen siirtämistä pilveen sekä oikean tietojoukon löytämistä. He perustavat tietoluettelon, jota voidaan käyttää tarvittavien tietojoukkojen etsimiseen ja valitsemiseen. Niiden tavoitteena on luoda tiedon läpinäkyvyys ja hallinto. Lisäksi he ovat vastuussa Data Laken perustamisesta ja toiminnasta, joka auttaa tiimejä pääsemään ja käsittelemään asiaankuuluvia tietoja.
Data Analytics -alusta
Squad Data Analytics Platform (DAP) on SIGNAL IDUNAn pilvi- ja ML-painotteinen tiimi, joka on taitava ML-tekniikasta, tietotekniikasta sekä datatieteestä. Mahdollistamme sisäiset tiimit, jotka käyttävät julkista pilvipalvelua ML:lle tarjoamalla infrastruktuurikomponentteja ja tietoa. Tuotteemme ja palvelumme esitellään yksityiskohtaisesti seuraavassa osiossa.
Monipuolisten ryhmien mahdollistaminen ML-ratkaisujen rakentamisessa
Jotta SIGNAL IDUNAn monitoimitiimit pystyisivät rakentamaan ML-ratkaisuja, tarvitsemme nopean ja monipuolisen tavan tarjota uudelleenkäytettävää pilviinfrastruktuuria sekä tehokkaan työnkulun perehtyville tiimeille pilviominaisuuksien hyödyntämiseksi.
Tätä tarkoitusta varten loimme standardoidun käyttöönotto- ja tukiprosessin ja toimitimme modulaariset infrastruktuurimallit Infrastructure as Code (IaC) -muodossa. Nämä mallipohjat sisältävät yleisiin ML-käyttötapauksiin suunniteltuja infrastruktuurikomponentteja, jotka voidaan helposti räätälöidä tietyn käyttötapauksen vaatimuksiin.
ML-ratkaisujen rakentamisen työnkulku
ML-ratkaisujen rakentamisessa ja käytössä on kolme pääroolia: datatieteilijä, ML-insinööri ja tietoinsinööri. Jokainen rooli on osa monialaista ryhmää ja niillä on erilaiset vastuut. Datatieteilijällä on tarvittavat aluetiedot käyttötapauksen toiminnallisista ja teknisistä vaatimuksista. ML-insinööri on erikoistunut automatisoitujen ML-ratkaisujen rakentamiseen ja mallien käyttöönottoon. Tietosuunnittelija varmistaa, että data virtaa paikan päällä ja pilvessä.
Alustan tarjoamisprosessi on seuraava:
Tietyn käyttötapauksen infrastruktuuri määritellään IaC:ssä ja versioitetaan keskeisessä projektivarastossa. Tämä sisältää myös mallien koulutuksen ja käyttöönoton putkistot sekä muut datatieteeseen liittyvät koodiartefaktit. Tietotieteilijöillä, ML-insinööreillä ja tietosuunnittelijoilla on pääsy projektivarastoon ja he voivat määrittää ja päivittää kaiken infrastruktuurikoodin itsenäisesti. Tämä antaa tiimille mahdollisuuden muuttaa infrastruktuuria tarvittaessa nopeasti. ML-insinööri voi kuitenkin aina tukea infrastruktuurin tai ML-mallien kehittämistä ja päivittämistä.
Uudelleenkäytettävät ja modulaariset infrastruktuurikomponentit
Hierarkkiset ja modulaariset IaC-resurssit on toteutettu terraform ja sisältää infrastruktuurin yleisiä datatieteen ja ETL-käyttötapauksia varten. Tämä antaa meille mahdollisuuden käyttää infrastruktuurikoodia uudelleen ja pakottaa vaaditut turvallisuus- ja vaatimustenmukaisuuskäytännöt, kuten käyttö AWS-avainhallintapalvelu (KMS) tietojen salaus sekä infrastruktuurin kapselointi Amazon virtuaalinen yksityinen pilvi (VPC) ympäristöissä ilman suoraa Internet-yhteyttä.
Hierarkkinen IaC-rakenne on seuraava:
- Moduulit kapseloi AWS-peruspalvelut tarvittaviin konfiguraatioihin suojausta ja pääsynhallintaa varten. Tämä sisältää parhaiden käytäntöjen määritykset, kuten yleisön pääsyn estoon Amazon Simple Storage Service (S3) ämpärit tai pakottaa salaus kaikille tallennetuille tiedostoille.
- Joissakin tapauksissa tarvitset erilaisia palveluita prosessien automatisoimiseen, kuten ML-mallien käyttöönottoon eri vaiheissa. Siksi määritimme Ratkaisumme nippuna erilaisia moduuleja yhteisessä kokoonpanossa erityyppisiin tehtäviin.
- Lisäksi tarjoamme täydelliset blueprints jotka yhdistävät ratkaisuja eri ympäristöissä vastaamaan projektin monia mahdollisia tarpeita. MLOps-suunnitelmassamme määritämme käyttöön otettavan infrastruktuurin AWS-tileihin integroitujen ja hajautettujen ML-mallien koulutukseen, hallintaan ja seurantaan. Keskustelemme tarkemmin seuraavassa osiossa.
DAP-ryhmä versioi nämä tuotteet keskustietovarastoon. Tämän ansiosta voimme jatkuvasti parantaa IaC:tämme ja harkita AWS:n uusia ominaisuuksia, kuten Amazon Sage Maker Mallirekisteri. Jokainen ryhmä voi viitata näihin resursseihin, parametroida niitä tarpeen mukaan ja lopulta ottaa ne käyttöön omilla AWS-tileillään.
MLOps-arkkitehtuuri
Tarjoamme käyttövalmiin suunnitelman erityisillä ratkaisuilla, jotka kattavat koko MLOps-prosessin. Suunnitelma sisältää infrastruktuurin, joka on jaettu neljälle AWS-tilille ML-mallien rakentamista ja käyttöönottoa varten. Näin voimme eristää resurssit ja työnkulut MLOps-prosessin eri vaiheita varten. Seuraavassa kuvassa näkyy monen tilin arkkitehtuuri, ja kuvataan, kuinka vastuu prosessin tietyistä vaiheista jakautuu eri teknisten roolien kesken.
- mallintaminen tili sisältää palvelut ML-mallien kehittämiseen. Ensinnäkin tietosuunnittelija käyttää ETL-prosessia tarjotakseen asiaankuuluvaa dataa SIGNAL IDUNA -datajärvestä, keskitetystä yhdyskäytävästä datapohjaisille työnkulkuille AWS-pilvessä. Myöhemmin datatieteilijä voi käyttää tietojoukkoa malliehdokkaiden kouluttamiseen ja arvioimiseen. Kun olet valmis laajoihin kokeiluihin, ML-insinööri integroi malliehdokkaan automatisoituun koulutusputkiin. Käytämme Amazon SageMaker Pipelinesiä koulutuksen, hyperparametrien virityksen ja mallin arvioinnin automatisointiin mittakaavassa. Tämä sisältää myös mallilinjan ja standardoidun hyväksymismekanismin malleille, jotka on tarkoitus ottaa käyttöön tuotantoon. Automatisoidut yksikkötestit ja koodianalyysi varmistavat koodin laadun ja luotettavuuden jokaisessa prosessivaiheessa, kuten tietojen esikäsittelyssä, mallin koulutuksessa ja arvioinnissa. Kun malli on arvioitu ja hyväksytty, käytämme Amazon SageMaker ModelPackages -pakettia liitäntänä koulutettuun malliin ja asiaankuuluviin metatietoihin.
- työkalut tili sisältää automatisoituja CI/CD-putkia eri vaiheilla koulutettujen mallien testausta ja käyttöönottoa varten. Testivaiheessa mallit otetaan käyttöön palveleva ei-tuote tili. Vaikka mallin laatu arvioidaan koulutusprosessissa ennen mallin käyttöönottoa tuotantoa varten, suoritamme tässä suoritus- ja integrointitestejä erillisessä testausympäristössä. Testausvaiheen jälkeen mallit otetaan käyttöön tarjoilutuote tili integroitava tuotannon työnkulkuihin.
Erottamalla MLOps-työnkulun vaiheet eri AWS-tileihin voimme eristää kehityksen ja testauksen tuotannosta. Siksi voimme noudattaa tiukkaa pääsy- ja turvallisuuspolitiikkaa. Lisäksi räätälöidyt IAM-roolit varmistavat, että tietyt palvelut pääsevät käsiksi vain sen laajuuden edellyttämiin tietoihin ja muihin palveluihin vähiten etuoikeusperiaatetta. Palveluympäristöissä olevat palvelut voidaan lisäksi tuoda ulkoisten liiketoimintaprosessien saataville. Liiketoimintaprosessi voi esimerkiksi kysyä päätepisteeltä palvelutuoteympäristössä malliennusteita.
Lähestymistapamme edut
Tällä prosessilla on monia etuja verrattuna kehityksen ja toiminnan tiukkaan erottamiseen sekä ML-malleissa että vaaditussa infrastruktuurissa:
- Eristäminen: Jokainen tiimi saa omat AWS-tilinsä, jotka on täysin eristetty muiden tiimien ympäristöistä. Tämä helpottaa käyttöoikeuksien hallintaa ja tietojen pitämistä yksityisinä niille, joilla on oikeus käsitellä niitä.
- Pilven käyttöönotto: Tiimin jäsenet, joilla on vähän aiempaa kokemusta pilvi DevOpsista (kuten monet datatieteilijät), voivat helposti seurata koko infrastruktuurin suunnittelu- ja hallintaprosessia, koska heiltä (melkein) mikään ei ole piilossa keskuspalvelun takana. Tämä luo paremman ymmärryksen infrastruktuurista, mikä puolestaan voi auttaa heitä luomaan datatieteen tuotteita tehokkaammin.
- Tuotteen omistajuus: Esikonfiguroitujen infrastruktuuriratkaisujen ja hallittujen palveluiden käyttö pitää ML-tuotteen hallinnan esteen tuotannossa erittäin alhaisena. Siksi datatieteilijä voi helposti ottaa tuotantoon pantavan mallin omistukseensa. Tämä minimoi tunnetun riskin siitä, että mallia ei saada tuotantoon kehityksen jälkeen.
- Innovaatio: Koska ML-insinöörit ovat mukana kauan ennen kuin malli on valmis tuotantoon, he voivat luoda infrastruktuuriratkaisuja, jotka soveltuvat uusiin käyttötapauksiin samalla kun datatieteilijät kehittävät ML-mallia.
- Sopeutumiskyky: Koska DAP:n kehittämät IaC-ratkaisut ovat vapaasti saatavilla, jokainen tiimi voi helposti muokata niitä vastaamaan käyttötapauksensa erityistarpeita.
- Avoin lähdekoodi: Kaikki uudet infrastruktuuriratkaisut voidaan helposti asettaa saataville keskitetyn DAP-koodivaraston kautta muiden tiimien käyttöön. Ajan myötä tämä luo runsaan koodikannan infrastruktuurikomponenteilla, jotka on räätälöity erilaisiin käyttötapauksiin.
Yhteenveto
Tässä viestissä havainnollistimme, kuinka SIGNAL IDUNAn monitoimitiimit voivat rakentaa ja käyttää ML-tuotteita AWS:ssä. Keskeistä lähestymistapaamme on oman AWS-tilien joukon käyttö kullekin tiimille yhdessä räätälöityjen IaC-suunnitelmien ja -ratkaisujen kanssa. Nämä kaksi komponenttia mahdollistavat monitoimitiimin luoda ja käyttää tuotannon laatuinfrastruktuuria. He puolestaan voivat ottaa ML-tuotteidensa täydellisen omistuksensa.
Mainita Amazon SageMaker mallinrakennusputkistot – Amazon SageMaker lisätietoja.
Löydä lisätietoja sivustosta ML AWS:ssä virallisella sivullamme.
Viitteet
[1] https://www.handelsblatt.com/finanzen/versicherungsbranche-vorbild-spotify-signal-iduna-wird-von-einer-handwerker-versicherung-zum-agilen-konzern/27381902.html
[2] https://blog.crisp.se/wp-content/uploads/2012/11/SpotifyScaling.pdf
[3] https://aws.amazon.com/compliance/shared-responsibility-model/
Tietoja Tekijät
Jan Paul Assendorp on ML-insinööri, joka keskittyy vahvasti datatieteeseen. Hän rakentaa ML-malleja ja automatisoi mallikoulutuksen ja käyttöönoton tuotantoympäristöissä.
Thomas Lietzow on ryhmän Data Analytics -alustan Scrum Master.
Christopher Masch on ryhmän Data Analytics -alustan tuoteomistaja, jolla on tietoa tietotekniikasta, datatieteestä ja ML-tekniikasta.
Aleksanteri Meinert on osa Data Analytics Platform -tiimiä ja toimii ML-insinöörinä. Aloitti tilastoista, kasvoi datatieteen projekteissa, löysi intohimon ML-menetelmiin ja arkkitehtuuriin.
Tohtori Lars Palzer on datatutkija ja osa Data Analytics Platform -tiimiä. Autettuaan rakentamaan MLOps-arkkitehtuurin komponentteja, hän käyttää niitä nyt ML-tuotteiden rakentamiseen.
Jan Schillemans on ML-insinööri, jolla on ohjelmistotekniikan tausta. Hän keskittyy ohjelmistosuunnittelun parhaiden käytäntöjen soveltamiseen ML-ympäristöihin (MLOps).
- "
- 100
- 2021
- pääsy
- Tili
- poikki
- Toiminta
- etuja
- ketterä
- Kaikki
- Vaikka
- Amazon
- analyysi
- Analytics
- Hakeminen
- lähestymistapa
- arkkitehtuuri
- Automatisoitu
- saatavissa
- AWS
- ovat
- PARAS
- parhaat käytännöt
- rakentaa
- Rakentaminen
- Niputtaa
- liiketoiminta
- kyvyt
- tapauksissa
- haaste
- pilvi
- pilvi infrastruktuuri
- koodi
- yhteistyö
- yhdistelmä
- Yhteinen
- yritys
- verrattuna
- noudattaminen
- Konfigurointi
- sisältää
- Luominen
- tiedot
- Data Analytics
- tietojenkäsittely
- tietojen tutkija
- omistautunut
- sijoittaa
- levityspinnalta
- käyttöönotto
- suunnittelu
- yksityiskohta
- kehittää
- kehitetty
- kehittämällä
- Kehitys
- eri
- pohtia
- jaettu
- verkkotunnuksen
- helposti
- salaus
- päätepiste
- insinööri
- Tekniikka
- Engineers
- ympäristö
- olennainen
- perustaa
- esimerkki
- experience
- FAST
- Ominaisuudet
- Kuva
- Vihdoin
- Etunimi
- Keskittää
- keskityttiin
- jälkeen
- löytyi
- perusta
- Puitteet
- koko
- Tavoitteet
- hallinto
- auttaa
- auttaa
- tätä
- Miten
- HTTPS
- kuva
- täytäntöön
- tärkeä
- parantaa
- sisältää
- tiedot
- Infrastruktuuri
- vakuutus
- integroitu
- integraatio
- liitäntä
- Internet
- osallistuva
- IT
- avain
- tuntemus
- suuri
- OPPIA
- oppiminen
- vähän
- Pitkät
- kone
- koneoppiminen
- johto
- toimitusjohtaja
- markkinat
- Marketing
- ottelu
- Jäsenet
- Meta
- ML
- malli
- mallit
- modulaarinen
- seuranta
- Uudet ominaisuudet
- uusia tuotteita
- kampanja
- virallinen
- perehdytyksessä
- toiminta
- organisaatio
- Muut
- omistaja
- suorituskyky
- foorumi
- politiikkaa
- politiikka
- ennustus
- Ennusteet
- Ehkäisy
- yksityinen
- prosessi
- Prosessit
- Tuotteet
- tuotanto
- Tuotteemme
- Ohjelma
- projekti
- hankkeet
- toimittaa
- julkinen
- Julkinen pilvi
- laatu
- säilytyspaikka
- tarvitaan
- vaatimukset
- Esittelymateriaalit
- vastuullinen
- arviot
- Riski
- ajaa
- Asteikko
- tiede
- Tiedemies
- tutkijat
- Haku
- turvallisuus
- palvelu
- Palvelut
- palvelevat
- setti
- yhteinen
- Yksinkertainen
- Tuotteemme
- ohjelmistotuotanto
- Ratkaisumme
- erikoistunut
- viettää
- Vaihe
- Alkaa
- alkoi
- tilasto
- Levytila
- Strategia
- vahva
- Myöhemmin
- tuki
- Tuetut
- ympäröimä
- tehtävät
- joukkue-
- Tekninen
- Technologies
- testi
- Testaus
- testit
- aika
- koulutus
- Muutos
- Läpinäkyvyys
- Päivitykset
- us
- käyttää
- käyttää
- Virtual
- Katso
- KUKA
- sisällä
- ilman
- Referenssit
- työvoima
- toimii