ML automatizat, scalabil și eficient din punct de vedere al costurilor pe AWS: Detectarea ferigilor arborescente australiene invazive în pădurile hawaiene PlatoBlockchain Data Intelligence. Căutare verticală. Ai.

ML automatizat, scalabil și rentabil pe AWS: detectarea ferigilor arborele australiene invazive în pădurile hawaiene

Această postare de blog este co-scrisă de Theresa Cabrera Menard, un om de știință aplicat/specialist în sisteme de informații geografice la The Nature Conservancy (TNC) din Hawaii.

În ultimii ani, Amazon și AWS au dezvoltat o serie de inițiative de sustenabilitate cu scopul general de a contribui la conservarea mediului natural. Ca parte a acestor eforturi, AWS Professional Services stabilește parteneriate cu organizații precum The Nature Conservancy (TNC), oferind sprijin financiar și servicii de consultanță pentru eforturile de conservare a mediului. Apariția tehnologiilor de date mari crește rapid colectarea datelor ecologice, în timp ce tehnicile de învățare automată (ML) sunt din ce în ce mai utilizate în analiza datelor ecologice. AWS se află într-o poziție unică pentru a ajuta cu stocarea și ingerarea datelor, precum și cu analiza datelor.

Pădurile hawaiene sunt esențiale ca sursă de apă curată și pentru conservarea practicilor culturale tradiționale. Cu toate acestea, ei se confruntă cu amenințări critice din cauza defrișărilor, dispariția speciilor și deplasarea speciilor native de către plante invazive. Statul Hawaii cheltuiește anual aproximativ o jumătate de miliard de dolari pentru combaterea speciilor invazive. TNC ajută la abordarea problemei plantelor invazive prin inițiative precum Hawaii Challenge, care permite oricui cu un computer și acces la internet să participe la etichetarea buruienilor invazive în peisaj. AWS a încheiat un parteneriat cu TNC pentru a construi pe baza acestor eforturi și pentru a dezvolta o soluție scalabilă, bazată pe cloud, care automatizează și accelerează detectarea și localizarea ferigilor invazive.

Printre cele mai agresive specii care invadează pădurile hawaiene se numără feriga arborescentă australiană, introdusă inițial ca ornamental, dar acum se răspândește rapid pe mai multe insule prin producerea de numeroși spori care sunt ușor transportați de vânt. Feriga arborescentă australiană crește rapid și întrece cu alte plante, sufocând coronamentul și afectând mai multe specii native, ceea ce duce la o pierdere a diversității biologice.

În prezent, detectarea ferigilor se realizează prin captarea imaginilor de la avioanele cu aripi fixe care supraveghează coronamentul pădurii. Imaginile sunt inspectate manual de etichetatorii umani. Acest proces necesită efort și timp semnificativ, potențial întârziind eforturile de atenuare ale echipajelor de la sol cu ​​săptămâni sau mai mult. Unul dintre avantajele utilizării unui algoritm de viziune computerizată (CV) este potențiala economie de timp, deoarece timpul de inferență este de așteptat să dureze doar câteva ore.

Conducta de învățare automată

Următoarea diagramă arată fluxul general de lucru ML al acestui proiect. Primul obiectiv al parteneriatului AWS-TNC a fost de a automatiza detectarea ferigilor din imaginile aeriene. Un al doilea obiectiv a fost de a evalua potențialul algoritmilor CV de a clasifica în mod fiabil ferigile ca fiind native sau invazive. Inferența modelului CV poate forma apoi baza unei soluții native AWS Cloud complet automatizate, care sporește capacitatea TNC de a detecta eficient și în timp util ferigile invazive și direcționează resursele către zonele puternic afectate. Următoarea diagramă ilustrează această arhitectură.

ML automatizat, scalabil și eficient din punct de vedere al costurilor pe AWS: Detectarea ferigilor arborescente australiene invazive în pădurile hawaiene PlatoBlockchain Data Intelligence. Căutare verticală. Ai.

În următoarele secțiuni, acoperim următoarele subiecte:

  • Instrumentele de prelucrare și analiză a datelor utilizate.
  • Conducta modelului de detectare a ferigilor, inclusiv instruire și evaluare.
  • Cum sunt clasificate ferigile native și invazive.
  • Beneficiile pe care TNC le-a experimentat prin această implementare.

Prelucrarea și analiza datelor

Imaginile aeriene sunt achiziționate de contractorii TNC prin zborul cu avioane cu aripi fixe deasupra zonelor afectate din Insulele Hawaii. Acoperirea cu nori puternică și persistentă împiedică utilizarea imaginilor din satelit. Datele disponibile pentru TNC și AWS constau din imagini brute și metadate care permit localizarea geografică a ferigilor deduse.

Imagini și coordonate geografice

Imaginile primite din sondajele aeriene sunt în intervalul de 100,000 x 100,000 pixeli și sunt stocate în formatul JPEG2000 (JP2), care încorporează geolocalizarea și alte metadate. Fiecare pixel poate fi asociat unor coordonate geospațiale specifice Universal Transverse Mercator (UTM). Sistemul de coordonate UTM împarte lumea în zone nord-sud, fiecare cu 6 grade de longitudine lățime. Prima coordonată UTM (nord) se referă la distanța dintre o poziție geografică și ecuator, măsurată cu nordul ca direcție pozitivă. Al doilea coordonat (est) măsoară distanța, în metri, spre est, pornind de la un meridian central care este atribuit în mod unic pentru fiecare zonă. Prin convenție, meridianul central din fiecare regiune are o valoare de 500,000, iar un metru la est de meridianul central al regiunii are, prin urmare, valoarea 500,001. Pentru a converti între coordonatele pixelilor și coordonatele UTM, folosim transformarea afină așa cum este prezentată în următoarea ecuație, unde X', y“ sunt coordonate UTM și x, y sunt coordonatele pixelilor. Parametrii a, b, c, d, e, și f ale transformării afine sunt furnizate ca parte a metadatelor fișierului JP2.

ML automatizat, scalabil și eficient din punct de vedere al costurilor pe AWS: Detectarea ferigilor arborescente australiene invazive în pădurile hawaiene PlatoBlockchain Data Intelligence. Căutare verticală. Ai.

În scopul etichetării, instruirea și deducerea fișierelor brute JP2 sunt împărțite în fișiere JPG de 512 x 512 pixeli care nu se suprapun. Extragerea subimaginilor mai mici din JP2 original necesită crearea unei transformări afine individuale direct din fiecare fișier JPG extras individual. Aceste operațiuni au fost efectuate folosind rasterio și affine Pachete Python cu Lot AWS și a facilitat raportarea poziției ferigilor deduse în coordonatele UTM.

Etichetarea datelor

Identificarea vizuală a ferigilor în imaginile aeriene este complicată de mai mulți factori. Majoritatea informațiilor sunt agregate în canalul verde și există o densitate mare a frunzișului, cu ocluzie parțială frecventă a ferigilor atât de către ferigi din apropiere, cât și de către altă vegetație. Informația de interes pentru TNC este densitatea relativă a ferigilor pe acru, de aceea este important să numărăm fiecare feriga individuală chiar și în prezența ocluziei. Având în vedere aceste obiective și constrângeri, am ales să utilizăm un cadru CV de detectare a obiectelor.

Pentru a eticheta datele, am creat un Amazon SageMaker Ground Adevăr  munca de etichetare. Fiecare casetă de delimitare a fost destinată să fie centrată în centrul ferigii și să acopere majoritatea ramurilor de feriga, încercând în același timp să minimizeze includerea altor vegetații. Etichetarea a fost efectuată de autori în urma consultării cu experții din domeniul TNC. Setul de date inițial etichetat a inclus 500 de imagini, fiecare conținând în mod obișnuit mai multe ferigi, așa cum se arată în următoarele exemple de imagini. În acest set inițial etichetat nu am făcut distincția între ferigi native și invazive.

ML automatizat, scalabil și eficient din punct de vedere al costurilor pe AWS: Detectarea ferigilor arborescente australiene invazive în pădurile hawaiene PlatoBlockchain Data Intelligence. Căutare verticală. Ai.

Antrenament și actualizare model de detectare a obiectelor Fern

În această secțiune discutăm antrenarea modelului inițial de detectare a ferigilor, etichetarea datelor în Ground Truth și actualizarea modelului prin reinstruire. De asemenea, discutăm despre utilizarea AI augmentată Amazon (Amazon A2I) pentru actualizarea modelului și utilizarea Funcții pas AWS pentru conducta generală de inferență de detecție a ferigilor.

Antrenamentul inițial al modelului de detectare a ferigilor

Am folosit Amazon SageMaker algoritm de detectare a obiectelor, deoarece oferă performanțe de ultimă generație și poate fi integrat cu ușurință cu alte servicii SageMaker, cum ar fi Ground Truth, puncte finale și joburi Batch Transform. Am folosit cadrul și rețeaua de bază Single Shot MultiBox Detector (SSD). vgg-16. Această rețea vine pre-antrenată pe milioane de imagini și mii de clase din setul de date ImageNet. Împărțim toate imaginile TNC JP2 date în plăci de 512 x 512 pixeli ca set de date de antrenament. Există aproximativ 5,000 de imagini JPG mici și am selectat aleatoriu 4,500 de imagini ca set de date de antrenament și 500 de imagini ca set de date de validare. După reglarea hiperparametrului, am ales următorii hiperparametri pentru antrenamentul modelului: class=1, overlap_threshold=0.3, learning_rate=0.001, și epochs=50. Precizia medie medie (mAP) a modelului inițial calculată pe setul de validare este 0.49. După verificarea rezultatelor detectării și a etichetelor TNC, am descoperit că multe ferigi care au fost detectate ca ferigă de către modelul nostru de detectare a obiectelor nu au fost etichetate ca ferigă din etichetele de ferigă TNC, așa cum se arată în imaginile următoare.

ML automatizat, scalabil și eficient din punct de vedere al costurilor pe AWS: Detectarea ferigilor arborescente australiene invazive în pădurile hawaiene PlatoBlockchain Data Intelligence. Căutare verticală. Ai.

Prin urmare, am decis să folosim Ground Truth pentru a reeticheta un subset al setului de date ferigă în încercarea de a îmbunătăți performanța modelului și apoi a compara rezultatele inferenței ML cu acest model inițial pentru a verifica care abordare este mai bună.

Etichetarea datelor în Ground Truth

Pentru a eticheta setul de date ferigă, am configurat o lucrare Ground Truth de 500 de imagini de 512 x 512 pixeli selectate aleatoriu. Fiecare casetă de delimitare a fost destinată să fie centrată în centrul ferigii și să acopere majoritatea ramurilor de feriga, încercând în același timp să minimizeze includerea altor vegetații. Etichetarea a fost efectuată de oamenii de știință de date AWS în urma consultării cu experții din domeniul TNC. În acest set de date etichetat, nu am făcut distincția între ferigi native și invazive.

Reantrenarea modelului de detectare a ferigilor

Prima iterație de antrenament a modelului a utilizat un set de 500 de imagini etichetate, dintre care 400 au fost în setul de antrenament și 100 în setul de validare. Acest model a obținut un scor mAP (calculat pe setul de validare) de 0.46, care nu este foarte mare. Apoi am folosit acest model inițial pentru a produce predicții pe un set mai mare de 3,888 de imagini JPG extrase din datele JP2 disponibile. Cu această imagine mai mare setată pentru antrenament, modelul a obținut un scor mAP de 0.87. Această îmbunătățire marcată (așa cum se arată în următoarele exemple de imagini) ilustrează valoarea etichetării automate și a iterării modelului.

ML automatizat, scalabil și eficient din punct de vedere al costurilor pe AWS: Detectarea ferigilor arborescente australiene invazive în pădurile hawaiene PlatoBlockchain Data Intelligence. Căutare verticală. Ai.

Pe baza acestor constatări, am stabilit că etichetarea Ground Truth plus etichetarea automată și iterația modelului par să mărească semnificativ performanța de predicție. Pentru a cuantifica în continuare performanța modelului rezultat, un set de 300 de imagini au fost selectate aleatoriu pentru o rundă suplimentară de validare. Am descoperit că, atunci când se utilizează un prag de 0.3 pentru încrederea detectării, 84% dintre imagini au fost considerate de către etichetator ca având numărul corect de ferigi prezise, ​​cu 6.3% fiind supranumărări și 9.7% fiind subnumărări. În cele mai multe cazuri, supra/subnumărarea a fost oprită de doar una sau două ferigi din cinci sau șase prezente într-o imagine și, prin urmare, nu se așteaptă să afecteze în mod semnificativ estimarea generală a densității ferigilor pe acru.

Amazon A2I pentru actualizarea modelului de detectare a ferigilor

O provocare pentru acest proiect este că imaginile care vin în fiecare an sunt luate de la aeronave, astfel încât altitudinea, unghiurile și starea de lumină a imaginilor pot fi diferite. Modelul antrenat pe setul de date anterior trebuie reantrenat pentru a menține o performanță bună, dar etichetarea ferigilor pentru un nou set de date necesită multă muncă. Prin urmare, am folosit Amazon A2I pentru a integra revizuirea umană pentru a asigura acuratețea datelor noi. Am folosit imagini 360 ca set de date de testare; 35 de imagini au fost trimise înapoi spre revizuire deoarece aceste imagini nu aveau predicții cu un scor de încredere peste 0.3. Am reetichetat aceste 35 de imagini și am reantrenat modelul folosind învățarea incrementală în Amazon A2I. Modelul reantrenat a arătat o îmbunătățire semnificativă față de modelul anterior în multe aspecte, cum ar fi detectările în condiții de lumină mai întunecată, așa cum se arată în imaginile următoare. Aceste îmbunătățiri au făcut ca noul model să funcționeze destul de bine pe noul set de date, cu foarte puține recenzii umane și lucrări de reetichetare.

ML automatizat, scalabil și eficient din punct de vedere al costurilor pe AWS: Detectarea ferigilor arborescente australiene invazive în pădurile hawaiene PlatoBlockchain Data Intelligence. Căutare verticală. Ai.

Conducta de inferență de detectare a ferigilor

Scopul general al parteneriatului TNC-AWS este crearea unei conducte automate care ia ca intrare fișierele JP2 și produce drept ieșire coordonatele UTM ale ferigilor prezise. Există trei sarcini principale:

  • Prima este asimilarea fișierului JP2 mare și împărțirea acestuia în fișiere JPG mai mici de 512 x 512. Fiecare dintre acestea are o transformare afină asociată care poate genera coordonate UTM din coordonatele pixelilor.
  • A doua sarcină este deducerea și detectarea potențialelor ferigi și locațiile acestora.
  • Sarcina finală adună rezultatele inferenței într-un singur fișier CSV care este livrat către TNC.

Orchestrarea conductei a fost implementată utilizând funcții Step. Așa cum este cazul pentru inferență, această alegere automatizează multe dintre aspectele furnizării și eliberării resurselor de calcul în funcție de necesități. În plus, arhitectura conductei poate fi inspectată vizual, ceea ce îmbunătățește diseminarea către client. În cele din urmă, pe măsură ce modelele actualizate pot deveni disponibile în viitor, acestea pot fi schimbate cu o întrerupere mică sau deloc a fluxului de lucru. Următoarea diagramă ilustrează acest flux de lucru.

ML automatizat, scalabil și eficient din punct de vedere al costurilor pe AWS: Detectarea ferigilor arborescente australiene invazive în pădurile hawaiene PlatoBlockchain Data Intelligence. Căutare verticală. Ai.

Când conducta de inferență a fost utilizată în modul lot pe o imagine sursă de 10,000 x 10,000 pixeli și alocarea unei instanțe m4.large pentru transformarea lotului SageMaker, întregul flux de lucru de inferență a rulat în 25 de minute. Dintre acestea, 10 minute au fost luate de transformarea lotului, iar restul de pașii Funcții de pas și Funcții AWS Lambda. TNC se așteaptă să seteze până la 24 de imagini JP2 la un moment dat, aproximativ de două ori pe an. Prin ajustarea dimensiunii și a numărului de instanțe care vor fi utilizate de transformarea lotului, ne așteptăm ca conducta de inferență să poată fi rulată complet în 24 de ore.

Clasificarea ferigilor

În această secțiune, discutăm despre modul în care am aplicat algoritmul SageMaker Principal Component Analysis (PCA) la casetele de delimitare și am validat rezultatele clasificării.

Aplicarea PCA la cutiile de delimitare cu ferigi

Pentru a determina dacă este posibil să se facă distincția între feriga arborescentă australiană și ferigile native fără efortul substanțial de a eticheta un set mare de imagini, am implementat o procedură de analiză a imaginii nesupravegheată. Pentru fiecare ferigă prezisă, am extras regiunea din interiorul casetei de delimitare și am salvat-o ca imagine separată. Apoi, aceste imagini au fost încorporate într-un spațiu vectorial cu dimensiuni mari prin utilizarea img2vec abordare. Această procedură a generat un vector lung de 2048 pentru fiecare imagine de intrare. Acești vectori au fost analizați prin utilizarea analizei componentelor principale implementate în algoritmul SageMaker PCA. Am reținut pentru analize ulterioare primele trei componente, care împreună au reprezentat mai mult de 85% din variația datelor vectoriale.

Pentru fiecare dintre primele trei componente, am extras imaginile asociate cu scorurile cele mai mari și cele mai mici de-a lungul componentei. Aceste imagini au fost inspectate vizual de oamenii de știință de date AWS și de experții în domeniul TNC, cu scopul de a identifica dacă scorurile cele mai mari și cele mai mici sunt asociate cu ferigi native sau invazive. Am cuantificat în continuare puterea de clasificare a fiecărei componente principale prin etichetarea manuală a unui set mic de 100 de imagini de ferigă ca fiind invazive sau native și utilizând scikit-learn utilitate pentru a obține metrici precum aria sub curba de precizie-rechemare pentru fiecare dintre cele trei componente PCA. Când scorurile PCA au fost utilizate ca intrări la un clasificator binar (a se vedea graficul următor), am constatat că PCA2 a fost cel mai discriminatoriu, urmat de PCA3, PCA1 afișând doar performanțe modeste în distingerea între ferigi native și invazive.

ML automatizat, scalabil și eficient din punct de vedere al costurilor pe AWS: Detectarea ferigilor arborescente australiene invazive în pădurile hawaiene PlatoBlockchain Data Intelligence. Căutare verticală. Ai.

Validarea rezultatelor clasificării

Apoi am examinat imagini cu cele mai mari și mai mici valori PCA2 cu experți în domeniul TNC pentru a verifica dacă algoritmul poate diferenția eficient ferigile native și invazive. După ce au trecut peste 100 de eșantion de imagini cu ferigi, experții TNC au stabilit că imaginile cu cele mai mici valori PCA2 sunt foarte probabil să fie ferigi native, iar imaginile cu cele mai mari valori PCA2 sunt foarte probabil să fie ferigi invazive (vezi următoarele exemple de imagini). Am dori să investigăm în continuare această abordare cu TNC în viitorul apropiat.

ML automatizat, scalabil și eficient din punct de vedere al costurilor pe AWS: Detectarea ferigilor arborescente australiene invazive în pădurile hawaiene PlatoBlockchain Data Intelligence. Căutare verticală. Ai.

Concluzie

Beneficiile majore pentru TNC în urma adoptării conductei de inferență propuse în acest post sunt duble. În primul rând, se realizează economii substanțiale de costuri prin înlocuirea eforturilor de luni de zile ale etichetatorilor umani cu o conductă automată care implică costuri de inferență minime. Deși costurile exacte pot depinde de mai mulți factori, estimăm că reducerea costurilor este de cel puțin un ordin de mărime. Al doilea beneficiu este reducerea timpului de la colectarea datelor până la inițierea eforturilor de atenuare. În prezent, etichetarea manuală pentru o duzină de fișiere JP2 mari durează câteva săptămâni pentru a se finaliza, în timp ce conducta de inferență este de așteptat să dureze câteva ore, în funcție de numărul și dimensiunea instanțelor de inferență alocate. Un timp de răspuns mai rapid ar avea un impact asupra capacității TNC de a planifica rute pentru echipajele responsabile de tratarea ferigilor invazive în timp util și ar putea găsi ferestre de tratament adecvate, ținând cont de sezonalitatea și modelele meteorologice de pe insule.

Pentru a începe să utilizați Ground Truth, vedeți Creați un set de date de antrenament foarte precis cu Amazon SageMaker Ground Truth. De asemenea, aflați mai multe despre Amazon ML accesând Amazon SageMaker pagina de produs și explorați fluxurile de lucru vizuale pentru aplicații moderne, accesând Funcții pas AWS pagina produsului.


Despre Autori

ML automatizat, scalabil și eficient din punct de vedere al costurilor pe AWS: Detectarea ferigilor arborescente australiene invazive în pădurile hawaiene PlatoBlockchain Data Intelligence. Căutare verticală. Ai.Dan Iancu este un cercetător de date cu AWS. S-a alăturat AWS în urmă cu trei ani și a lucrat cu o varietate de clienți, inclusiv în domeniul sănătății și științe ale vieții, industria spațială și sectorul public. El crede în importanța aducerii de valoare pentru client, precum și în contribuția la conservarea mediului prin utilizarea instrumentelor ML.

ML automatizat, scalabil și eficient din punct de vedere al costurilor pe AWS: Detectarea ferigilor arborescente australiene invazive în pădurile hawaiene PlatoBlockchain Data Intelligence. Căutare verticală. Ai.Kara Yang este Data Scientist în AWS Professional Services. Este pasionată de a ajuta clienții să-și atingă obiectivele de afaceri cu serviciile cloud AWS. Ea a ajutat organizațiile să construiască soluții ML în mai multe industrii, cum ar fi producția, industria auto, sustenabilitatea mediului și industria aerospațială.

ML automatizat, scalabil și eficient din punct de vedere al costurilor pe AWS: Detectarea ferigilor arborescente australiene invazive în pădurile hawaiene PlatoBlockchain Data Intelligence. Căutare verticală. Ai.Arkajyoti Misra este Data Scientist la Amazon LastMile Transportation. Este pasionat de aplicarea tehnicilor de computer Vision pentru a rezolva problemele care ajută pământul. Îi place să lucreze cu organizații non-profit și este membru fondator al ekipi.org.

ML automatizat, scalabil și eficient din punct de vedere al costurilor pe AWS: Detectarea ferigilor arborescente australiene invazive în pădurile hawaiene PlatoBlockchain Data Intelligence. Căutare verticală. Ai.Annalyn Ng este arhitect senior de soluții cu sediul în Singapore, unde proiectează și construiește soluții cloud pentru agențiile din sectorul public. Annalyn a absolvit Universitatea din Cambridge și bloguri despre învățarea automată la algobeans.com. Cartea ei, Numsense! Știința datelor pentru profan, a fost tradus în mai multe limbi și este folosit în universități de top ca text de referință.

ML automatizat, scalabil și eficient din punct de vedere al costurilor pe AWS: Detectarea ferigilor arborescente australiene invazive în pădurile hawaiene PlatoBlockchain Data Intelligence. Căutare verticală. Ai.Theresa Cabrera Menard este un om de știință aplicat/specialist în sisteme de informații geografice la The Nature Conservancy (TNC) din Hawai`i, unde gestionează un set mare de date de imagini de înaltă rezoluție din toate insulele Hawaii. Ea a fost anterior implicată în Hawai`i Challenge, care folosea ecologiști în fotolii pentru a marca imagini pentru buruienile din pădurile din Kaua`i.

ML automatizat, scalabil și eficient din punct de vedere al costurilor pe AWS: Detectarea ferigilor arborescente australiene invazive în pădurile hawaiene PlatoBlockchain Data Intelligence. Căutare verticală. Ai.Veronika Megler este consultant principal, Big Data, Analytics și Data Science, pentru AWS Professional Services. Ea deține un doctorat în Informatică, cu accent pe căutarea de date spațio-temporale. Ea este specializată în adoptarea tehnologiei, ajutând clienții să folosească noile tehnologii pentru a rezolva probleme noi și pentru a rezolva problemele vechi mai eficient și eficient.

Timestamp-ul:

Mai mult de la Învățare automată AWS