Hvordan UNDPs uavhengige evalueringskontor bruker AWS AI/ML-tjenester for å forbedre bruken av evaluering for å støtte fremskritt mot målene for bærekraftig utvikling

Publisert av Platon

Følgere: 0

De forente nasjoner (FN) ble grunnlagt i 1945 av 51 opprinnelige medlemsland forpliktet til å opprettholde internasjonal fred og sikkerhet, utvikle vennlige forhold mellom nasjoner og fremme sosial fremgang, bedre levestandard og menneskerettigheter. FN består for tiden av 193 medlemsland og har utviklet seg gjennom årene for å holde tritt med en verden i rask endring. De United Nations Development Programme (UNDP) er FNs utviklingsbyrå og opererer i over 170 land og territorier. Den spiller en kritisk rolle i å hjelpe land med å nå bærekraftsmålene (SDGs), som er en global oppfordring til handling for å stoppe fattigdom, beskytte planeten og sikre at alle mennesker nyter fred og velstand.

Som en lærende organisasjon setter UNDP stor pris på evalueringsfunksjonen. Hver UNDP-programenhet bestiller evalueringer for å få tilgang til ytelsen til sine prosjekter og programmer. De Uavhengig evalueringskontor (IEO) er et funksjonelt uavhengig kontor innenfor UNDP som støtter tilsyns- og ansvarlighetsfunksjonene til hovedstyret og ledelsen av UNDP, UNCDF og UNV. Kjernefunksjonene til IEO er å gjennomføre uavhengige programmatiske og tematiske evalueringer som er av strategisk betydning for organisasjonen – som dens støtte til utvinningen av COVID-19-pandemien.

I dette innlegget diskuterer vi hvordan IEO utviklet UNDPs plattform for kunstig intelligens og maskinlæring (ML) – kalt Artificial Intelligence for Development Analytics (AIDA) – i samarbeid med AWS, UNDPs Information and Technology Management Team (UNDP ITM) og United Nations International Computing Center (UNICC). AIDA er en nettbasert plattform som lar programledere og evaluatorer utvide sin evidensbase ved å søke i eksisterende data på en smartere, mer effektiv og innovativ måte for å produsere innsikt og lærdom. Ved å søke på det granulære nivået av avsnitt, finner AIDA bevis som ikke ville blitt funnet ved bruk av konvensjonelle søk. Opprettelsen av AIDA er i tråd med UNDPs strategiske plan 2022–2025 for å bruke digitalisering og innovasjon for større utviklingseffekt.

Utfordringen

IEO er depotansvarlig for UNDP Evaluation Resource Center (ERC). ERC er et oppbevaringssted for over 6,000 evalueringsrapporter som dekker alle aspekter av organisasjonens arbeid, overalt hvor den har jobbet, siden 1997. Funnene og anbefalingene i evalueringsrapportene informerer UNDPs ledelse, giver og programansatte om å bedre utforme fremtidige intervensjoner, ta kurskorrigerende tiltak i sine nåværende programmer, og ta finansierings- og politiske beslutninger på alle nivåer.

Før AIDA var prosessen for å trekke ut evaluerende bevis og generere lærdom og innsikt manuell, ressurskrevende og tidkrevende. Dessuten fungerte tradisjonelle søkemetoder dårlig med ustrukturerte data, derfor var bevisgrunnlaget begrenset. For å møte denne utfordringen bestemte IEO seg for å bruke AI og ML for å bedre utvinne evalueringsdatabasen for leksjoner og kunnskap.

AIDA-teamet var oppmerksom på den utfordrende oppgaven med å trekke ut bevis fra ustrukturerte data som evalueringsrapporter. Vanligvis er evalueringsrapporter på 80–100 sider, er på flere språk og inneholder funn, konklusjoner og anbefalinger. Selv om evalueringer er styrt av UNDP Evaluation Guideline, er det ikke noe standard skriftlig format for disse evalueringene, og de nevnte avsnittene kan forekomme på forskjellige steder i dokumentet, eller ikke alle finnes. Derfor var det en betydelig ML-utfordring å nøyaktig kreve evaluerende bevis på avsnittsnivå og bruke passende etiketter.

Løsningsoversikt

Den tekniske løsningen AIDA ble utviklet av AWS profesjonelle tjenester og UNICC. Kjerneteknologiplattformen ble designet og utviklet av AWS ProServe-teamet. UNICC var ansvarlig for å utvikle AIDA-nettportalen og human-in-the-loop-grensesnittet. AIDA-plattformen ble tenkt å gi en enkel og svært nøyaktig mekanisme for å søke i UNDP-evalueringsrapporter på tvers av ulike temaer og eksportere dem for videre analyse. AIDAs arkitektur trengte å møte flere krav:

Automatiser utvinning og merking av evalueringsdata
Behandle tusenvis av rapporter
Tillat IEO å legge til nye etiketter uten å bruke ekspertisen til dataforskere og ML-eksperter

For å oppfylle kravene ble komponentene designet med disse prinsippene i tankene:

Teknisk og miljømessig bærekraftig
Kostnadsbevisst
Kan utvides for å tillate fremtidig utvidelse

Den resulterende løsningen kan brytes ned til tre komponenter, som vist i følgende arkitekturdiagram:

Datainntak og utvinning
Dataklassifisering
Intelligent søk

Hvordan UNDP Independent Evaluation Office bruker AWS AI/ML-tjenester for å forbedre bruken av evaluering for å støtte fremgang mot bærekraftsmålene PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

De følgende avsnittene beskriver disse komponentene i detalj.

Datainntak og utvinning

Evalueringsrapporter utarbeides og sendes inn av UNDP-programenheter over hele verden – det finnes ingen standard rapportlayoutmal eller -format. Datainntaks- og utvinningskomponenten tar inn og trekker ut innhold fra disse ustrukturerte dokumentene.

amazontekst brukes til å trekke ut data fra PDF-dokumenter. Denne løsningen bruker asynkron StartDocumentTextDetection API å bygge dokumentbehandlingsarbeidsflyten som håndterer Amazon Textract asynkron påkalling, utvinning av råsvar og utholdenhet i Amazon enkel lagringstjeneste (Amazon S3). Denne løsningen legger til en Amazon Textract-etterbehandlingskomponent for å håndtere avsnittsbasert tekstutvinning. Etterbehandlingskomponenten bruker grenseboksmetadata fra Amazon Textract for intelligent datautvinning. Etterbehandlingskomponenten er i stand til å trekke ut data fra komplekse, flerformats, flersidige PDF-filer med varierende topptekster, bunntekster, fotnoter og data med flere kolonner. Apache Tika åpen kildekode Python-biblioteket brukes til datautvinning fra word-dokumenter.

Følgende diagram illustrerer denne arbeidsflyten, orkestrert med AWS trinnfunksjoner.

Denne arbeidsflyten har følgende trinn:

TextractCompleted er det første trinnet for å sikre at dokumenter ikke behandles flere ganger med Amazon Textract. Dette trinnet er å unngå unødvendig behandlingstid og kostnader ved å forhindre duplikatbehandling.
TextractAsyncCallTask sender inn dokumentene som skal behandles av Amazon Textract ved å bruke den asynkrone StartDocumentTextDetection API. Denne API-en behandler dokumentene og lagrer JSON-utdatafilene i Amazon S3 for etterbehandling.
TextractAsyncSNSListener er en AWS Lambda funksjon som håndterer Amazon Textract-jobbfullføringshendelsen, og returnerer metadataene tilbake til arbeidsflyten for videre behandling.
TextractPostProcessorTask er en AWS Lambda-funksjon som bruker metadataene og behandler JSON-utdatafilene produsert av Amazon Textract for å trekke ut meningsfulle avsnitt.
TextractQAValidationTask er en AWS Lambda-funksjon som utfører noen enkle tekstvalideringer på de utpakkede avsnittene og samler inn beregninger som antall komplette eller ufullstendige avsnitt. Disse beregningene brukes til å måle kvaliteten på tekstutdrag.

Vennligst se TextractAsync, en IDP CDK-konstruksjon som abstraherer påkallelsen av Amazon Textract Async API, håndtering Amazon enkel varslingstjeneste (Amazon SNS) meldinger og arbeidsflytbehandling for å akselerere utviklingen din.

Dataklassifisering

Dataklassifiseringskomponenten identifiserer de kritiske delene av evalueringsrapportene, og klassifiserer dem videre i en taksonomi av kategorier organisert rundt de ulike temaene i bærekraftsmålene. Vi har bygget en multi-klasse og to multi-label klassifiseringsmodeller med Amazon Comprehend.

Utpakkede avsnitt behandles ved hjelp av Step Functions, som integreres med Amazon Comprehend for å utføre klassifisering i batch-modus. Avsnitt klassifiseres i funn, anbefalinger og konklusjoner (FRCs) ved hjelp av en tilpasset flerklassemodell, som hjelper til med å identifisere de kritiske delene av evalueringsrapportene. For de identifiserte kritiske delene identifiserer vi kategoriene (tematisk og ikke-tematisk) ved å bruke en tilpasset multi-label klassifiseringsmodell. Tematisk og ikke-tematisk klassifisering brukes til å identifisere og justere evalueringsrapportene med bærekraftsmål som ingen fattigdom (SDG-1), likestilling (SDG-5), rent vann og sanitær (SDG-6), og rimelig og rent energi (SDG-7).

Følgende figur viser arbeidsflyten for trinnfunksjoner for å behandle tekstklassifisering.

For å redusere kostnadene for klassifiseringsprosessen har vi laget arbeidsflyten for å sende inn Amazon Comprehend-jobber i batch-modus. Arbeidsflyten venter på at alle Amazon Comprehend-jobbene skal fullføres og utfører dataavgrensning ved å aggregere tekstutvinningen og Amazon Comprehend-resultatene for å filtrere avsnittene som ikke er identifisert som FRC, og aggregerer de tematiske og ikke-tematiske klassifiseringskategoriene etter avsnitt.

Utpakkede avsnitt med deres klassifiseringskategorier lagres i Amazon RDS for PostgreSQL. Dette er en iscenesettelsesdatabase for å bevare alle utvinnings- og klassifiseringsresultatene. Vi bruker også denne databasen til å berike resultatene ytterligere for å samle temaene til avsnittene, og filtrere avsnitt som ikke er FRC. Beriket innhold mates til Amazon Kendra.

For den første utgivelsen hadde vi over 2 millioner avsnitt hentet ut og klassifisert. Ved hjelp av tilpasset FRC-klassifisering klarte vi å begrense avsnittene nøyaktig til over 700,000 2 fra XNUMX millioner. Den tilpassede klassifiseringsmodellen Amazon Comprehend hjalp til med å presentere det relevante innholdet nøyaktig og reduserte kostnadene på Amazon Kendra-indekser betydelig.

Amazon DynamoDB brukes til å lagre dokumentmetadata og holde styr på dokumentbehandlingsstatus på tvers av alle nøkkelkomponenter. Metadatasporing er spesielt nyttig for å håndtere feil og gjenforsøk.

Intelligent søk

Den intelligente søkefunksjonen lar brukerne av AIDA-plattformen intuitivt søke etter evaluerende bevis på UNDP-programintervensjoner som finnes i alle evalueringsrapportene. Følgende diagram illustrerer denne arkitekturen.

Amazon Kendra brukes til intelligente søk. Beriket innhold fra Amazon RDS for PostgreSQL tas inn i Amazon Kendra for indeksering. Nettportallaget bruker den intelligente søkefunksjonen til Amazon Kendra for å intuitivt søke i det indekserte innholdet. Etikettere bruker menneske-i-løkken-brukergrensesnittet til å oppdatere tekstklassifiseringen generert av Amazon Comprehend for eventuelle utdragede avsnitt. Endringer i klassifiseringen gjenspeiles umiddelbart i nettportalen, og menneskelig oppdatert tilbakemelding trekkes ut og brukes til Amazon Comprehend modellopplæring for å kontinuerlig forbedre den tilpassede klassifiseringsmodellen.

AIDA inkorporerer en menneskelig-i-løkken-funksjonalitet, som øker AIDAs kapasitet til å korrigere klassifikasjoner (FRC, tematisk, ikke-tematisk) og datauttrekksfeil. Etiketter, oppdatert av menneskene som utfører menneske-i-sløyfen-funksjonen, utvides til treningsdatasettet og brukes til å omskolere Amazon Comprehend-modellene for å kontinuerlig forbedre klassifiseringsnøyaktigheten.

konklusjonen

I dette innlegget diskuterte vi hvordan evaluatorer, gjennom IEOs AIDA-plattform, bruker Amazon AI- og ML-tjenester som Amazon Textract, Amazon Comprehend og Amazon Kendra for å bygge et tilpasset dokumentbehandlingssystem som identifiserer, trekker ut og klassifiserer data fra ustrukturerte dokumenter . Bruk av Amazon Textract for PDF-tekstutvinning forbedret bevisutvinning på avsnittsnivå fra under 60 % til over 80 % nøyaktighet. I tillegg ble klassifiseringen av flere etiketter forbedret fra under 30 % til 90 % nøyaktighet ved å omskolere modeller i Amazon Comprehend med forbedrede opplæringsdatasett.

Denne plattformen gjorde det mulig for evaluatorer å intuitivt søke i relevant innhold raskt og nøyaktig. Transformering av ustrukturerte data til semistrukturerte data gir UNDP og andre FN-enheter mulighet til å ta informerte beslutninger basert på et korpus av hundrevis eller tusenvis av datapunkter om hva som fungerer, hva som ikke fungerer, og hvordan man kan forbedre effekten av UNDP-operasjoner for menneskene den tjener.

For mer informasjon om referansearkitekturen for intelligent dokumentbehandling, se Intelligent dokumentbehandling. Del gjerne tankene dine med oss i kommentarfeltet.

Om forfatterne

Oscar A. Garcia er direktør for det uavhengige evalueringskontoret (IEO) i FNs utviklingsprogram (UNDP). Som direktør gir han strategisk retning, tankeledelse og troverdige evalueringer for å fremme UNDP-arbeidet for å hjelpe land med å gå videre mot nasjonale SDG-oppnåelse. Oscar fungerer for tiden også som styreleder for FNs evalueringsgruppe (UNEG). Han har mer enn 25 års erfaring innen strategisk planlegging, evaluering og resultatbasert ledelse for bærekraftig utvikling. Før han begynte i IEO som direktør i 2020, fungerte han som direktør for IFADs Independent Office of Evaluation (IOE), og sjef for rådgivningstjenester for grønn økonomi, UNEP. Oscar har skrevet bøker og artikler om utviklingsevaluering, inkludert en om informasjons- og kommunikasjonsteknologi for evaluering. Han er økonom med en mastergrad i Organizational Change Management, New School University (NY), og en MBA fra Bolivian Catholic University, i samarbeid med Harvard Institute for International Development.

Sathya Balakrishnan er en Sr. Customer Delivery Architect i Professional Services-teamet hos AWS, og spesialiserer seg på data- og ML-løsninger. Han jobber med amerikanske føderale finansklienter. Han brenner for å bygge pragmatiske løsninger for å løse kundenes forretningsproblemer. På fritiden liker han å se filmer og gå tur med familien.

Thuan Tran er en senior løsningsarkitekt i World Wide Public Sector som støtter FN. Han brenner for å bruke AWS-teknologi for å hjelpe kundene med å konseptualisere det muliges kunst. I denne fritiden liker han surfing, terrengsykling, øksekasting og tilbringe tid med familie og venner.

Prins Mallari er en NLP Data Scientist i Professional Services-teamet ved AWS, og spesialiserer seg på anvendelser av NLP for offentlige kunder. Han brenner for å bruke ML som et verktøy for å la kundene bli mer produktive. På fritiden liker han å spille videospill og utvikle et sammen med vennene sine.