Markedsfør funksjonsoppdagelse og gjenbruk på tvers av organisasjonen din ved å bruke Amazon SageMaker Feature Store og dens funksjonsnivå metadatakapasitet PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Fremme funksjonsoppdagelse og gjenbruk på tvers av organisasjonen din ved å bruke Amazon SageMaker Feature Store og dens metadatafunksjon på funksjonsnivå

Amazon SageMaker Feature Store hjelper dataforskere og maskinlæringsingeniører (ML) med å lagre, oppdage og dele kuraterte data som brukes i opplærings- og prediksjonsarbeidsflyter på en sikker måte. Feature Store er en sentralisert butikk for funksjoner og tilhørende metadata, slik at funksjoner enkelt kan oppdages og gjenbrukes av dataforskerteam som jobber med forskjellige prosjekter eller ML-modeller.

Med Feature Store har du alltid kunnet legge til metadata på funksjonsgruppenivå. Dataforskere som ønsker muligheten til å søke og oppdage eksisterende funksjoner for modellene sine, har nå muligheten til å søke etter informasjon på funksjonsnivå ved å legge til tilpassede metadata. Informasjonen kan for eksempel inkludere en beskrivelse av funksjonen, datoen den sist ble endret, dens opprinnelige datakilde, visse beregninger eller sensitivitetsnivået.

Følgende diagram illustrerer arkitekturrelasjonene mellom funksjonsgrupper, funksjoner og tilhørende metadata. Legg merke til hvordan dataforskere nå kan spesifisere beskrivelser og metadata på både funksjonsgruppenivå og individuelle funksjonsnivå.

I dette innlegget forklarer vi hvordan dataforskere og ML-ingeniører kan bruke metadata på funksjonsnivå med de nye søke- og oppdagelsesmulighetene til Feature Store for å fremme bedre gjenbruk av funksjoner i hele organisasjonen. Denne evnen kan hjelpe dataforskere betydelig i funksjonsvalgprosessen og som et resultat hjelpe deg med å identifisere funksjoner som fører til økt modellnøyaktighet.

Bruk saken

For formålet med dette innlegget bruker vi to funksjonsgrupper, customer og loan.

De customer funksjonsgruppen har følgende funksjoner:

  • alder – Kundens alder (numerisk)
  • jobb – Type jobb (one-hot-kodet, for eksempel admin or services)
  • ekteskapelig – Sivilstatus (one-hot-kodet, som f.eks married or single)
  • utdanning – Utdanningsnivå (one-hot-kodet, som f.eks basic 4y or high school)

De loan funksjonsgruppen har følgende funksjoner:

  • standard~~POS=TRUNC – Har kreditt misligholdt? (one-hot-kodet: no or yes)
  • bolig – Har du boliglån? (one-hot-kodet: no or yes)
  • lån – Har du personlig lån? (one-hot-kodet: no or yes)
  • totale mengden – Totalt antall lån (numerisk)

Følgende figur viser eksempler på funksjonsgrupper og funksjonsmetadata.

Markedsfør funksjonsoppdagelse og gjenbruk på tvers av organisasjonen din ved å bruke Amazon SageMaker Feature Store og dens funksjonsnivå metadatakapasitet PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Hensikten med å legge til en beskrivelse og tilordne metadata til hver funksjon er å øke oppdagelseshastigheten ved å aktivere nye søkeparametere som en dataforsker eller ML-ingeniør kan utforske funksjoner langs. Disse kan gjenspeile detaljer om en funksjon, for eksempel dens beregning, enten det er et gjennomsnitt over 6 måneder eller 1 år, opprinnelse, skaper eller eier, hva funksjonen betyr og mer.

I de følgende delene gir vi to tilnærminger til å søke og oppdage funksjoner og konfigurere metadata på funksjonsnivå: den første ved å bruke Amazon SageMaker Studio direkte, og den andre programmatisk.

Funksjonsfunn i Studio

Du kan enkelt søke og spørre etter funksjoner ved å bruke Studio. Med de nye forbedrede søke- og oppdagelsesmulighetene kan du umiddelbart hente resultater med en enkel skriving foran noen få tegn.

Følgende skjermbilde viser følgende funksjoner:

  • Du kan få tilgang til Funksjonskatalog fane og observere funksjoner på tvers av funksjonsgrupper. Funksjonene presenteres i en tabell som inkluderer funksjonens navn, type, beskrivelse, parametere, opprettelsesdato og tilhørende funksjonsgruppes navn.
  • Du kan bruke type-ahead-funksjonaliteten direkte til å returnere søkeresultater umiddelbart.
  • Du har fleksibiliteten til å bruke forskjellige typer filteralternativer: All, Feature name, Descriptioneller Parameters. Noter det All vil returnere alle funksjoner der enten Feature name, Descriptioneller Parameters samsvarer med søkekriteriene.
  • Du kan begrense søket ytterligere ved å spesifisere en datoperiode ved å bruke Created from og Created to felt og spesifisere parametere ved hjelp av Search parameter key og Search parameter value felt.

Markedsfør funksjonsoppdagelse og gjenbruk på tvers av organisasjonen din ved å bruke Amazon SageMaker Feature Store og dens funksjonsnivå metadatakapasitet PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Etter at du har valgt en funksjon, kan du velge funksjonens navn for å få frem detaljene. Når du velger Rediger metadata, kan du legge til en beskrivelse og opptil 25 nøkkelverdiparametere, som vist i følgende skjermbilde. I denne visningen kan du til slutt opprette, vise, oppdatere og slette funksjonens metadata. Følgende skjermbilde illustrerer hvordan du redigerer funksjonsmetadata for total_amount.

Markedsfør funksjonsoppdagelse og gjenbruk på tvers av organisasjonen din ved å bruke Amazon SageMaker Feature Store og dens funksjonsnivå metadatakapasitet PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Som tidligere nevnt, gir det å legge til nøkkelverdi-par til en funksjon flere dimensjoner du kan søke etter de gitte funksjonene langs. For vårt eksempel er funksjonens opprinnelse lagt til hver funksjons metadata. Når du velger søkeikonet og filtrerer langs nøkkelverdi-paret origin: job, kan du se alle funksjonene som ble one-hot-kodet fra dette basisattributtet.

Funksjonsoppdagelse ved hjelp av kode

Du kan også få tilgang til og oppdatere funksjonsinformasjon gjennom AWS kommandolinjegrensesnitt (AWS CLI) og SDK (Boto3) i stedet for direkte gjennom AWS-administrasjonskonsoll. Dette lar deg integrere søkefunksjonaliteten på funksjonsnivå til Feature Store med dine egne tilpassede datavitenskapelige plattformer. I denne delen samhandler vi med Boto3 API-endepunktene for å oppdatere og søke funksjonsmetadata.

For å begynne å forbedre funksjonssøk og oppdagelse, kan du legge til metadata ved å bruke update_feature_metadata API. I tillegg til det description og created_date felt, kan du legge til opptil 25 parametere (nøkkelverdi-par) til en gitt funksjon.

Følgende kode er et eksempel på fem mulige nøkkelverdiparametere som er lagt til job_admin trekk. Denne funksjonen ble opprettet sammen med job_services og job_none, ved en-hot-encoding job.

sagemaker_client.update_feature_metadata(
    FeatureGroupName="customer",
    FeatureName="job_admin",
    ParameterAdditions=[
        {"Key": "author", "Value": "arnaud"}, # Feature's author
        {"Key": "team", "Value": "mlops"}, # Team owning the feature
        {"Key": "origin", "Value": "job"}, # Raw input parameter
        {"Key": "sensitivity", "Value": "5"}, # 1-5 scale for data sensitivity
        {"Key": "env", "Value": "testing"} # Environment the feature is used in
    ]
)

Etter author, team, origin, sensitivityog env har blitt lagt til job_admin funksjon, kan dataforskere eller ML-ingeniører hente dem ved å ringe describe_feature_metadata API. Du kan navigere til Parameters objekt i svaret for metadataene vi tidligere har lagt til funksjonen vår. De describe_feature_metadata API-endepunkt lar deg få større innsikt i en gitt funksjon ved å få tilhørende metadata.

response = sagemaker_client.describe_feature_metadata(
    FeatureGroupName="customer",
    FeatureName="job_admin",
)

# Navigate to 'Parameters' in response to get metadata
metadata = response['Parameters']

Du kan søke etter funksjoner ved å bruke SageMaker search API som bruker metadata som søkeparametere. Følgende kode er en eksempelfunksjon som tar en search_string parameter som en inngang og returnerer alle funksjoner der funksjonens navn, beskrivelse eller parametere samsvarer med betingelsen:

def search_features_using_string(search_string):
    response = sagemaker_client.search(
        Resource= "FeatureMetadata",
        SearchExpression={
            'Filters': [
               {
                   'Name': 'FeatureName',
                   'Operator': 'Contains',
                   'Value': search_string
               },
               {
                   'Name': 'Description',
                   'Operator': 'Contains',
                   'Value': search_string
               },
               {
                   'Name': 'AllParameters',
                   'Operator': 'Contains',
                   'Value': search_string
               }
           ],
           "Operator": "Or"
        },
    )

    # Displaying results in a pandas DataFrame
    df=pd.json_normalize(response['Results'], max_level=1)
    df.columns = df.columns.map(lambda col: col.split(".")[1])
    df=df.drop('FeatureGroupArn', axis=1)

    return df

Følgende kodebit bruker vår search_features funksjon for å hente alle funksjoner som enten funksjonens navn, beskrivelse eller parametere inneholder ordet job:

search_results = search_features_using_string('mlops')
search_results

Følgende skjermbilde inneholder listen over samsvarende funksjonsnavn samt deres tilhørende metadata, inkludert tidsstempler for hver funksjons opprettelse og siste modifikasjon. Du kan bruke denne informasjonen til å forbedre oppdagelsen og synligheten av organisasjonens funksjoner.

Markedsfør funksjonsoppdagelse og gjenbruk på tvers av organisasjonen din ved å bruke Amazon SageMaker Feature Store og dens funksjonsnivå metadatakapasitet PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

konklusjonen

SageMaker Feature Store tilbyr en spesialbygd funksjonsadministrasjonsløsning for å hjelpe organisasjoner med å skalere ML-utvikling på tvers av forretningsenheter og datavitenskapsteam. Forbedring av gjenbruk av funksjoner og funksjonskonsistens er primære fordeler med en funksjonsbutikk. I dette innlegget forklarte vi hvordan du kan bruke metadata på funksjonsnivå for å forbedre søk og oppdagelse av funksjoner. Dette inkluderte å lage metadata rundt en rekke brukstilfeller og bruke det som ekstra søkeparametere.

Prøv det, og la oss få vite hva du synes i kommentarfeltet. Hvis du vil lære mer om å samarbeide og dele funksjoner i Feature Store, se Aktiver gjenbruk av funksjoner på tvers av kontoer og team ved hjelp av Amazon SageMaker Feature Store.


Om forfatterne

Markedsfør funksjonsoppdagelse og gjenbruk på tvers av organisasjonen din ved å bruke Amazon SageMaker Feature Store og dens funksjonsnivå metadatakapasitet PlatoBlockchain Data Intelligence. Vertikalt søk. Ai. Arnaud Lauer er Senior Partner Solutions Architect i offentlig sektor hos AWS. Han gjør det mulig for partnere og kunder å forstå hvordan man best kan bruke AWS-teknologier for å omsette forretningsbehov til løsninger. Han har mer enn 16 års erfaring med å levere og bygge digitale transformasjonsprosjekter på tvers av en rekke bransjer, inkludert offentlig sektor, energi og forbruksvarer. Kunstig intelligens og maskinlæring er noen av hans lidenskaper. Arnaud har 12 AWS-sertifiseringer, inkludert ML Specialty Certification.

Markedsfør funksjonsoppdagelse og gjenbruk på tvers av organisasjonen din ved å bruke Amazon SageMaker Feature Store og dens funksjonsnivå metadatakapasitet PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.Nicolas Bernier er en Associate Solutions Architect, en del av Canadian Public Sector-teamet ved AWS. Han gjennomfører for tiden en mastergrad med et forskningsområde i Deep Learning og har fem AWS-sertifiseringer, inkludert ML Specialty Certification. Nicolas er lidenskapelig opptatt av å hjelpe kunder med å utdype kunnskapen om AWS ved å samarbeide med dem for å oversette deres forretningsutfordringer til tekniske løsninger.

Markedsfør funksjonsoppdagelse og gjenbruk på tvers av organisasjonen din ved å bruke Amazon SageMaker Feature Store og dens funksjonsnivå metadatakapasitet PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.Mark Roy er en hovedarkitektlæringsarkitekt for AWS, som hjelper kunder med å designe og bygge AI / ML-løsninger. Marks arbeid dekker et bredt spekter av ML-brukstilfeller, med hovedinteresse i datasyn, dyp læring og skalering av ML over hele virksomheten. Han har hjulpet selskaper i mange bransjer, inkludert forsikring, finansielle tjenester, media og underholdning, helsetjenester, verktøy og produksjon. Mark har seks AWS-sertifiseringer, inkludert ML-spesialitetssertifisering. Før han begynte i AWS, var Mark arkitekt, utvikler og teknologileder i over 25 år, inkludert 19 år innen finansielle tjenester.

Markedsfør funksjonsoppdagelse og gjenbruk på tvers av organisasjonen din ved å bruke Amazon SageMaker Feature Store og dens funksjonsnivå metadatakapasitet PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.Khushboo Srivastava er senior produktsjef for Amazon SageMaker. Hun liker å bygge produkter som forenkler arbeidsflyter for maskinlæring for kundene. På fritiden liker hun å spille fiolin, trene yoga og reise.

Tidstempel:

Mer fra AWS maskinlæring