Fremme opdagelse af funktioner og genbrug på tværs af din organisation ved hjælp af Amazon SageMaker Feature Store og dens metadatakapacitet på funktionsniveau PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Fremme opdagelse af funktioner og genbrug på tværs af din organisation ved hjælp af Amazon SageMaker Feature Store og dens metadatafunktion på funktionsniveau

Amazon SageMaker Feature Store hjælper datavidenskabsfolk og maskinlæringsingeniører (ML) med sikker opbevaring, opdagelse og deling af kurerede data, der bruges i trænings- og forudsigelsesarbejdsgange. Feature Store er et centraliseret lager for funktioner og tilhørende metadata, der gør det nemt at opdage og genbruge funktioner af dataforskerhold, der arbejder på forskellige projekter eller ML-modeller.

Med Feature Store har du altid været i stand til at tilføje metadata på funktionsgruppeniveau. Dataforskere, der ønsker muligheden for at søge og opdage eksisterende funktioner til deres modeller, har nu mulighed for at søge efter information på funktionsniveau ved at tilføje tilpassede metadata. Oplysningerne kan f.eks. omfatte en beskrivelse af funktionen, datoen den sidst blev ændret, dens oprindelige datakilde, visse metrics eller følsomhedsniveauet.

Følgende diagram illustrerer arkitekturrelationerne mellem funktionsgrupper, funktioner og tilknyttede metadata. Bemærk, hvordan dataforskere nu kan specificere beskrivelser og metadata på både funktionsgruppeniveau og individuelt funktionsniveau.

I dette indlæg forklarer vi, hvordan dataforskere og ML-ingeniører kan bruge metadata på funktionsniveau med de nye søge- og opdagelsesfunktioner i Feature Store for at fremme bedre genbrug af funktioner på tværs af deres organisation. Denne egenskab kan i høj grad hjælpe dataforskere i funktionsudvælgelsesprocessen og som et resultat hjælpe dig med at identificere funktioner, der fører til øget modelnøjagtighed.

Brug sag

Til formålet med dette indlæg bruger vi to funktionsgrupper, customer , loan.

customer funktionsgruppen har følgende funktioner:

  • alder – Kundens alder (numerisk)
  • arbejde – Type job (one-hot-kodet, som f.eks admin or services)
  • ægteskabelig – Civilstand (one-hot-kodet, som f.eks married or single)
  • uddannelse – Uddannelsesniveau (one-hot-kodet, som f.eks basic 4y or high school)

loan funktionsgruppen har følgende funktioner:

  • standard – Har kredit misligholdt? (one-hot-kodet: no or yes)
  • boliger – Har du boliglån? (one-hot-kodet: no or yes)
  • lån – Har du et personligt lån? (one-hot-kodet: no or yes)
  • total beløb – Samlet antal lån (numerisk)

Følgende figur viser eksempler på funktionsgrupper og funktionsmetadata.

Fremme opdagelse af funktioner og genbrug på tværs af din organisation ved hjælp af Amazon SageMaker Feature Store og dens metadatakapacitet på funktionsniveau PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Formålet med at tilføje en beskrivelse og tildele metadata til hver funktion er at øge opdagelseshastigheden ved at aktivere nye søgeparametre, hvormed en dataforsker eller ML-ingeniør kan udforske funktioner. Disse kan afspejle detaljer om en funktion, såsom dens beregning, om det er et gennemsnit over 6 måneder eller 1 år, oprindelse, skaber eller ejer, hvad funktionen betyder og meget mere.

I de følgende afsnit giver vi to tilgange til at søge og opdage funktioner og konfigurere metadata på funktionsniveau: den første vha. Amazon SageMaker Studio direkte, og den anden programmatisk.

Funktionsopdagelse i Studio

Du kan nemt søge og forespørge efter funktioner ved hjælp af Studio. Med de nye forbedrede søge- og opdagelsesfunktioner kan du med det samme hente resultater ved hjælp af en simpel indtastning foran nogle få tegn.

Følgende skærmbillede viser følgende egenskaber:

  • Du kan få adgang til Funktionskatalog fanen og observere funktioner på tværs af funktionsgrupper. Funktionerne præsenteres i en tabel, der inkluderer funktionsnavn, type, beskrivelse, parametre, oprettelsesdato og tilhørende funktionsgruppes navn.
  • Du kan direkte bruge type-ahead-funktionen til straks at returnere søgeresultater.
  • Du har fleksibiliteten til at bruge forskellige typer filtermuligheder: All, Feature name, Description eller Parameters. Bemærk, at All vil returnere alle funktioner hvor enten Feature name, Description eller Parameters matche søgekriterierne.
  • Du kan indsnævre søgningen yderligere ved at angive et datointerval ved hjælp af Created from , Created to felter og angivelse af parametre ved hjælp af Search parameter key , Search parameter value felter.

Fremme opdagelse af funktioner og genbrug på tværs af din organisation ved hjælp af Amazon SageMaker Feature Store og dens metadatakapacitet på funktionsniveau PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Når du har valgt en funktion, kan du vælge funktionens navn for at få dens detaljer frem. Når du vælger Rediger metadata, kan du tilføje en beskrivelse og op til 25 nøgleværdiparametre, som vist på det følgende skærmbillede. I denne visning kan du i sidste ende oprette, se, opdatere og slette funktionens metadata. Følgende skærmbillede illustrerer, hvordan man redigerer funktionsmetadata for total_amount.

Fremme opdagelse af funktioner og genbrug på tværs af din organisation ved hjælp af Amazon SageMaker Feature Store og dens metadatakapacitet på funktionsniveau PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Som tidligere nævnt giver tilføjelse af nøgleværdi-par til en funktion dig flere dimensioner, hvor du kan søge efter deres givne funktioner. For vores eksempel er funktionens oprindelse blevet tilføjet til hver funktions metadata. Når du vælger søgeikonet og filtrerer langs nøgleværdi-parret origin: job, kan du se alle de funktioner, der var one-hot-kodet fra denne basisattribut.

Funktionsopdagelse ved hjælp af kode

Du kan også få adgang til og opdatere funktionsoplysninger via AWS kommandolinjegrænseflade (AWS CLI) og SDK (Boto3) i stedet for direkte gennem AWS Management Console. Dette giver dig mulighed for at integrere søgefunktionaliteten på funktionsniveau i Feature Store med dine egne tilpassede datavidenskabelige platforme. I dette afsnit interagerer vi med Boto3 API-endepunkterne for at opdatere og søge funktionsmetadata.

For at begynde at forbedre funktionssøgning og -opdagelse kan du tilføje metadata ved hjælp af update_feature_metadata API. Ud over description , created_date felter, kan du tilføje op til 25 parametre (nøgle-værdi-par) til en given funktion.

Følgende kode er et eksempel på fem mulige nøgleværdi-parametre, der er blevet tilføjet til job_admin funktion. Denne funktion blev oprettet sammen med job_services , job_none, ved en-hot-encoding job.

sagemaker_client.update_feature_metadata(
    FeatureGroupName="customer",
    FeatureName="job_admin",
    ParameterAdditions=[
        {"Key": "author", "Value": "arnaud"}, # Feature's author
        {"Key": "team", "Value": "mlops"}, # Team owning the feature
        {"Key": "origin", "Value": "job"}, # Raw input parameter
        {"Key": "sensitivity", "Value": "5"}, # 1-5 scale for data sensitivity
        {"Key": "env", "Value": "testing"} # Environment the feature is used in
    ]
)

Efter author, team, origin, sensitivityog env er blevet tilføjet til job_admin funktion, kan dataforskere eller ML-ingeniører hente dem ved at ringe til describe_feature_metadata API. Du kan navigere til Parameters objekt i svaret for de metadata, vi tidligere har føjet til vores funktion. Det describe_feature_metadata API-endepunkt giver dig mulighed for at få større indsigt i en given funktion ved at få dens tilknyttede metadata.

response = sagemaker_client.describe_feature_metadata(
    FeatureGroupName="customer",
    FeatureName="job_admin",
)

# Navigate to 'Parameters' in response to get metadata
metadata = response['Parameters']

Du kan søge efter funktioner ved at bruge SageMaker search API ved hjælp af metadata som søgeparametre. Følgende kode er en eksempelfunktion, der tager en search_string parameter som input og returnerer alle funktioner, hvor funktionens navn, beskrivelse eller parametre matcher betingelsen:

def search_features_using_string(search_string):
    response = sagemaker_client.search(
        Resource= "FeatureMetadata",
        SearchExpression={
            'Filters': [
               {
                   'Name': 'FeatureName',
                   'Operator': 'Contains',
                   'Value': search_string
               },
               {
                   'Name': 'Description',
                   'Operator': 'Contains',
                   'Value': search_string
               },
               {
                   'Name': 'AllParameters',
                   'Operator': 'Contains',
                   'Value': search_string
               }
           ],
           "Operator": "Or"
        },
    )

    # Displaying results in a pandas DataFrame
    df=pd.json_normalize(response['Results'], max_level=1)
    df.columns = df.columns.map(lambda col: col.split(".")[1])
    df=df.drop('FeatureGroupArn', axis=1)

    return df

Følgende kodestykke bruger vores search_features funktion til at hente alle funktioner, for hvilke enten funktionsnavnet, beskrivelsen eller parametrene indeholder ordet job:

search_results = search_features_using_string('mlops')
search_results

Følgende skærmbillede indeholder listen over matchende funktionsnavne samt deres tilsvarende metadata, inklusive tidsstempler for hver funktions oprettelse og sidste ændring. Du kan bruge disse oplysninger til at forbedre opdagelsen og synligheden af ​​din organisations funktioner.

Fremme opdagelse af funktioner og genbrug på tværs af din organisation ved hjælp af Amazon SageMaker Feature Store og dens metadatakapacitet på funktionsniveau PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Konklusion

SageMaker Feature Store leverer en specialbygget funktionsstyringsløsning, der hjælper organisationer med at skalere ML-udvikling på tværs af forretningsenheder og datavidenskabsteams. Forbedring af genbrug af funktioner og funktionskonsistens er de primære fordele ved en funktionsbutik. I dette indlæg forklarede vi, hvordan du kan bruge metadata på funktionsniveau til at forbedre søgning og opdagelse af funktioner. Dette omfattede oprettelse af metadata omkring en række forskellige use cases og brug af det som yderligere søgeparametre.

Prøv det, og lad os vide, hvad du synes i kommentarerne. Hvis du vil lære mere om at samarbejde og dele funktioner i Feature Store, se Aktiver genbrug af funktioner på tværs af konti og teams ved hjælp af Amazon SageMaker Feature Store.


Om forfatterne

Fremme opdagelse af funktioner og genbrug på tværs af din organisation ved hjælp af Amazon SageMaker Feature Store og dens metadatakapacitet på funktionsniveau PlatoBlockchain Data Intelligence. Lodret søgning. Ai. Arnaud Lauer er Senior Partner Solutions Architect i den offentlige sektor hos AWS. Han gør det muligt for partnere og kunder at forstå, hvordan man bedst bruger AWS-teknologier til at omsætte forretningsbehov til løsninger. Han har mere end 16 års erfaring med at levere og arkitekte digitale transformationsprojekter på tværs af en række industrier, herunder den offentlige sektor, energi og forbrugsgoder. Kunstig intelligens og maskinlæring er nogle af hans passioner. Arnaud har 12 AWS-certificeringer, herunder ML Specialty Certification.

Fremme opdagelse af funktioner og genbrug på tværs af din organisation ved hjælp af Amazon SageMaker Feature Store og dens metadatakapacitet på funktionsniveau PlatoBlockchain Data Intelligence. Lodret søgning. Ai.Nicolas Bernier er en Associate Solutions Architect, en del af den canadiske offentlige sektor hos AWS. Han er i gang med en mastergrad med et forskningsområde i Deep Learning og har fem AWS-certificeringer, herunder ML Specialty Certification. Nicolas brænder for at hjælpe kunder med at uddybe deres viden om AWS ved at arbejde sammen med dem om at omsætte deres forretningsmæssige udfordringer til tekniske løsninger.

Fremme opdagelse af funktioner og genbrug på tværs af din organisation ved hjælp af Amazon SageMaker Feature Store og dens metadatakapacitet på funktionsniveau PlatoBlockchain Data Intelligence. Lodret søgning. Ai.Mark Roy er en Principal Machine Learning Architect for AWS, der hjælper kunder med at designe og bygge AI/ML-løsninger. Marks arbejde dækker en bred vifte af ML use cases med en primær interesse i computervision, deep learning og skalering af ML på tværs af virksomheden. Han har hjulpet virksomheder i mange brancher, herunder forsikring, finansielle tjenesteydelser, medier og underholdning, sundhedspleje, forsyningsselskaber og fremstilling. Mark har seks AWS-certificeringer, inklusive ML Specialty Certification. Før han kom til AWS, var Mark arkitekt, udvikler og teknologileder i over 25 år, heraf 19 år inden for finansielle tjenesteydelser.

Fremme opdagelse af funktioner og genbrug på tværs af din organisation ved hjælp af Amazon SageMaker Feature Store og dens metadatakapacitet på funktionsniveau PlatoBlockchain Data Intelligence. Lodret søgning. Ai.Khushboo Srivastava er Senior Product Manager for Amazon SageMaker. Hun nyder at bygge produkter, der forenkler maskinlærings-arbejdsgange for kunderne. I sin fritid nyder hun at spille violin, dyrke yoga og rejse.

Tidsstempel:

Mere fra AWS maskinindlæring