Främja funktionsupptäckt och återanvändning i hela din organisation med Amazon SageMaker Feature Store och dess metadatakapacitet på funktionsnivå PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Främja upptäckt av funktioner och återanvändning i hela din organisation med Amazon SageMaker Feature Store och dess metadatakapacitet på funktionsnivå

Amazon SageMaker Feature Store hjälper datavetare och maskininlärningsingenjörer (ML) att säkert lagra, upptäcka och dela utvalda data som används i utbildnings- och förutsägelsearbetsflöden. Feature Store är en centraliserad butik för funktioner och tillhörande metadata, vilket gör att funktioner enkelt kan upptäckas och återanvändas av dataforskarteam som arbetar med olika projekt eller ML-modeller.

Med Feature Store har du alltid kunnat lägga till metadata på funktionsgruppsnivå. Dataforskare som vill ha möjligheten att söka och upptäcka befintliga funktioner för sina modeller har nu möjlighet att söka information på funktionsnivå genom att lägga till anpassad metadata. Till exempel kan informationen inkludera en beskrivning av funktionen, datumet den senast ändrades, dess ursprungliga datakälla, vissa mätvärden eller känslighetsnivån.

Följande diagram illustrerar arkitekturrelationerna mellan funktionsgrupper, funktioner och tillhörande metadata. Notera hur datavetare nu kan specificera beskrivningar och metadata på både funktionsgruppsnivå och individuell funktionsnivå.

I det här inlägget förklarar vi hur datavetare och ML-ingenjörer kan använda metadata på funktionsnivå med de nya sök- och upptäcktsmöjligheterna i Feature Store för att främja bättre återanvändning av funktioner i hela organisationen. Denna förmåga kan avsevärt hjälpa datavetare i funktionsvalsprocessen och, som ett resultat, hjälpa dig att identifiera funktioner som leder till ökad modellnoggrannhet.

Användningsfall

För detta inlägg använder vi två funktionsgrupper, customer och loan.

Smakämnen customer funktionsgruppen har följande funktioner:

  • ålder – Kundens ålder (numerisk)
  • jobb – Typ av jobb (en-hot-kodad, t.ex admin or services)
  • äktenskaplig – Civilstånd (en-hot-kodad, t.ex married or single)
  • utbildning – Utbildningsnivå (en-hot-kodad, t.ex basic 4y or high school)

Smakämnen loan funktionsgruppen har följande funktioner:

  • standard – Har krediten fallerat? (en-hot-kodad: no or yes)
  • bostäder – Har du bostadslån? (en-hot-kodad: no or yes)
  • lån – Har privatlån? (en-hot-kodad: no or yes)
  • totala summan – Totalt antal lån (numeriskt)

Följande figur visar exempel på funktionsgrupper och funktionsmetadata.

Främja funktionsupptäckt och återanvändning i hela din organisation med Amazon SageMaker Feature Store och dess metadatakapacitet på funktionsnivå PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Syftet med att lägga till en beskrivning och tilldela metadata till varje funktion är att öka upptäcktshastigheten genom att aktivera nya sökparametrar längs vilka en datavetare eller ML-ingenjör kan utforska funktioner. Dessa kan återspegla detaljer om en funktion som dess beräkning, om det är ett genomsnitt över 6 månader eller 1 år, ursprung, skapare eller ägare, vad funktionen betyder och mer.

I följande avsnitt tillhandahåller vi två metoder för att söka och upptäcka funktioner och konfigurera metadata på funktionsnivå: den första använder Amazon SageMaker Studio direkt, och den andra programmatiskt.

Funktionsupptäckt i Studio

Du kan enkelt söka och fråga efter funktioner med Studio. Med de nya förbättrade sök- och upptäcktsfunktionerna kan du omedelbart hämta resultat genom att enkelt skriva in några tecken.

Följande skärmdump visar följande funktioner:

  • Du kan komma åt Funktionskatalog fliken och observera funktioner över funktionsgrupper. Funktionerna presenteras i en tabell som inkluderar funktionsnamn, typ, beskrivning, parametrar, datum för skapande och tillhörande funktionsgrupps namn.
  • Du kan direkt använda typ-ahead-funktionen för att omedelbart returnera sökresultat.
  • Du har flexibiliteten att använda olika typer av filteralternativ: All, Feature name, Description, eller Parameters. Anteckna det All kommer att returnera alla funktioner där antingen Feature name, Description, eller Parameters matcha sökkriterierna.
  • Du kan begränsa sökningen ytterligare genom att ange ett datumintervall med hjälp av Created from och Created to fält och ange parametrar med hjälp av Search parameter key och Search parameter value fält.

Främja funktionsupptäckt och återanvändning i hela din organisation med Amazon SageMaker Feature Store och dess metadatakapacitet på funktionsnivå PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

När du har valt en funktion kan du välja funktionens namn för att få fram dess detaljer. När du väljer Redigera metadata, kan du lägga till en beskrivning och upp till 25 nyckel-värde parametrar, som visas i följande skärmdump. I den här vyn kan du i slutändan skapa, visa, uppdatera och ta bort funktionens metadata. Följande skärmdump illustrerar hur man redigerar funktionsmetadata för total_amount.

Främja funktionsupptäckt och återanvändning i hela din organisation med Amazon SageMaker Feature Store och dess metadatakapacitet på funktionsnivå PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Som tidigare nämnts, genom att lägga till nyckel-värdepar till en funktion får du fler dimensioner för att söka efter deras givna funktioner. För vårt exempel har funktionens ursprung lagts till i varje funktions metadata. När du väljer sökikonen och filtrerar längs nyckel-värdeparet origin: job, kan du se alla funktioner som var one-hot-kodade från detta basattribut.

Funktionsupptäckt med hjälp av kod

Du kan också komma åt och uppdatera funktionsinformation via AWS-kommandoradsgränssnitt (AWS CLI) och SDK (Boto3) snarare än direkt genom AWS Management Console. Detta gör att du kan integrera sökfunktionen på funktionsnivå i Feature Store med dina egna anpassade datavetenskapliga plattformar. I det här avsnittet interagerar vi med Boto3 API-slutpunkter för att uppdatera och söka funktionsmetadata.

För att börja förbättra funktionssökning och upptäckt kan du lägga till metadata med hjälp av update_feature_metadata API. Utöver description och created_date fält kan du lägga till upp till 25 parametrar (nyckel-värdepar) till en given funktion.

Följande kod är ett exempel på fem möjliga nyckel-värde parametrar som har lagts till job_admin funktion. Denna funktion skapades tillsammans med job_services och job_none, genom one-hot-encoding job.

sagemaker_client.update_feature_metadata(
    FeatureGroupName="customer",
    FeatureName="job_admin",
    ParameterAdditions=[
        {"Key": "author", "Value": "arnaud"}, # Feature's author
        {"Key": "team", "Value": "mlops"}, # Team owning the feature
        {"Key": "origin", "Value": "job"}, # Raw input parameter
        {"Key": "sensitivity", "Value": "5"}, # 1-5 scale for data sensitivity
        {"Key": "env", "Value": "testing"} # Environment the feature is used in
    ]
)

Efter author, team, origin, sensitivityoch env har lagts till i job_admin funktionen kan datavetare eller ML-ingenjörer hämta dem genom att ringa describe_feature_metadata API. Du kan navigera till Parameters objekt i svaret för metadata som vi tidigare lagt till i vår funktion. De describe_feature_metadata API-slutpunkt låter dig få större insikt i en given funktion genom att få tillhörande metadata.

response = sagemaker_client.describe_feature_metadata(
    FeatureGroupName="customer",
    FeatureName="job_admin",
)

# Navigate to 'Parameters' in response to get metadata
metadata = response['Parameters']

Du kan söka efter funktioner genom att använda SageMaker search API som använder metadata som sökparametrar. Följande kod är en exempelfunktion som tar en search_string parameter som indata och returnerar alla funktioner där objektets namn, beskrivning eller parametrar matchar villkoret:

def search_features_using_string(search_string):
    response = sagemaker_client.search(
        Resource= "FeatureMetadata",
        SearchExpression={
            'Filters': [
               {
                   'Name': 'FeatureName',
                   'Operator': 'Contains',
                   'Value': search_string
               },
               {
                   'Name': 'Description',
                   'Operator': 'Contains',
                   'Value': search_string
               },
               {
                   'Name': 'AllParameters',
                   'Operator': 'Contains',
                   'Value': search_string
               }
           ],
           "Operator": "Or"
        },
    )

    # Displaying results in a pandas DataFrame
    df=pd.json_normalize(response['Results'], max_level=1)
    df.columns = df.columns.map(lambda col: col.split(".")[1])
    df=df.drop('FeatureGroupArn', axis=1)

    return df

Följande kodavsnitt använder vår search_features funktion för att hämta alla funktioner för vilka antingen funktionsnamnet, beskrivningen eller parametrarna innehåller ordet job:

search_results = search_features_using_string('mlops')
search_results

Följande skärmdump innehåller listan över matchande funktionsnamn samt deras motsvarande metadata, inklusive tidsstämplar för varje funktions skapande och senaste ändring. Du kan använda denna information för att förbättra upptäckten och insynen i din organisations funktioner.

Främja funktionsupptäckt och återanvändning i hela din organisation med Amazon SageMaker Feature Store och dess metadatakapacitet på funktionsnivå PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Slutsats

SageMaker Feature Store tillhandahåller en specialbyggd funktionshanteringslösning för att hjälpa organisationer att skala ML-utveckling över affärsenheter och datavetenskapsteam. Att förbättra funktionsåteranvändning och funktionskonsistens är de främsta fördelarna med en funktionsbutik. I det här inlägget förklarade vi hur du kan använda metadata på funktionsnivå för att förbättra sökning och upptäckt av funktioner. Detta inkluderade att skapa metadata kring en mängd olika användningsfall och använda den som ytterligare sökparametrar.

Ge det ett försök och låt oss veta vad du tycker i kommentarerna. Om du vill lära dig mer om att samarbeta och dela funktioner inom Feature Store, se Aktivera återanvändning av funktioner över konton och team med Amazon SageMaker Feature Store.


Om författarna

Främja funktionsupptäckt och återanvändning i hela din organisation med Amazon SageMaker Feature Store och dess metadatakapacitet på funktionsnivå PlatoBlockchain Data Intelligence. Vertikal sökning. Ai. Arnaud Lauer är Senior Partner Solutions Architect i teamet för offentlig sektor på AWS. Han gör det möjligt för partners och kunder att förstå hur man bäst använder AWS-teknik för att omsätta affärsbehov till lösningar. Han har mer än 16 års erfarenhet av att leverera och utforma digitala transformationsprojekt inom en rad branscher, inklusive den offentliga sektorn, energi och konsumentvaror. Artificiell intelligens och maskininlärning är några av hans passioner. Arnaud har 12 AWS-certifieringar, inklusive ML Specialty Certification.

Främja funktionsupptäckt och återanvändning i hela din organisation med Amazon SageMaker Feature Store och dess metadatakapacitet på funktionsnivå PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.Nicolas Bernier är en Associate Solutions Architect, en del av teamet för den kanadensiska offentliga sektorn på AWS. Han genomför för närvarande en masterexamen med ett forskningsområde inom Deep Learning och innehar fem AWS-certifieringar, inklusive ML Specialty Certification. Nicolas brinner för att hjälpa kunder att fördjupa sina kunskaper om AWS genom att arbeta med dem för att översätta deras affärsutmaningar till tekniska lösningar.

Främja funktionsupptäckt och återanvändning i hela din organisation med Amazon SageMaker Feature Store och dess metadatakapacitet på funktionsnivå PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.Mark Roy är en huvudsaklig maskininlärningsarkitekt för AWS, som hjälper kunderna att designa och bygga AI / ML-lösningar. Marks arbete täcker ett brett spektrum av ML-användningsfall, med ett primärt intresse för datorsyn, djupinlärning och skalning av ML över hela företaget. Han har hjälpt företag i många branscher, inklusive försäkringar, finansiella tjänster, media och underhållning, sjukvård, verktyg och tillverkning. Mark har sex AWS-certifieringar, inklusive ML-specialcertifiering. Innan Mark började på AWS var han arkitekt, utvecklare och teknologiledare i över 25 år, inklusive 19 år inom finansiella tjänster.

Främja funktionsupptäckt och återanvändning i hela din organisation med Amazon SageMaker Feature Store och dess metadatakapacitet på funktionsnivå PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.Khushboo Srivastava är senior produktchef för Amazon SageMaker. Hon tycker om att bygga produkter som förenklar arbetsflöden för maskininlärning för kunder. På fritiden tycker hon om att spela fiol, utöva yoga och att resa.

Tidsstämpel:

Mer från AWS maskininlärning