Promovați descoperirea și reutilizarea caracteristicilor în organizația dvs. folosind Amazon SageMaker Feature Store și capacitatea sa de metadate la nivel de caracteristică PlatoBlockchain Data Intelligence. Căutare verticală. Ai.

Promovați descoperirea și reutilizarea caracteristicilor în organizația dvs. folosind Amazon SageMaker Feature Store și capacitatea sa de metadate la nivel de caracteristică

Magazinul de caracteristici Amazon SageMaker ajută oamenii de știință de date și inginerii de învățare automată (ML) să stocheze, să descopere și să partajeze în siguranță datele selectate utilizate în fluxurile de lucru de instruire și predicție. Feature Store este un magazin centralizat pentru caracteristici și metadate asociate, permițând caracteristicilor să fie ușor descoperite și reutilizate de echipele de cercetători care lucrează la diferite proiecte sau modele ML.

Cu Feature Store, ați putut întotdeauna să adăugați metadate la nivel de grup de caracteristici. Oamenii de știință de date care doresc posibilitatea de a căuta și descoperi caracteristici existente pentru modelele lor au acum capacitatea de a căuta informații la nivel de caracteristică prin adăugarea de metadate personalizate. De exemplu, informațiile pot include o descriere a caracteristicii, data la care a fost modificată ultima dată, sursa de date inițială, anumite valori sau nivelul de sensibilitate.

Următoarea diagramă ilustrează relațiile de arhitectură dintre grupurile de caracteristici, caracteristici și metadatele asociate. Observați cum oamenii de știință din date pot specifica acum descrieri și metadate atât la nivel de grup de caracteristici, cât și la nivel de caracteristică individuală.

În această postare, explicăm modul în care oamenii de știință de date și inginerii ML pot folosi metadatele la nivel de caracteristică cu noile capabilități de căutare și descoperire ale Feature Store pentru a promova o mai bună reutilizare a caracteristicilor în organizația lor. Această capacitate poate ajuta în mod semnificativ oamenii de știință în domeniul datelor în procesul de selecție a caracteristicilor și, ca urmare, vă poate ajuta să identificați caracteristicile care conduc la o precizie crescută a modelului.

Utilizare caz

În scopul acestei postări, folosim două grupuri de caracteristici, customer și loan.

customer grupul de caracteristici are următoarele caracteristici:

  • vârstă – Vârsta clientului (numeric)
  • muncă – Tipul jobului (codificat one-hot, cum ar fi admin or services)
  • marital – Starea civilă (codificată one-hot, cum ar fi married or single)
  • educaţie – Nivel de educație (codificat one-hot, cum ar fi basic 4y or high school)

loan grupul de caracteristici are următoarele caracteristici:

  • lipsă – Are credit în stare de nerambursare? (codificat one-hot: no or yes)
  • carcasă – Are credit pentru locuințe? (codificat one-hot: no or yes)
  • împrumut – Are împrumut personal? (codificat one-hot: no or yes)
  • valoare totală – Valoarea totală a împrumuturilor (numerice)

Figura următoare prezintă exemple de grupuri de caracteristici și metadate de caracteristici.

Promovați descoperirea și reutilizarea caracteristicilor în organizația dvs. folosind Amazon SageMaker Feature Store și capacitatea sa de metadate la nivel de caracteristică PlatoBlockchain Data Intelligence. Căutare verticală. Ai.

Scopul adăugării unei descrieri și al atribuirii de metadate fiecărei caracteristici este de a crește viteza de descoperire prin activarea de noi parametri de căutare, în funcție de care un cercetător de date sau un inginer ML poate explora caracteristici. Acestea pot reflecta detalii despre o caracteristică, cum ar fi calculul acesteia, dacă este o medie pe 6 luni sau 1 an, originea, creatorul sau proprietarul, ce înseamnă caracteristica și multe altele.

În următoarele secțiuni, oferim două abordări pentru a căuta și descoperi caracteristici și pentru a configura metadatele la nivel de caracteristică: prima folosind Amazon SageMaker Studio direct, iar al doilea în mod programatic.

Descoperirea caracteristicilor în Studio

Puteți căuta și interoga cu ușurință funcții folosind Studio. Cu noile capabilități îmbunătățite de căutare și descoperire, puteți recupera imediat rezultate folosind o simplă introducere a câtorva caractere.

Următoarea captură de ecran demonstrează următoarele capabilități:

  • Puteți accesa Catalog de caracteristici și observați caracteristicile din grupurile de caracteristici. Caracteristicile sunt prezentate într-un tabel care include numele caracteristicii, tipul, descrierea, parametrii, data creării și numele grupului de caracteristici asociat.
  • Puteți utiliza direct funcționalitatea de introducere a textului înainte pentru a returna imediat rezultatele căutării.
  • Aveți flexibilitatea de a utiliza diferite tipuri de opțiuni de filtrare: All, Feature name, Description, Sau Parameters. Rețineți că All va returna toate caracteristicile unde fie Feature name, Description, Sau Parameters corespund criteriilor de căutare.
  • Puteți restrânge și mai mult căutarea specificând un interval de date utilizând Created from și Created to câmpuri și specificarea parametrilor folosind Search parameter key și Search parameter value domenii.

Promovați descoperirea și reutilizarea caracteristicilor în organizația dvs. folosind Amazon SageMaker Feature Store și capacitatea sa de metadate la nivel de caracteristică PlatoBlockchain Data Intelligence. Căutare verticală. Ai.

După ce ați selectat o caracteristică, puteți alege numele caracteristicii pentru a afișa detaliile acesteia. Când alegi Editați metadatele, puteți adăuga o descriere și până la 25 de parametri cheie-valoare, așa cum se arată în următoarea captură de ecran. În această vizualizare, în cele din urmă puteți crea, vizualiza, actualiza și șterge metadatele caracteristicii. Următoarea captură de ecran ilustrează cum să editați metadatele caracteristicilor pentru total_amount.

Promovați descoperirea și reutilizarea caracteristicilor în organizația dvs. folosind Amazon SageMaker Feature Store și capacitatea sa de metadate la nivel de caracteristică PlatoBlockchain Data Intelligence. Căutare verticală. Ai.

După cum sa menționat anterior, adăugarea perechilor cheie-valoare la o caracteristică vă oferă mai multe dimensiuni de-a lungul cărora să căutați caracteristicile lor date. Pentru exemplul nostru, originea caracteristicii a fost adăugată la metadatele fiecărei caracteristici. Când alegeți pictograma de căutare și filtrați de-a lungul perechii cheie-valoare origin: job, puteți vedea toate caracteristicile care au fost codificate la cald din acest atribut de bază.

Descoperirea caracteristicilor folosind cod

De asemenea, puteți accesa și actualiza informațiile despre funcții prin intermediul Interfața liniei de comandă AWS (AWS CLI) și SDK (Boto3), mai degrabă decât direct prin intermediul Consola de administrare AWS. Acest lucru vă permite să integrați funcționalitatea de căutare la nivel de caracteristică a Feature Store cu propriile platforme personalizate de știință a datelor. În această secțiune, interacționăm cu punctele finale API Boto3 pentru a actualiza și a căuta metadatele caracteristicilor.

Pentru a începe să îmbunătățiți căutarea și descoperirea caracteristicilor, puteți adăuga metadate folosind update_feature_metadata API. În plus față de description și created_date câmpuri, puteți adăuga până la 25 de parametri (perechi cheie-valoare) la o anumită caracteristică.

Următorul cod este un exemplu de cinci posibili parametri cheie-valoare care au fost adăugați la job_admin caracteristică. Această caracteristică a fost creată, împreună cu job_services și job_none, prin one-hot-encoding job.

sagemaker_client.update_feature_metadata(
    FeatureGroupName="customer",
    FeatureName="job_admin",
    ParameterAdditions=[
        {"Key": "author", "Value": "arnaud"}, # Feature's author
        {"Key": "team", "Value": "mlops"}, # Team owning the feature
        {"Key": "origin", "Value": "job"}, # Raw input parameter
        {"Key": "sensitivity", "Value": "5"}, # 1-5 scale for data sensitivity
        {"Key": "env", "Value": "testing"} # Environment the feature is used in
    ]
)

După author, team, origin, sensitivity, și env au fost adăugate la job_admin caracteristică, oamenii de știință de date sau inginerii ML le pot prelua apelând la describe_feature_metadata API. Puteți naviga la Parameters obiect în răspunsul pentru metadatele pe care le-am adăugat anterior caracteristicii noastre. The describe_feature_metadata Punctul final API vă permite să obțineți o perspectivă mai bună asupra unei anumite caracteristici obținând metadatele asociate acesteia.

response = sagemaker_client.describe_feature_metadata(
    FeatureGroupName="customer",
    FeatureName="job_admin",
)

# Navigate to 'Parameters' in response to get metadata
metadata = response['Parameters']

Puteți căuta funcții utilizând SageMaker search API care utilizează metadate ca parametri de căutare. Următorul cod este un exemplu de funcție care ia a search_string parametrul ca intrare și returnează toate caracteristicile în care numele, descrierea sau parametrii caracteristicii se potrivesc cu condiția:

def search_features_using_string(search_string):
    response = sagemaker_client.search(
        Resource= "FeatureMetadata",
        SearchExpression={
            'Filters': [
               {
                   'Name': 'FeatureName',
                   'Operator': 'Contains',
                   'Value': search_string
               },
               {
                   'Name': 'Description',
                   'Operator': 'Contains',
                   'Value': search_string
               },
               {
                   'Name': 'AllParameters',
                   'Operator': 'Contains',
                   'Value': search_string
               }
           ],
           "Operator": "Or"
        },
    )

    # Displaying results in a pandas DataFrame
    df=pd.json_normalize(response['Results'], max_level=1)
    df.columns = df.columns.map(lambda col: col.split(".")[1])
    df=df.drop('FeatureGroupArn', axis=1)

    return df

Următorul fragment de cod folosește nostru search_features funcția pentru a prelua toate caracteristicile pentru care fie numele caracteristicii, descrierea, fie parametrii conțin cuvântul job:

search_results = search_features_using_string('mlops')
search_results

Următoarea captură de ecran conține lista numelor de caracteristici care se potrivesc, precum și metadatele corespunzătoare, inclusiv marcajele de timp pentru crearea și ultima modificare a fiecărei caracteristici. Puteți folosi aceste informații pentru a îmbunătăți descoperirea și vizibilitatea în funcțiile organizației dvs.

Promovați descoperirea și reutilizarea caracteristicilor în organizația dvs. folosind Amazon SageMaker Feature Store și capacitatea sa de metadate la nivel de caracteristică PlatoBlockchain Data Intelligence. Căutare verticală. Ai.

Concluzie

Magazinul de caracteristici SageMaker oferă o soluție special concepută pentru managementul caracteristicilor pentru a ajuta organizațiile să extindă dezvoltarea ML în unitățile de afaceri și echipele de știință a datelor. Îmbunătățirea reutilizarii caracteristicilor și consistența caracteristicilor sunt avantajele principale ale unui magazin de caracteristici. În această postare, am explicat cum puteți utiliza metadatele la nivel de caracteristică pentru a îmbunătăți căutarea și descoperirea caracteristicilor. Aceasta a inclus crearea de metadate în jurul unei varietăți de cazuri de utilizare și utilizarea acestora ca parametri de căutare suplimentari.

Încercați și spuneți-ne ce credeți în comentarii. Dacă doriți să aflați mai multe despre colaborarea și partajarea funcțiilor din Magazinul de funcții, consultați Activați reutilizarea funcțiilor între conturi și echipe folosind Amazon SageMaker Feature Store.


Despre autori

Promovați descoperirea și reutilizarea caracteristicilor în organizația dvs. folosind Amazon SageMaker Feature Store și capacitatea sa de metadate la nivel de caracteristică PlatoBlockchain Data Intelligence. Căutare verticală. Ai. Arnaud Lauer este arhitect senior de soluții pentru parteneri în echipa din sectorul public la AWS. El le permite partenerilor și clienților să înțeleagă cum să folosească cel mai bine tehnologiile AWS pentru a traduce nevoile afacerii în soluții. El aduce peste 16 ani de experiență în furnizarea și arhitectura de proiecte de transformare digitală într-o gamă largă de industrii, inclusiv sectorul public, energie și bunuri de larg consum. Inteligența artificială și învățarea automată sunt câteva dintre pasiunile sale. Arnaud deține 12 certificări AWS, inclusiv Certificarea de specialitate ML.

Promovați descoperirea și reutilizarea caracteristicilor în organizația dvs. folosind Amazon SageMaker Feature Store și capacitatea sa de metadate la nivel de caracteristică PlatoBlockchain Data Intelligence. Căutare verticală. Ai.Nicolas Bernier este arhitect asociat de soluții, parte a echipei din sectorul public canadian de la AWS. În prezent, conduce un master cu o zonă de cercetare în Deep Learning și deține cinci certificări AWS, inclusiv Certificarea de specialitate ML. Nicolas este pasionat să-i ajute pe clienți să-și aprofundeze cunoștințele despre AWS, lucrând cu ei pentru a-și traduce provocările de afaceri în soluții tehnice.

Promovați descoperirea și reutilizarea caracteristicilor în organizația dvs. folosind Amazon SageMaker Feature Store și capacitatea sa de metadate la nivel de caracteristică PlatoBlockchain Data Intelligence. Căutare verticală. Ai.Mark Roy este un arhitect principal de învățare automată pentru AWS, ajutând clienții să proiecteze și să construiască soluții AI / ML. Munca lui Mark acoperă o gamă largă de cazuri de utilizare ML, cu un interes principal în viziunea pe computer, învățarea profundă și scalarea ML în întreaga întreprindere. A ajutat companii din multe industrii, inclusiv asigurări, servicii financiare, mass-media și divertisment, asistență medicală, utilități și producție. Mark deține șase certificări AWS, inclusiv certificarea ML Specialty. Înainte de a se alătura AWS, Mark a fost arhitect, dezvoltator și lider în tehnologie timp de peste 25 de ani, inclusiv 19 ani în servicii financiare.

Promovați descoperirea și reutilizarea caracteristicilor în organizația dvs. folosind Amazon SageMaker Feature Store și capacitatea sa de metadate la nivel de caracteristică PlatoBlockchain Data Intelligence. Căutare verticală. Ai.Khushboo Srivastava este Senior Product Manager pentru Amazon SageMaker. Îi place să construiască produse care simplifică fluxurile de lucru de învățare automată pentru clienți. În timpul liber, îi place să cânte la vioară, să practice yoga și să călătorească.

Timestamp-ul:

Mai mult de la Învățare automată AWS