Promova a descoberta e a reutilização de recursos em toda a sua organização usando o Amazon SageMaker Feature Store e seu recurso de metadados em nível de recurso PlatoBlockchain Data Intelligence. Pesquisa Vertical. Ai.

Promova a descoberta e a reutilização de recursos em toda a sua organização usando o Amazon SageMaker Feature Store e seu recurso de metadados em nível de recurso

Loja de recursos Amazon SageMaker ajuda os cientistas de dados e engenheiros de aprendizado de máquina (ML) a armazenar, descobrir e compartilhar com segurança dados selecionados usados ​​em fluxos de trabalho de treinamento e previsão. O Feature Store é um armazenamento centralizado de recursos e metadados associados, permitindo que os recursos sejam facilmente descobertos e reutilizados por equipes de cientistas de dados que trabalham em diferentes projetos ou modelos de ML.

Com o Feature Store, você sempre pode adicionar metadados no nível do grupo de recursos. Os cientistas de dados que desejam pesquisar e descobrir recursos existentes para seus modelos agora têm a capacidade de pesquisar informações no nível do recurso adicionando metadados personalizados. Por exemplo, as informações podem incluir uma descrição do recurso, a data em que foi modificada pela última vez, sua fonte de dados original, determinadas métricas ou o nível de sensibilidade.

O diagrama a seguir ilustra os relacionamentos de arquitetura entre grupos de recursos, recursos e metadados associados. Observe como os cientistas de dados agora podem especificar descrições e metadados no nível do grupo de recursos e no nível do recurso individual.

Nesta postagem, explicamos como cientistas de dados e engenheiros de ML podem usar metadados em nível de recurso com os novos recursos de pesquisa e descoberta do Feature Store para promover uma melhor reutilização de recursos em toda a organização. Esse recurso pode ajudar significativamente os cientistas de dados no processo de seleção de recursos e, como resultado, ajudá-lo a identificar recursos que levam a uma maior precisão do modelo.

Caso de uso

Para os propósitos deste post, usamos dois grupos de recursos, customer e loan.

A customer grupo de recursos tem os seguintes recursos:

  • idade – Idade do cliente (numérico)
  • trabalho – Tipo de trabalho (codificado em um hot, como admin or services)
  • marital – Estado civil (codificado em um hot, como married or single)
  • educação – Nível de educação (um codificado, como basic 4y or high school)

A loan grupo de recursos tem os seguintes recursos:

  • omissão – Tem crédito inadimplente? (codificado em um hot: no or yes)
  • habitação – Tem crédito à habitação? (codificado em um hot: no or yes)
  • empréstimo – Tem empréstimo pessoal? (codificado em um hot: no or yes)
  • valor total – Valor total dos empréstimos (numérico)

A figura a seguir mostra exemplos de grupos de recursos e metadados de recursos.

Promova a descoberta e a reutilização de recursos em toda a sua organização usando o Amazon SageMaker Feature Store e seu recurso de metadados em nível de recurso PlatoBlockchain Data Intelligence. Pesquisa Vertical. Ai.

O objetivo de adicionar uma descrição e atribuir metadados a cada recurso é aumentar a velocidade de descoberta, permitindo novos parâmetros de pesquisa ao longo dos quais um cientista de dados ou engenheiro de ML pode explorar recursos. Eles podem refletir detalhes sobre um recurso, como seu cálculo, se é uma média de 6 meses ou 1 ano, origem, criador ou proprietário, o que o recurso significa e muito mais.

Nas seções a seguir, fornecemos duas abordagens para pesquisar e descobrir recursos e configurar metadados em nível de recurso: o primeiro usando Estúdio Amazon SageMaker diretamente, e o segundo programaticamente.

Descoberta de recursos no Studio

Você pode pesquisar e consultar recursos com facilidade usando o Studio. Com os novos recursos aprimorados de pesquisa e descoberta, você pode recuperar resultados imediatamente usando uma simples digitação à frente de alguns caracteres.

A captura de tela a seguir demonstra os seguintes recursos:

  • Você pode acessar o Catálogo de Recursos guia e observe os recursos em todos os grupos de recursos. Os recursos são apresentados em uma tabela que inclui o nome do recurso, tipo, descrição, parâmetros, data de criação e nome do grupo de recursos associado.
  • Você pode usar diretamente a funcionalidade de digitação antecipada para retornar imediatamente os resultados da pesquisa.
  • Você tem a flexibilidade de usar diferentes tipos de opções de filtro: All, Feature name, Descriptionou Parameters. Observe que All retornará todos os recursos em que Feature name, Descriptionou Parameters corresponder aos critérios de pesquisa.
  • Você pode restringir ainda mais a pesquisa especificando um intervalo de datas usando o Created from e Created to campos e especificando parâmetros usando o Search parameter key e Search parameter value campos.

Promova a descoberta e a reutilização de recursos em toda a sua organização usando o Amazon SageMaker Feature Store e seu recurso de metadados em nível de recurso PlatoBlockchain Data Intelligence. Pesquisa Vertical. Ai.

Depois de selecionar um recurso, você pode escolher o nome do recurso para exibir seus detalhes. Quando você escolhe Editar metadados, você pode adicionar uma descrição e até 25 parâmetros de valor-chave, conforme mostrado na captura de tela a seguir. Nessa visualização, você pode criar, visualizar, atualizar e excluir os metadados do recurso. A captura de tela a seguir ilustra como editar metadados de recursos para total_amount.

Promova a descoberta e a reutilização de recursos em toda a sua organização usando o Amazon SageMaker Feature Store e seu recurso de metadados em nível de recurso PlatoBlockchain Data Intelligence. Pesquisa Vertical. Ai.

Como dito anteriormente, adicionar pares de valores-chave a um recurso fornece mais dimensões para pesquisar os recursos fornecidos. Para nosso exemplo, a origem do recurso foi adicionada aos metadados de cada recurso. Quando você escolhe o ícone de pesquisa e filtra ao longo do par de valores-chave origin: job, você pode ver todos os recursos que foram codificados em um hot-hot a partir deste atributo base.

Descoberta de recursos usando código

Você também pode acessar e atualizar as informações do recurso por meio do Interface de linha de comando da AWS (AWS CLI) e SDK (Boto3) em vez de diretamente por meio do Console de gerenciamento da AWS. Isso permite integrar a funcionalidade de pesquisa em nível de recurso do Feature Store com suas próprias plataformas de ciência de dados personalizadas. Nesta seção, interagimos com os endpoints da API Boto3 para atualizar e pesquisar metadados de recursos.

Para começar a melhorar a pesquisa e a descoberta de recursos, você pode adicionar metadados usando o update_feature_metadata API. Em adição ao description e created_date campos, você pode adicionar até 25 parâmetros (pares chave-valor) a um determinado recurso.

O código a seguir é um exemplo de cinco possíveis parâmetros de valor-chave que foram adicionados ao job_admin característica. Este recurso foi criado, juntamente com job_services e job_none, por codificação one-hot job.

sagemaker_client.update_feature_metadata(
    FeatureGroupName="customer",
    FeatureName="job_admin",
    ParameterAdditions=[
        {"Key": "author", "Value": "arnaud"}, # Feature's author
        {"Key": "team", "Value": "mlops"}, # Team owning the feature
        {"Key": "origin", "Value": "job"}, # Raw input parameter
        {"Key": "sensitivity", "Value": "5"}, # 1-5 scale for data sensitivity
        {"Key": "env", "Value": "testing"} # Environment the feature is used in
    ]
)

Depois de author, team, origin, sensitivity e env foram adicionados ao job_admin recurso, cientistas de dados ou engenheiros de ML podem recuperá-los chamando o describe_feature_metadata API. Você pode navegar até o Parameters object na resposta para os metadados que adicionamos anteriormente ao nosso recurso. o describe_feature_metadata O endpoint da API permite que você obtenha mais informações sobre um determinado recurso obtendo seus metadados associados.

response = sagemaker_client.describe_feature_metadata(
    FeatureGroupName="customer",
    FeatureName="job_admin",
)

# Navigate to 'Parameters' in response to get metadata
metadata = response['Parameters']

Você pode pesquisar recursos usando o SageMaker search API usando metadados como parâmetros de pesquisa. O código a seguir é uma função de exemplo que leva um search_string parâmetro como uma entrada e retorna todos os recursos em que o nome, a descrição ou os parâmetros do recurso correspondem à condição:

def search_features_using_string(search_string):
    response = sagemaker_client.search(
        Resource= "FeatureMetadata",
        SearchExpression={
            'Filters': [
               {
                   'Name': 'FeatureName',
                   'Operator': 'Contains',
                   'Value': search_string
               },
               {
                   'Name': 'Description',
                   'Operator': 'Contains',
                   'Value': search_string
               },
               {
                   'Name': 'AllParameters',
                   'Operator': 'Contains',
                   'Value': search_string
               }
           ],
           "Operator": "Or"
        },
    )

    # Displaying results in a pandas DataFrame
    df=pd.json_normalize(response['Results'], max_level=1)
    df.columns = df.columns.map(lambda col: col.split(".")[1])
    df=df.drop('FeatureGroupArn', axis=1)

    return df

O trecho de código a seguir usa nosso search_features função para recuperar todos os recursos para os quais o nome do recurso, a descrição ou os parâmetros contêm a palavra job:

search_results = search_features_using_string('mlops')
search_results

A captura de tela a seguir contém a lista de nomes de recursos correspondentes, bem como seus metadados correspondentes, incluindo carimbos de data e hora para a criação e última modificação de cada recurso. Você pode usar essas informações para melhorar a descoberta e a visibilidade dos recursos da sua organização.

Promova a descoberta e a reutilização de recursos em toda a sua organização usando o Amazon SageMaker Feature Store e seu recurso de metadados em nível de recurso PlatoBlockchain Data Intelligence. Pesquisa Vertical. Ai.

Conclusão

O SageMaker Feature Store fornece uma solução de gerenciamento de recursos desenvolvida especificamente para ajudar as organizações a escalar o desenvolvimento de ML em unidades de negócios e equipes de ciência de dados. Melhorar a reutilização de recursos e a consistência de recursos são os principais benefícios de um repositório de recursos. Nesta postagem, explicamos como você pode usar metadados de nível de recurso para melhorar a pesquisa e a descoberta de recursos. Isso incluiu a criação de metadados em uma variedade de casos de uso e seu uso como parâmetros de pesquisa adicionais.

Experimente, e deixe-nos saber o que você pensa nos comentários. Se você quiser saber mais sobre como colaborar e compartilhar recursos na Feature Store, consulte Habilite a reutilização de recursos entre contas e equipes usando Amazon SageMaker Feature Store.


Sobre os autores

Promova a descoberta e a reutilização de recursos em toda a sua organização usando o Amazon SageMaker Feature Store e seu recurso de metadados em nível de recurso PlatoBlockchain Data Intelligence. Pesquisa Vertical. Ai. Arnaud Lauer é arquiteto de soluções de parceiro sênior na equipe do setor público da AWS. Ele permite que parceiros e clientes entendam a melhor forma de usar as tecnologias da AWS para traduzir as necessidades de negócios em soluções. Ele traz mais de 16 anos de experiência na entrega e arquitetura de projetos de transformação digital em vários setores, incluindo o setor público, energia e bens de consumo. Inteligência artificial e aprendizado de máquina são algumas de suas paixões. Arnaud possui 12 certificações da AWS, incluindo a ML Specialty Certification.

Promova a descoberta e a reutilização de recursos em toda a sua organização usando o Amazon SageMaker Feature Store e seu recurso de metadados em nível de recurso PlatoBlockchain Data Intelligence. Pesquisa Vertical. Ai.Nicolas Bernier é um Associate Solutions Architect, parte da equipe do Setor Público Canadense na AWS. Atualmente, ele está realizando um mestrado com uma área de pesquisa em Deep Learning e possui cinco certificações da AWS, incluindo a ML Specialty Certification. Nicolas é apaixonado por ajudar os clientes a aprofundar seu conhecimento da AWS trabalhando com eles para traduzir seus desafios de negócios em soluções técnicas.

Promova a descoberta e a reutilização de recursos em toda a sua organização usando o Amazon SageMaker Feature Store e seu recurso de metadados em nível de recurso PlatoBlockchain Data Intelligence. Pesquisa Vertical. Ai.Marcos Roy é arquiteto de aprendizado de máquina principal da AWS, ajudando clientes a projetar e construir soluções de AI / ML. O trabalho de Mark cobre uma ampla gama de casos de uso de ML, com interesse principal em visão computacional, aprendizado profundo e escalonamento de ML em toda a empresa. Ele ajudou empresas em muitos setores, incluindo seguros, serviços financeiros, mídia e entretenimento, saúde, serviços públicos e manufatura. Mark possui seis certificações AWS, incluindo a certificação ML Specialty. Antes de ingressar na AWS, Mark foi arquiteto, desenvolvedor e líder de tecnologia por mais de 25 anos, incluindo 19 anos em serviços financeiros.

Promova a descoberta e a reutilização de recursos em toda a sua organização usando o Amazon SageMaker Feature Store e seu recurso de metadados em nível de recurso PlatoBlockchain Data Intelligence. Pesquisa Vertical. Ai.Khushboo Srivastava é gerente de produto sênior do Amazon SageMaker. Ela gosta de criar produtos que simplifiquem os fluxos de trabalho de aprendizado de máquina para os clientes. Em seu tempo livre, ela gosta de tocar violino, praticar ioga e viajar.

Carimbo de hora:

Mais de Aprendizado de máquina da AWS