Configureer een aangepaste Amazon S3-query-uitvoerlocatie en gegevensretentiebeleid voor Amazon Athena-gegevensbronnen in Amazon SageMaker Data Wrangler

Heruitgegeven door Plato

volgers: 0

Amazon SageMaker-gegevens Wrangler vermindert de tijd die nodig is om gegevens te verzamelen en voor te bereiden voor machine learning (ML) van weken tot minuten in Amazon SageMaker Studio, de eerste volledig geïntegreerde ontwikkelomgeving (IDE) voor ML. Met Data Wrangler kunt u het proces van gegevensvoorbereiding en feature-engineering vereenvoudigen en elke stap van de gegevensvoorbereidingsworkflow voltooien, inclusief gegevensselectie, opschoning, verkenning en visualisatie, vanuit één enkele visuele interface. U kunt gegevens importeren uit meerdere gegevensbronnen, zoals: Amazon eenvoudige opslagservice (Amazone S3), Amazon roodverschuiving, Sneeuwvlok en 26 federatieve gegevensbronnen voor zoekopdrachten gesteund door Amazone Athene.

Vanaf vandaag kunt u bij het importeren van gegevens uit Athena-gegevensbronnen de S3-query-uitvoerlocatie en de bewaarperiode voor gegevens configureren om gegevens in Data Wrangler te importeren om te bepalen waar en hoe lang Athena de tussenliggende gegevens opslaat. In dit bericht leiden we je door deze nieuwe functie.

Overzicht oplossingen

Athena is een interactieve query-service die het gemakkelijk maakt om door de AWS lijm Data Catalog en analyseer gegevens in Amazon S3 en 26 federatieve gegevensbronnen voor query's met behulp van standaard SQL. Wanneer u Athena gebruikt om gegevens te importeren, kunt u de standaard S3-locatie van Data Wrangler gebruiken voor de uitvoer van de Athena-query, of een Athena-werkgroep opgeven om een aangepaste S3-locatie af te dwingen. Voorheen moest u opschoningsworkflows implementeren om deze tussenliggende gegevens te verwijderen, of handmatig de S3-levenscyclusconfiguratie instellen om de opslagkosten te beheersen en te voldoen aan de gegevensbeveiligingsvereisten van uw organisatie. Dit is een grote operationele overhead en niet schaalbaar.

Data Wrangler ondersteunt nu aangepaste S3-locaties en bewaartermijnen voor gegevens voor uw Athena-query-uitvoer. Met deze nieuwe functie kunt u de uitvoerlocatie van de Athena-query wijzigen in een aangepaste S3-bucket. U heeft nu een standaardbeleid voor het bewaren van gegevens van 5 dagen voor de uitvoer van Athena-query's en u kunt dit wijzigen om te voldoen aan de gegevensbeveiligingsvereisten van uw organisatie. Op basis van de bewaarperiode wordt de uitvoer van de Athena-query in de S3-bucket automatisch opgeschoond. Nadat u de gegevens hebt geïmporteerd, kunt u verkennende gegevensanalyses uitvoeren op deze gegevensset en de schone gegevens weer opslaan op Amazon S3.

Het volgende diagram illustreert deze architectuur.

Voor onze use case gebruiken we een voorbeeldbankgegevensset om door de oplossing te lopen. De workflow bestaat uit de volgende stappen:

Download de voorbeeldgegevensset en upload het naar een S3-bucket.
Een AWS-lijm instellen crawler om het schema te crawlen en het metadataschema op te slaan in de AWS Glue Data Catalog.
Gebruik Athena om toegang te krijgen tot de gegevenscatalogus om gegevens uit de S3-bucket op te vragen.
Maak een nieuwe Data Wrangler-stroom om verbinding te maken met Athena.
Stel bij het maken van de verbinding de retentie-TTL voor de dataset in.
Gebruik deze verbinding in de workflow en sla de schone gegevens op in een andere S3-bucket.

Voor de eenvoud gaan we ervan uit dat u de Athena-omgeving al hebt ingesteld (stappen 1-3). We beschrijven de volgende stappen in dit bericht.

Voorwaarden

Om de Athena-omgeving in te stellen, raadpleeg de Gebruikershandleiding voor stapsgewijze instructies en voltooi stap 1-3 zoals beschreven in het vorige gedeelte.

Importeer uw gegevens van Athena naar Data Wrangler

Voer de volgende stappen uit om uw gegevens te importeren:

Kies op de Studio-console de Resources pictogram in het navigatievenster.
Kies Gegevens Wrangler in het vervolgkeuzemenu.
Kies Nieuwe stroom.
Op de import tabblad, kies Amazone Athene.

Er wordt een detailpagina geopend waar u verbinding kunt maken met Athena en een SQL-query kunt schrijven om uit de database te importeren.
Voer een naam in voor uw verbinding.
Uitvouwen Geavanceerde configuratie.
Bij het verbinden met Athena gebruikt Data Wrangler Amazon S3 om de opgevraagde gegevens in te delen. Standaard worden deze gegevens geënsceneerd op de S3-locatie s3://sagemaker-{region}-{account_id}/athena/ met een bewaartermijn van 5 dagen.
Voor Amazon S3-locatie van zoekopdrachtresultaten, voer uw S3-locatie in.
kies Bewaartermijn gegevens en stel de bewaartermijn voor gegevens in (voor dit bericht 1 dag).
Als u deze optie uitschakelt, blijven de gegevens voor onbepaalde tijd behouden.Achter de schermen koppelt Data Wrangler een S3-levenscyclusconfiguratiebeleid aan die S3-locatie om automatisch op te schonen. Zie het volgende voorbeeldbeleid:
```
 "Rules": [
        {
            "Expiration": {
                "Days": 1
            },
            "ID": "sm-data-wrangler-retention-policy-xxxxxxx",
            "Filter": {
                "Prefix": "athena/test"
            },
            "Status": "Enabled"
        }
    ]
```
Jij hebt nodig s3:GetLifecycleConfiguration en s3:PutLifecycleConfiguration voor uw SageMaker-uitvoeringsrol om het levenscyclusconfiguratiebeleid correct toe te passen. Zonder deze machtigingen krijgt u foutmeldingen wanneer u de gegevens probeert te importeren.

De volgende foutmelding is een voorbeeld van het missen van de GetLifecycleConfiguration toestemming.

De volgende foutmelding is een voorbeeld van het missen van de PutLifecycleConfiguration toestemming.
Optioneel, voor Werkgroep, kunt u een Athena-werkgroep opgeven.
Een Athena-werkgroep isoleert gebruikers, teams, applicaties of workloads in groepen, elk met zijn eigen machtigingen en configuratie-instellingen. Wanneer u een werkgroep opgeeft, neemt Data Wrangler de werkgroepinstelling over die is gedefinieerd in Athena. Als voor een werkgroep bijvoorbeeld een S3-locatie is gedefinieerd om queryresultaten op te slaan en in te schakelen Cliëntzijde overschrijven instellingen, kunt u de resultaatlocatie van de S3-query niet bewerken.Standaard slaat Data Wrangler ook de Athena-verbinding voor u op. Dit wordt weergegeven als een nieuwe Athena-tegel in de import tabblad. U kunt die verbinding altijd opnieuw openen om verschillende gegevens op te vragen en naar Data Wrangler te brengen.
deselecteren Verbinding opslaan als u de verbinding niet wilt opslaan.
Om de Athena-verbinding te configureren, kiest u: Geen For monsterneming om de volledige dataset te importeren.

Voor grote gegevenssets kunt u met Data Wrangler een subset van uw gegevens importeren om uw transformatieworkflow uit te bouwen en de volledige gegevensset pas te verwerken als u er klaar voor bent. Dit versnelt de iteratiecyclus en bespaart verwerkingstijd en kosten. Ga voor meer informatie over de verschillende beschikbare opties voor gegevensbemonstering naar Amazon SageMaker Data Wrangler ondersteunt nu willekeurige steekproeven en gestratificeerde steekproeven.
Voor Data catalogusKiezen AwsDataCatalogus.
Voor Database, kies uw database.

Data Wrangler geeft de beschikbare tabellen weer. U kunt elke tabel kiezen om het schema te controleren en een voorbeeld van de gegevens te bekijken.
Typ de volgende code in het queryveld:
```
Select *
From bank_additional_full
```
Kies lopen om een voorbeeld van de gegevens te bekijken.
Als alles er goed uitziet, kies dan import.
Voer een datasetnaam in en kies Toevoegen om de gegevens in uw Data Wrangler-werkruimte te importeren.

Analyseer en verwerk gegevens met Data Wrangler

Nadat u de gegevens in Data Wrangler hebt geladen, kunt u verkennende gegevensanalyse (EDA) uitvoeren en de gegevens voorbereiden voor machine learning.

Kies het plusteken naast de bank-data gegevensset in de gegevensstroom en kies Analyse toevoegen.
Data Wrangler biedt ingebouwde analyses, waaronder een Data Quality and Insights Report, datacorrelatie, een pre-training bias-rapport, een samenvatting van uw dataset en visualisaties (zoals histogrammen en spreidingsdiagrammen). Bovendien kunt u uw eigen aangepaste visualisatie maken.
Voor Type analyseKiezen Rapport Gegevenskwaliteit en inzicht.
Dit genereert automatisch visualisaties, analyses om problemen met de datakwaliteit te identificeren en aanbevelingen voor de juiste transformaties die nodig zijn voor uw dataset.
Voor Doelkolom, kiezen Y.
Omdat dit een classificatieprobleem is, voor: Type probleemselecteer Classificatie.
Kies creëren.

Data Wrangler maakt een gedetailleerd rapport over uw dataset. U kunt het rapport ook downloaden naar uw lokale computer.
Kies voor gegevensvoorbereiding het plusteken naast de bankgegevensset in de gegevensstroom en kies Voeg transformatie toe.
Kies Stap toevoegen om te beginnen met het bouwen van uw transformaties.

Op het moment van schrijven biedt Data Wrangler meer dan 300 ingebouwde transformaties. U kunt ook uw eigen transformaties schrijven met Panda's of PySpark.

U kunt nu beginnen met het bouwen van uw transformaties en analyses op basis van uw zakelijke vereisten.

Opruimen

Om doorlopende kosten te voorkomen, verwijdert u de Data Wrangler-bronnen met behulp van de onderstaande stappen wanneer u klaar bent.

Selecteer het pictogram Lopende instanties en kernels.
Klik onder APPS UITVOEREN op het afsluitpictogram naast de sagemaker-data-wrangler-1.0 app.
Kies Alles afsluiten om te bevestigen.

Conclusie

In dit bericht hebben we een overzicht gegeven van het aanpassen van uw S3-locatie en het inschakelen van S3-levenscyclusconfiguraties voor het importeren van gegevens van Athena naar Data Wrangler. Met deze functie kunt u intermediaire gegevens opslaan op een beveiligde S3-locatie en de gegevenskopie automatisch verwijderen na de bewaarperiode om het risico op ongeautoriseerde toegang tot gegevens te verminderen. We raden u aan deze nieuwe functie uit te proberen. Gelukkig gebouw!

Ga voor meer informatie over Athena en SageMaker naar de Athena-gebruikershandleiding en Amazon SageMaker-documentatie.

Over de auteurs

Configureer een aangepaste Amazon S3-query-uitvoerlocatie en gegevensretentiebeleid voor Amazon Athena-gegevensbronnen in Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai. Meenakshisundaram Thandavarayan is een Senior AI/ML-specialist bij AWS. Hij helpt hi-tech strategische accounts op hun AI- en ML-reis. Hij heeft een grote passie voor datagedreven AI.

Harish Rajagopalan is Senior Solutions Architect bij Amazon Web Services. Harish werkt met zakelijke klanten en helpt hen met hun cloudreis.

James Wu is Senior AI/ML Specialist Solution Architect bij AWS. klanten helpen bij het ontwerpen en bouwen van AI/ML-oplossingen. James' werk omvat een breed scala aan ML-gebruikscasussen, met een primaire interesse in computervisie, deep learning en het opschalen van ML in de hele onderneming. Voordat hij bij AWS kwam, was James meer dan 10 jaar architect, ontwikkelaar en technologieleider, waarvan 6 jaar in engineering en 4 jaar in marketing- en reclamesectoren.

Tijdstempel: 20 september 202221 september 2022

Tijdstempel: 10-2023-XNUMX

Consumenten beschermen en innovatie bevorderen - AI-regulering en vertrouwen opbouwen in verantwoorde AI

Broncluster:

AWS-machine learning

Bronknooppunt: 1765573

Tijdstempel: December 1, 2022

Amazon SageMaker JumpStart biedt nu Amazon Comprehend-notebooks voor aangepaste classificatie en aangepaste entiteitsdetectie

Broncluster:

AWS-machine learning

Bronknooppunt: 1771393

Tijdstempel: December 12, 2022

Amazon Personalize lanceert nieuwe recepten die grotere itemcatalogi met lagere latentie ondersteunen | Amazon-webservices

Broncluster:

AWS-machine learning

Bronknooppunt: 1970709

Tijdstempel: 2 mei 2024

Configureer een aangepaste Amazon S3-query-uitvoerlocatie en gegevensretentiebeleid voor Amazon Athena-gegevensbronnen in Amazon SageMaker Data Wrangler

Heruitgegeven door Plato

Overzicht oplossingen

Voorwaarden

Importeer uw gegevens van Athena naar Data Wrangler

Analyseer en verwerk gegevens met Data Wrangler

Opruimen

Conclusie

Over de auteurs

Meer van AWS-machine learning

MLOps voor batch-inferentie met modelmonitoring en hertraining met Amazon SageMaker, HashiCorp Terraform en GitLab CI/CD | Amazon-webservices

Train en implementeer ML-modellen in een multicloud-omgeving met Amazon SageMaker | Amazon-webservices

Maak snellere training mogelijk met de parallelle gegevensbibliotheek van Amazon SageMaker | Amazon-webservices

Lokaliseer inhoud in meerdere talen met behulp van AWS machine learning-services

Consumenten beschermen en innovatie bevorderen - AI-regulering en vertrouwen opbouwen in verantwoorde AI

Amazon SageMaker JumpStart biedt nu Amazon Comprehend-notebooks voor aangepaste classificatie en aangepaste entiteitsdetectie

Amazon Personalize lanceert nieuwe recepten die grotere itemcatalogi met lagere latentie ondersteunen | Amazon-webservices

Over Ons

Verticaal zoeken & Ai

Platform

Blijf verbonden

Account