Amazon SageMaker-gegevens Wrangler vermindert de tijd om gegevens te verzamelen en voor te bereiden voor machine learning (ML) van weken tot minuten. Met Data Wrangler kunt u met slechts een paar klikken gegevens selecteren en opvragen, gegevens snel transformeren met meer dan 300 ingebouwde gegevenstransformaties en uw gegevens begrijpen met ingebouwde visualisaties zonder code te schrijven.
Bovendien kunt u maken aangepaste transformaties uniek voor uw wensen. Met aangepaste transformaties kunt u aangepaste transformaties schrijven met behulp van PySpark, Panda's of SQL.
Data Wrangler ondersteunt nu een custom Panda's door de gebruiker gedefinieerde functie (UDF)-transformatie die grote datasets efficiรซnt kan verwerken. U kunt kiezen uit twee aangepaste Panda's UDF-modi: Panda's en Python. Beide modi bieden een efficiรซnte oplossing voor het verwerken van datasets, en de modus die u kiest, hangt af van uw voorkeur.
In dit bericht laten we zien hoe u de nieuwe Pandas UDF-transformatie in beide modi kunt gebruiken.
Overzicht oplossingen
Op het moment van schrijven kunt u datasets in Data Wrangler importeren vanuit: Amazon eenvoudige opslagservice (Amazone S3), Amazone Athene, Amazon roodverschuiving, Databricks en Sneeuwvlok. Voor dit bericht gebruiken we Amazon S3 om de 2014 . op te slaan Gegevensset Amazon-recensies.
De gegevens hebben een kolom met de naam reviewText
met door de gebruiker gegenereerde tekst. De tekst bevat ook verschillende stop woorden, dit zijn veelvoorkomende woorden die niet veel informatie bieden, zoals 'a', 'an' en 'the'. Het verwijderen van stopwoorden is een veelvoorkomende voorbewerkingsstap in natuurlijke taalverwerkingspijplijnen (NLP). We kunnen een aangepaste functie maken om de stopwoorden uit de beoordelingen te verwijderen.
Maak een aangepaste Pandas UDF-transformatie
Laten we door het proces lopen van het maken van twee aangepaste Panda's UDF-transformaties van Data Wrangler met behulp van de modi Panda's en Python.
- Download de Dataset voor digitale muziekrecensies en upload het naar Amazon S3.
- Openen Amazon SageMaker Studio en maak een nieuwe Data Wrangler-stroom.
- Onder Datums importeren, kiezen Amazon S3 en navigeer naar de locatie van de dataset.
- Voor Bestandstype, kiezen jsonl.
Een voorbeeld van de gegevens moet in de tabel worden weergegeven.
- Kies import verder gaan.
- Nadat uw gegevens zijn geรฏmporteerd, kiest u het plusteken naast Datatypen En kies Voeg transformatie toe.
- Kies Aangepaste transformatie.
- In het vervolgkeuzemenu, Python (door de gebruiker gedefinieerde functie).
Nu maken we onze aangepaste transformatie om stopwoorden te verwijderen.
- Specificeer uw invoerkolom, uitvoerkolom, retourtype en modus.
In het volgende voorbeeld wordt de Panda-modus gebruikt. Dit betekent dat de functie een Panda-reeks van dezelfde lengte moet accepteren en retourneren. Je kunt een Panda-serie zien als een kolom in een tabel of een deel van de kolom. Dit is de meest performante Panda's UDF-modus omdat Panda's operaties kunnen vectoriseren over batches met waarden in plaats van รฉรฉn tegelijk. De pd.Series
typehints zijn vereist in de Panda-modus.
Als je liever pure Python gebruikt in plaats van de Pandas API, kun je in de Python-modus een pure Python-functie specificeren die een enkel argument accepteert en een enkele waarde retourneert. Het volgende voorbeeld komt qua uitvoer overeen met de voorgaande Pandas-code. Typhints zijn niet vereist in de Python-modus.
- Kies Toevoegen om uw aangepaste transformatie toe te voegen.
Conclusie
Data Wrangler heeft meer dan 300 ingebouwde transformaties en u kunt ook aangepaste transformaties toevoegen die uniek zijn voor uw vereisten. In dit bericht hebben we laten zien hoe je datasets kunt verwerken met de nieuwe aangepaste Pandas UDF-transformatie van Data Wrangler, met zowel de Pandas- als de Python-modus. U kunt beide modi gebruiken op basis van uw voorkeur. Raadpleeg voor meer informatie over Data Wrangler: Een Data Wrangler-stroom maken en gebruiken.
Over de auteurs
Ben Harris is een software-engineer met ervaring in het ontwerpen, implementeren en onderhouden van schaalbare datapijplijnen en machine learning-oplossingen in verschillende domeinen. Ben heeft systemen gebouwd voor onder meer het verzamelen en labelen van gegevens, beeld- en tekstclassificatie, sequentie-naar-sequentie-modellering, inbedding en clustering.
Haider Naqvi is Solutions Architect bij AWS. Hij heeft uitgebreide ervaring in Software Development en Enterprise Architecture. Hij richt zich op het in staat stellen van klanten om zakelijke resultaten te behalen met AWS. Hij is gevestigd in New York.
Vishal Srivastava is technisch accountmanager bij AWS. Met een achtergrond in Software Development en Analytics, werkt hij voornamelijk met klanten in de financiรซle dienstverlening en digital native business en ondersteunt hij hun cloudreis. In zijn vrije tijd reist hij graag met zijn gezin.
- Coinsmart. Europa's beste Bitcoin- en crypto-uitwisseling.
- Platoblockchain. Web3 Metaverse Intelligentie. Kennis versterkt. GRATIS TOEGANG.
- CryptoHawk. Altcoin-radar. Gratis proefversie.
- Bron: https://aws.amazon.com/blogs/machine-learning/pandas-user-defined-functions-are-now-available-in-amazon-sagemaker-data-wrangler/
- "
- 10
- 100
- 9
- Over
- Account
- over
- Amazone
- onder
- analytics
- api
- architectuur
- Beschikbaar
- AWS
- achtergrond
- ingebouwd
- bedrijfsdeskundigen
- Kies
- classificatie
- Cloud
- code
- Collectie
- Kolom
- Gemeen
- bevat
- en je merk te creรซren
- Wij creรซren
- gewoonte
- Klanten
- gegevens
- tonen
- gedemonstreerd
- afhankelijk
- het inzetten
- ontwerpen
- Ontwikkeling
- digitaal
- domeinen
- doeltreffend
- efficiรซnt
- waardoor
- ingenieur
- Enterprise
- voorbeeld
- ervaring
- uitgebreid
- familie
- financieel
- financiรซle diensten
- stroom
- richt
- volgend
- Gratis
- functie
- Hoe
- How To
- HTTPS
- beeld
- informatie
- invoer
- IT
- Sluit zich aan bij
- etikettering
- taal
- Groot
- LEARN
- leren
- plaats
- machine
- machine learning
- manager
- Match
- ML
- meer
- meest
- Muziek
- Naturel
- New York
- Operations
- Voorbereiden
- Voorbeschouwing
- verwerking
- zorgen voor
- Quick
- snel
- nodig
- Voorwaarden
- terugkeer
- Retourneren
- Recensies
- schaalbare
- sector
- -Series
- Diensten
- Eenvoudig
- Software
- software development
- Software Engineer
- oplossing
- Oplossingen
- ruimten
- mediaopslag
- shop
- steunen
- Systems
- Technisch
- Door
- niet de tijd of
- teken
- tokens
- Transformeren
- reizen
- begrijpen
- unieke
- .
- waarde
- variรซteit
- zonder
- woorden
- Bedrijven
- het schrijven van