Aankondiging van de preview van Amazon SageMaker Profiler: volg en visualiseer gedetailleerde hardwareprestatiegegevens voor uw modeltrainingsworkloads

Heruitgegeven door Plato

volgers: 0

Vandaag kondigen we met trots de preview aan van Amazon SageMaker-profiler, een vermogen van Amazon Sage Maker dat een gedetailleerd overzicht biedt van de AWS-rekenbronnen die worden ingericht tijdens het trainen van deep learning-modellen op SageMaker. Met SageMaker Profiler kunt u alle activiteiten op CPU's en GPU's volgen, zoals CPU- en GPU-gebruik, kernel-runs op GPU's, kernel-lanceringen op CPU's, synchronisatiebewerkingen, geheugenbewerkingen tussen GPU's, latenties tussen kernel-lanceringen en overeenkomstige runs, en gegevensoverdracht tussen CPU's en GPU's. In dit bericht leiden we u door de mogelijkheden van SageMaker Profiler.

SageMaker Profiler biedt Python-modules voor het annoteren van PyTorch- of TensorFlow-trainingsscripts en het activeren van SageMaker Profiler. Het biedt ook een gebruikersinterface (UI) die de profielen, een statistische samenvatting van geprofileerde gebeurtenissen en de tijdlijn van een trainingstaak voor het volgen en begrijpen van de tijdsrelatie van de gebeurtenissen tussen GPU's en CPU's.

De behoefte aan profilering van opleidingsbanen

Met de opkomst van deep learning (DL) is machine learning (ML) reken- en data-intensief geworden, waarvoor doorgaans clusters met meerdere knooppunten en meerdere GPU's nodig zijn. Naarmate state-of-the-art modellen in omvang toenemen in de orde van biljoenen parameters, nemen ook hun rekencomplexiteit en kosten snel toe. ML-beoefenaars moeten omgaan met gemeenschappelijke uitdagingen van efficiënt gebruik van hulpbronnen bij het trainen van zulke grote modellen. Dit is vooral duidelijk in grote taalmodellen (LLM's), die doorgaans miljarden parameters hebben en daarom grote GPU-clusters met meerdere knooppunten nodig hebben om ze efficiënt te kunnen trainen.

Wanneer we deze modellen trainen op grote rekenclusters, kunnen we uitdagingen tegenkomen op het gebied van optimalisatie van rekenbronnen, zoals I/O-knelpunten, latenties bij het opstarten van de kernel, geheugenlimieten en een laag gebruik van bronnen. Als de configuratie van de trainingstaken niet is geoptimaliseerd, kunnen deze uitdagingen resulteren in inefficiënt hardwaregebruik en langere trainingtijden of onvolledige trainingsruns, waardoor de totale kosten en tijdlijnen voor het project toenemen.

Voorwaarden

Dit zijn de vereisten om SageMaker Profiler te gaan gebruiken:

Een SageMaker-domein in uw AWS-account – Voor instructies over het instellen van een domein, zie Onboard naar Amazon SageMaker Domain met behulp van snelle installatie. U moet ook domeingebruikersprofielen toevoegen voor individuele gebruikers om toegang te krijgen tot de SageMaker Profiler UI-toepassing. Voor meer informatie, zie SageMaker Domain-gebruikersprofielen toevoegen en verwijderen.
machtigingen – De volgende lijst is de minimale set machtigingen die moet worden toegewezen aan de uitvoeringsrol voor het gebruik van de SageMaker Profiler UI-toepassing:
- sagemaker:CreateApp
- sagemaker:DeleteApp
- sagemaker:DescribeTrainingJob
- sagemaker:SearchTrainingJobs
- s3:GetObject
- s3:ListBucket

Een trainingstaak voorbereiden en uitvoeren met SageMaker Profiler

Om te beginnen met het vastleggen van kernelruns op GPU's terwijl de trainingstaak actief is, wijzigt u uw trainingsscript met behulp van de SageMaker Profiler Python-modules. Importeer de bibliotheek en voeg de start_profiling() en stop_profiling() methoden om het begin en het einde van profilering te definiëren. U kunt ook optionele aangepaste annotaties gebruiken om markeringen toe te voegen aan het trainingsscript om hardware-activiteiten tijdens bepaalde bewerkingen in elke stap te visualiseren.

Er zijn twee manieren waarop u uw trainingsscripts kunt profileren met SageMaker Profiler. De eerste benadering is gebaseerd op het profileren van volledige functies; de tweede benadering is gebaseerd op het profileren van specifieke coderegels in functies.

Gebruik de contextmanager om te profileren op functies smppy.annotate om volledige functies te annoteren. Het volgende voorbeeldscript laat zien hoe u de contextmanager implementeert om de trainingslus en volledige functies in elke iteratie te verpakken:

import smppy sm_prof = smppy.SMProfiler.instance()
config = smppy.Config()
config.profiler = { "EnableCuda": "1",
}
sm_prof.configure(config)
sm_prof.start_profiling() for epoch in range(args.epochs): if world_size > 1: sampler.set_epoch(epoch) tstart = time.perf_counter() for i, data in enumerate(trainloader, 0): with smppy.annotate("step_"+str(i)): inputs, labels = data inputs = inputs.to("cuda", non_blocking=True) labels = labels.to("cuda", non_blocking=True) optimizer.zero_grad() with smppy.annotate("Forward"): outputs = net(inputs) with smppy.annotate("Loss"): loss = criterion(outputs, labels) with smppy.annotate("Backward"): loss.backward() with smppy.annotate("Optimizer"): optimizer.step() sm_prof.stop_profiling()

U kunt ook gebruik maken van smppy.annotation_begin() en smppy.annotation_end() om specifieke regels code in functies te annoteren. Voor meer informatie, zie documentatie.

Configureer de SageMaker-trainingstaakstarter

Nadat u klaar bent met het annoteren en instellen van de profiler-initiatiemodules, slaat u het trainingsscript op en bereidt u de SageMaker Framework Estimator voor op training met behulp van de SageMaker Python SDK.

Het opzetten van een profiler_config object met behulp van de ProfilerConfig en Profiler modules als volgt:

from sagemaker import ProfilerConfig, Profiler
profiler_config = ProfilerConfig( profiler_params = Profiler(cpu_profiling_duration=3600))

Maak een SageMaker-schatter met de profiler_config object dat in de vorige stap is gemaakt. De volgende code toont een voorbeeld van het maken van een PyTorch-schatter:

import sagemaker
from sagemaker.pytorch import PyTorch estimator = PyTorch( framework_version="2.0.0", image_uri="763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.0-gpu-py310-cu118-ubuntu20.04-sagemaker", role=sagemaker.get_execution_role(), entry_point="train_with_profiler_demo.py", # your training job entry point source_dir=source_dir, # source dir for your training script output_path=output_path, base_job_name="sagemaker-profiler-demo", hyperparameters=hyperparameters, # if any instance_count=1, instance_type=ml.p4d.24xlarge, profiler_config=profiler_config
)

Als u een TensorFlow-schatter wilt maken, importeert u deze sagemaker.tensorflow.TensorFlow in plaats daarvan en geef een van de TensorFlow-versies op die worden ondersteund door SageMaker Profiler. Zie voor meer informatie over ondersteunde frameworks en exemplaartypen Ondersteunde raamwerken.

Start de trainingstaak door de fit-methode uit te voeren:
```
estimator.fit(wait=False)
```

Start de gebruikersinterface van SageMaker Profiler

Wanneer de trainingstaak is voltooid, kunt u de gebruikersinterface van SageMaker Profiler starten om het profiel van de trainingstaak te visualiseren en te verkennen. U kunt toegang krijgen tot de SageMaker Profiler UI-toepassing via de SageMaker Profiler-startpagina op de SageMaker-console of via het SageMaker-domein.

Voer de volgende stappen uit om de SageMaker Profiler UI-toepassing op de SageMaker-console te starten:

Kies op de SageMaker-console Profiler in het navigatievenster.
Onder Start, selecteer het domein waarin u de SageMaker Profiler UI-toepassing wilt starten.

Als uw gebruikersprofiel slechts bij één domein hoort, ziet u de optie om een domein te selecteren niet.

Selecteer het gebruikersprofiel waarvoor u de SageMaker Profiler UI-toepassing wilt starten.

Als er geen gebruikersprofiel in het domein bestaat, kiest u Maak een gebruikersprofiel aan. Zie voor meer informatie over het maken van een nieuw gebruikersprofiel Gebruikersprofielen toevoegen en verwijderen.

Kies Profiel openen.

Ook start de gebruikersinterface van SageMaker Profiler vanaf de pagina met domeindetails.

Krijg inzichten uit de SageMaker Profiler

Wanneer u de gebruikersinterface van SageMaker Profiler opent, wordt het Selecteer en laad een profiel pagina wordt geopend, zoals weergegeven in de volgende schermafbeelding.

U kunt een lijst bekijken met alle trainingstaken die zijn ingediend bij SageMaker Profiler en zoeken naar een bepaalde trainingstaak op basis van de naam, de aanmaaktijd en de uitvoeringsstatus (In uitvoering, Voltooid, Mislukt, Gestopt of Gestopt). Om een profiel te laden, selecteert u de trainingsjob die u wilt bekijken en kiest u deze Laden. De taaknaam moet verschijnen in het Geladen profiel gedeelte bovenaan.

Kies de taaknaam om het dashboard en de tijdlijn te genereren. Houd er rekening mee dat wanneer u de taak kiest, de gebruikersinterface automatisch het dashboard opent. U kunt één profiel tegelijk laden en visualiseren. Om een ander profiel te laden, moet u eerst het eerder geladen profiel verwijderen. Om een profiel te verwijderen, kiest u het prullenbakpictogram in het Geladen profiel pagina.

Voor dit bericht bekijken we het profiel van een ALBEF trainingstaak op twee ml.p4d.24xlarge-instanties.

Nadat u klaar bent met het laden en selecteren van de trainingstaak, opent de gebruikersinterface het bestand Overzicht pagina, zoals weergegeven in de volgende schermafbeelding.

U kunt de grafieken voor belangrijke statistieken bekijken, namelijk de actieve tijd van de GPU, het GPU-gebruik in de loop van de tijd, de actieve tijd van de CPU en het CPU-gebruik in de loop van de tijd. Het cirkeldiagram voor de actieve tijd van de GPU toont het percentage actieve tijd van de GPU versus de inactieve tijd van de GPU, waardoor we kunnen controleren of de GPU's gedurende de gehele trainingstaak actiever dan inactief zijn. De tijdlijngrafiek GPU-gebruik in de loop van de tijd toont de gemiddelde GPU-gebruikssnelheid in de loop van de tijd per knooppunt, waarbij alle knooppunten in één diagram worden samengevoegd. U kunt controleren of de GPU's gedurende bepaalde tijdsintervallen een onevenwichtige werklast, onderbelastingsproblemen, knelpunten of inactieve problemen hebben. Voor meer informatie over het interpreteren van deze statistieken raadpleegt u documentatie.

Het dashboard biedt u aanvullende grafieken, waaronder de tijd die door alle GPU-kernels is besteed, de tijd die door de top 15 GPU-kernels is besteed, het aantal lanceringen van alle GPU-kernels en het aantal lanceringen van de 15 beste GPU-kernels, zoals weergegeven in de volgende schermafbeelding.

Ten slotte kunt u met het dashboard aanvullende statistieken visualiseren, zoals de staptijdverdeling, een histogram dat de verdeling van de stapduur op GPU's toont, en het cirkeldiagram voor de kernelprecisieverdeling, dat het percentage tijd weergeeft dat is besteed aan het uitvoeren van kernels. in verschillende gegevenstypen zoals FP32, FP16, INT32 en INT8.

U kunt ook een cirkeldiagram verkrijgen over de GPU-activiteitenverdeling, waarin het percentage tijd wordt weergegeven dat is besteed aan GPU-activiteiten, zoals het uitvoeren van kernels, geheugen (memcpy en memset) en synchronisatie (sync). U kunt het percentage tijd dat wordt besteed aan GPU-geheugenbewerkingen visualiseren in het cirkeldiagram voor de distributie van GPU-geheugenbewerkingen.

Je kunt ook je eigen histogrammen maken op basis van een aangepaste metriek die je handmatig hebt geannoteerd, zoals eerder in dit bericht beschreven. Wanneer u een aangepaste annotatie aan een nieuw histogram toevoegt, selecteert of voert u de naam in van de annotatie die u in het trainingsscript hebt toegevoegd.

Tijdlijninterface

De gebruikersinterface van SageMaker Profiler bevat ook een tijdlijninterface, die u een gedetailleerd overzicht geeft van de computerbronnen op het niveau van bewerkingen en kernels die op de CPU's zijn gepland en op de GPU's worden uitgevoerd. De tijdlijn is georganiseerd in een boomstructuur, waardoor u informatie krijgt van hostniveau tot apparaatniveau, zoals weergegeven in de volgende schermafbeelding.

Voor elke CPU kunt u de CPU-prestatietellers volgen, zoals clk_unhalted_ref.tsc en itlb_misses.miss_causes_a_walk. Voor elke GPU op de 2x p4d.24xlarge-instantie kunt u een hosttijdlijn en een apparaattijdlijn zien. Het starten van de kernel vindt plaats op de hosttijdlijn en het uitvoeren van de kernel vindt plaats op de tijdlijn van het apparaat.

Je kunt ook inzoomen op de afzonderlijke stappen. In de volgende schermafbeelding hebben we ingezoomd op stap_41. De tijdlijnstrip die in de volgende schermafbeelding is geselecteerd, is de AllReduce werking, een essentiële communicatie- en synchronisatiestap in gedistribueerde training, uitgevoerd op GPU-0. Merk in de schermafbeelding op dat de kernelstart in de GPU-0-host verbinding maakt met de kernel die wordt uitgevoerd in de GPU-0-apparaatstream 1, aangegeven met de pijl in cyaan.

Beschikbaarheid en overwegingen

SageMaker Profiler is beschikbaar in PyTorch (versie 2.0.0 en 1.13.1) en TensorFlow (versie 2.12.0 en 2.11.1). De volgende tabel bevat de koppelingen naar de ondersteunde AWS Deep Learning-containers voor SageMaker.

Achtergrond	Versie	AWS DLC-afbeeldings-URI
PyTorch	2.0.0	`763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.0-gpu-py310-cu118-ubuntu20.04-sagemaker`
PyTorch	1.13.1	`763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.13.1-gpu-py39-cu117-ubuntu20.04-sagemaker`
TensorFlow	2.12.0	`763104351884.dkr.ecr.<region>.amazonaws.com/tensorflow-training:2.12.0-gpu-py310-cu118-ubuntu20.04-sagemaker`
TensorFlow	2.11.1	`763104351884.dkr.ecr.<region>.amazonaws.com/tensorflow-training:2.11.1-gpu-py39-cu112-ubuntu20.04-sagemaker`

SageMaker Profiler is momenteel beschikbaar in de volgende regio's: US East (Ohio, N. Virginia), US West (Oregon) en Europa (Frankfurt, Ierland).

SageMaker Profiler is beschikbaar in de trainingsinstantietypen ml.p4d.24xlarge, ml.p3dn.24xlarge en ml.g4dn.12xlarge.

Voor de volledige lijst met ondersteunde frameworks en versies raadpleegt u documentatie.

Er worden kosten in rekening gebracht voor SageMaker Profiler nadat de SageMaker Free Tier of de gratis proefperiode van de functie is afgelopen. Voor meer informatie, zie Amazon SageMaker-prijzen.

Prestaties van SageMaker Profiler

We hebben de overhead van SageMaker Profiler vergeleken met verschillende open-source profilers. De basislijn die voor de vergelijking werd gebruikt, werd verkregen door de trainingstaak uit te voeren zonder een profiler.

Uit onze belangrijkste bevinding bleek dat SageMaker Profiler over het algemeen resulteerde in een kortere factureerbare trainingsduur omdat er minder overheadtijd was bij de end-to-end trainingsruns. Het genereerde ook minder profileringsgegevens (tot tien keer minder) in vergelijking met open-sourcealternatieven. De kleinere profileringsartefacten die door SageMaker Profiler worden gegenereerd, vereisen minder opslagruimte, waardoor ook kosten worden bespaard.

Conclusie

Met SageMaker Profiler krijgt u gedetailleerd inzicht in het gebruik van rekenbronnen bij het trainen van uw deep learning-modellen. Hierdoor kunt u prestatie-hotspots en knelpunten oplossen om een efficiënt gebruik van middelen te garanderen, wat uiteindelijk de trainingskosten zou verlagen en de totale trainingsduur zou verkorten.

Raadpleeg om aan de slag te gaan met SageMaker Profiler documentatie.

Over de auteurs

Roy Allela is een Senior AI/ML Specialist Solutions Architect bij AWS, gevestigd in München, Duitsland. Roy helpt AWS-klanten (van kleine startups tot grote ondernemingen) bij het efficiënt trainen en implementeren van grote taalmodellen op AWS. Roy heeft een passie voor computationele optimalisatieproblemen en het verbeteren van de prestaties van AI-workloads.

Aankondiging van de preview van Amazon SageMaker Profiler: volg en visualiseer gedetailleerde hardwareprestatiegegevens voor uw modeltrainingsworkloads | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai. Sushant Maan is een datawetenschapper bij AWS, India, gespecialiseerd in het begeleiden van klanten bij hun AI/ML-inspanningen. Met een diverse achtergrond in de retail-, financiële en verzekeringsdomeinen levert hij innovatieve en op maat gemaakte oplossingen. Naast zijn professionele leven vindt Sushant verjonging in het zwemmen en haalt hij inspiratie uit zijn reizen naar diverse locaties.

Aankondiging van de preview van Amazon SageMaker Profiler: volg en visualiseer gedetailleerde hardwareprestatiegegevens voor uw modeltrainingsworkloads | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai. Diksha Sharma is een AI/ML Specialist Solutions Architect in de Worldwide Specialist Organization. Ze werkt samen met klanten uit de publieke sector om hen te helpen bij het ontwerpen van efficiënte, veilige en schaalbare machine learning-applicaties, waaronder generatieve AI-oplossingen op AWS. In haar vrije tijd houdt Diksha van lezen, schilderen en tijd doorbrengen met haar gezin.