Implementeer een serverloos ML-inferentie-eindpunt van grote taalmodellen met behulp van FastAPI, AWS Lambda en AWS CDK

Heruitgegeven door Plato

volgers: 0

Voor datawetenschappers vormt het verplaatsen van machine learning (ML)-modellen van proof of concept naar productie vaak een grote uitdaging. Een van de grootste uitdagingen kan het implementeren van een goed presterend, lokaal getraind model in de cloud zijn voor inferentie en gebruik in andere applicaties. Het kan omslachtig zijn om het proces te beheren, maar met de juiste tool kunt u de vereiste inspanning aanzienlijk verminderen.

Amazon SageMaker-gevolgtrekking, dat in april 2022 algemeen beschikbaar werd gesteld, maakt het u gemakkelijk om ML-modellen in productie te nemen om voorspellingen op schaal te doen, en biedt een brede selectie van ML-infrastructuur en modelimplementatieopties om te helpen voldoen aan alle soorten ML-inferentiebehoeften. Je kunt gebruiken SageMaker serverloze inferentie-eindpunten voor werklasten die periodes van inactiviteit hebben tussen verkeersstromen en koude starts kunnen verdragen. De endpoints schalen automatisch uit op basis van verkeer en nemen het ongedifferentieerde zware werk van het selecteren en beheren van servers weg. Bovendien kunt u gebruiken AWS Lambda direct om uw modellen bloot te leggen en uw ML-applicaties te implementeren met behulp van uw favoriete open-source framework, dat flexibeler en kosteneffectiever kan blijken te zijn.

FastAPI is een modern, krachtig webframework voor het bouwen van API's met Python. Het onderscheidt zich als het gaat om het ontwikkelen van serverloze applicaties met RESTful microservices en use cases die ML-inferentie op schaal in meerdere industrieën vereisen. Het gemak en de ingebouwde functionaliteiten, zoals de automatische API-documentatie, maken het een populaire keuze onder ML-engineers om hoogwaardige inferentie-API's in te zetten. U kunt uw routes definiëren en organiseren met behulp van out-of-the-box functionaliteiten van FastAPI om naar behoefte uit te schalen en groeiende bedrijfslogica te verwerken, lokaal te testen en te hosten op Lambda, en vervolgens beschikbaar te stellen via een enkele API-gateway, waarmee u breng een open-source webframework naar Lambda zonder zwaar tillen of refactoring van uw codes.

Dit bericht laat zien hoe u eenvoudig serverloze ML-inferentie kunt implementeren en uitvoeren door uw ML-model als een eindpunt bloot te stellen met behulp van FastAPI, Docker, Lambda en Amazon API-gateway. We laten u ook zien hoe u de implementatie kunt automatiseren met behulp van de AWS Cloud-ontwikkelingskit (AWS-CDK).

Overzicht oplossingen

Het volgende diagram toont de architectuur van de oplossing die we in dit bericht implementeren.

Reikwijdte van de oplossing

Voorwaarden

Je moet de volgende voorwaarden hebben:

Python3 geïnstalleerd, samen met virtualenv voor het creëren en beheren van virtuele omgevingen in Python
aws-cdk v2 op uw systeem geïnstalleerd om de AWS CDK CLI te kunnen gebruiken
Docker geïnstalleerd en uitgevoerd op uw lokale computer

Test of alle benodigde software is geïnstalleerd:

De AWS-opdrachtregelinterface (AWS CLI) is vereist. Log in op uw account en kies de regio waar u de oplossing wilt implementeren.
Gebruik de volgende code om uw Python-versie te controleren:
```
python3 --version
```
Controleer of virtualenv is geïnstalleerd voor het maken en beheren van virtuele omgevingen in Python. Strikt genomen is dit geen harde vereiste, maar het zal je leven gemakkelijker maken en helpt om dit bericht gemakkelijker te volgen. Gebruik de volgende code:
```
python3 -m virtualenv --version
```
Controleer of cdk is geïnstalleerd. Dit wordt gebruikt om onze oplossing te implementeren.
```
cdk --version
```
Controleer of Docker is geïnstalleerd. Onze oplossing maakt uw model toegankelijk via een Docker-image voor Lambda. Om deze afbeelding lokaal te bouwen, hebben we Docker nodig.
```
docker --version
```
Zorg ervoor dat Docker actief is met de volgende code:

Hoe u uw FastAPI-project structureert met behulp van AWS CDK

We gebruiken de volgende directorystructuur voor ons project (waarbij sommige standaard AWS CDK-code wordt genegeerd die niet van belang is in de context van dit bericht):

``` fastapi_model_serving
│
└───.venv
│
└───fastapi_model_serving
│   │   __init__.py
│   │   fastapi_model_serving_stack.py
│   │
│   └───model_endpoint
│       └───docker
│       │      Dockerfile
│       │      serving_api.tar.gz
│
│
│       └───runtime
│            └───serving_api
│                    requirements.txt
│                    serving_api.py
│                └───custom_lambda_utils
│                     └───model_artifacts
│                            ...
│                     └───scripts
│                            inference.py
│
└───templates
│   └───api
│   │     api.py
│   └───dummy
│         dummy.py
│
│ app.py
│   cdk.json
│   README.md
│   requirements.txt
│   init-lambda-code.sh ```

De map volgt de aanbevolen structuur van AWS CDK-projecten voor Python.

Het belangrijkste onderdeel van deze repository is de fastapi_model_serving map. Het bevat de code die de AWS CDK-stack definieert en de bronnen die zullen worden gebruikt voor modelserving.

De fastapi_model_serving map bevat de model_endpoint subdirectory, die alle activa bevat die nodig zijn om ons serverloze eindpunt te vormen, namelijk de Dockerfile om de Docker-image te bouwen die Lambda zal gebruiken, de Lambda-functiecode die FastAPI gebruikt om inferentieverzoeken af te handelen en ze naar het juiste eindpunt te leiden, en het model artefacten van het model dat we willen inzetten. model_endpoint bevat ook het volgende:

Docker– Deze submap bevat het volgende:
Dockerfile - Dit wordt gebruikt om de afbeelding voor de Lambda-functie op te bouwen met alle artefacten (Lambda-functiecode, modelartefacten, enzovoort) op de juiste plaats, zodat ze zonder problemen kunnen worden gebruikt.
serving.api.tar.gz - Dit is een tarball die alle middelen uit de runtime-map bevat die nodig zijn voor het bouwen van de Docker-image. We bespreken hoe je de .tar.gz bestand verderop in dit bericht.
runtime– Deze submap bevat het volgende:
serving_api – De code voor de Lambda-functie en de bijbehorende afhankelijkheden gespecificeerd in het bestand requirements.txt.
custom_lambda_utils - Dit omvat een inferentiescript dat de benodigde modelartefacten laadt, zodat het model kan worden doorgegeven aan de serving_api dat zal het dan als een eindpunt blootleggen.

Daarnaast hebben we de sjabloondirectory, die een sjabloon biedt met mapstructuren en bestanden waarin u uw aangepaste codes en API's kunt definiëren volgens het voorbeeld dat we eerder hebben doorgenomen. De sjabloonmap bevat dummycode die u kunt gebruiken om nieuwe Lambda-functies te maken:

dummy - Bevat de code die de structuur van een gewone Lambda-functie implementeert met behulp van de Python-runtime
api – Bevat de code die een Lambda-functie implementeert die een FastAPI-eindpunt rond een bestaande API-gateway wikkelt

Implementeer de oplossing

Standaard wordt de code geïmplementeerd binnen de regio eu-west-1. Als u de regio wilt wijzigen, kunt u de contextvariabele DEPLOYMENT_REGION wijzigen in de cdk.json bestand.

Houd er echter rekening mee dat de oplossing probeert een Lambda-functie in te zetten bovenop de arm64-architectuur en dat deze functie mogelijk niet in alle regio's beschikbaar is. In dit geval moet u de architectuurparameter in het fastapi_model_serving_stack.py -bestand, evenals de eerste regel van de Dockerfile in de Docker-directory, om deze oplossing op de x86-architectuur te hosten.

Voer de volgende stappen uit om de oplossing te implementeren:

Voer de volgende opdracht uit om de GitHub-repository te klonen: git clone https://github.com/aws-samples/lambda-serverless-inference-fastapiOmdat we willen laten zien dat de oplossing kan werken met modelartefacten die u lokaal traint, bevatten we een voorbeeldmodelartefact van een vooraf getraind DestillerenBERT model op de Hugging Face-modelhub voor een vraagantwoordtaak in de serving_api.tar.gz bestand. De downloadtijd kan ongeveer 3-5 minuten duren. Laten we nu de omgeving instellen.
Download het vooraf getrainde model dat wordt geïmplementeerd vanuit de Hugging Face-modelhub naar de ./model_endpoint/runtime/serving_api/custom_lambda_utils/model_artifacts map. Het creëert ook een virtuele omgeving en installeert alle afhankelijkheden die nodig zijn. U hoeft deze opdracht maar één keer uit te voeren: make prep. Deze opdracht kan ongeveer 5 minuten duren (afhankelijk van uw internetbandbreedte) omdat de modelartefacten moeten worden gedownload.
Verpak de modelartefacten in een .tar.gz archief dat zal worden gebruikt in de Docker-image die is ingebouwd in de AWS CDK-stack. U moet deze code uitvoeren wanneer u wijzigingen aanbrengt in de modelartefacten of de API zelf om altijd de meest up-to-date versie van uw serverendpoint te hebben: make package_model. De artefacten zijn allemaal op hun plaats. Nu kunnen we de AWS CDK-stack implementeren op uw AWS-account.
Voer cdk-bootstrap uit als het de eerste keer is dat u een AWS CDK-app implementeert in een omgeving (combinatie account + regio):
```
make cdk_bootstrap
```
Deze stapel bevat bronnen die nodig zijn voor de werking van de toolkit. De stack bevat bijvoorbeeld een Amazon Simple Storage Service (Amazon S3)-bucket die wordt gebruikt om sjablonen en activa op te slaan tijdens het implementatieproces.

Omdat we Docker-images lokaal bouwen in deze AWS CDK-implementatie, moeten we ervoor zorgen dat de Docker-daemon actief is voordat we deze stack kunnen implementeren via de AWS CDK CLI.
Gebruik de volgende opdracht om te controleren of de Docker-daemon op uw systeem draait:
Als u geen foutbericht krijgt, moet u klaar zijn om de oplossing te implementeren.
Implementeer de oplossing met de volgende opdracht:
```
make deploy
```
Deze stap kan ongeveer 5-10 minuten duren vanwege het bouwen en pushen van de Docker-image.

Probleem oplossen

Als u een Mac-gebruiker bent, kunt u een fout tegenkomen bij het inloggen Amazon Elastic Container-register (Amazon ECR) met de Docker-login, zoals Error saving credentials ... not implemented. Bijvoorbeeld:

exited with error code 1: Error saving credentials: error storing credentials - err: exit status 1,...dial unix backend.sock: connect: connection refused

Voordat u Lambda bovenop Docker-containers in de AWS CDK kunt gebruiken, moet u mogelijk het ~/docker/config.json bestand. Meer specifiek moet u mogelijk de credsStore-parameter wijzigen in ~/.docker/config.json naar osxkeychain. Dat lost Amazon ECR-inlogproblemen op een Mac op.

Voer real-time inferentie uit

Na jouw AWS CloudFormatie stack met succes is geïmplementeerd, gaat u naar de Uitgangen tabblad voor uw stapel op de AWS CloudFormation-console en open de eindpunt-URL. Ons model is nu toegankelijk via de eindpunt-URL en we zijn klaar om real-time gevolgtrekkingen uit te voeren.

Navigeer naar de URL om te zien of u het bericht "hallo wereld" kunt zien en voeg toe /docs naar het adres om te zien of u de interactieve swagger UI-pagina met succes kunt zien. Er kan een koude starttijd zijn, dus het kan zijn dat u een paar keer moet wachten of vernieuwen.

FastAPI Docs-webpagina

Nadat u bent ingelogd op de bestemmingspagina van de FastAPI swagger UI-pagina, kunt u via de root uitvoeren / of via /question.

Van /, kunt u de API uitvoeren en het bericht "Hallo wereld" ontvangen.

Van /question, kunt u de API uitvoeren en ML-inferentie uitvoeren op het model dat we hebben geïmplementeerd voor een casus voor het beantwoorden van vragen. We gebruiken bijvoorbeeld de vraag Wat is nu de kleur van mijn auto? en de context is Mijn auto was vroeger blauw, maar ik heb rood geverfd.

FastAPI webpagina vraag

Wanneer je kiest Uitvoeren, op basis van de gegeven context, zal het model de vraag beantwoorden met een antwoord, zoals te zien is in de volgende schermafbeelding.

Resultaat uitvoeren

In de antwoordtekst ziet u het antwoord met de betrouwbaarheidsscore van het model. U kunt ook experimenteren met andere voorbeelden of de API integreren in uw bestaande applicatie.

U kunt de gevolgtrekking ook via code uitvoeren. Hier is een voorbeeld geschreven in Python, met behulp van de requests bibliotheek:

import requests url = "https://<YOUR_API_GATEWAY_ENDPOINT_ID>.execute-api.<YOUR_ENDPOINT_REGION>.amazonaws.com/prod/question?question="What is the color of my car now?"&context="My car used to be blue but I painted red"" response = requests.request("GET", url, headers=headers, data=payload) print(response.text)

De code voert een tekenreeks uit die lijkt op het volgende:

'{"score":0.6947233080863953,"start":38,"end":41,"answer":"red"}'

Als u meer wilt weten over het inzetten van generatieve AI en grote taalmodellen op AWS, kijk dan hier:

Opruimen

Voer in de hoofdmap van uw repository de volgende code uit om uw bronnen op te schonen:

make destroy

Conclusie

In dit bericht hebben we geïntroduceerd hoe u Lambda kunt gebruiken om uw getrainde ML-model te implementeren met behulp van uw favoriete webapplicatieframework, zoals FastAPI. We hebben een gedetailleerde coderepository geleverd die u kunt implementeren, en u behoudt de flexibiliteit om over te schakelen naar de getrainde modelartefacten die u verwerkt. De prestaties kunnen afhangen van hoe u het model implementeert en implementeert.

U bent van harte welkom om het zelf uit te proberen, en we zijn benieuwd naar uw feedback!

Over de auteurs

Implementeer een serverloos ML-inferentie-eindpunt van grote taalmodellen met behulp van FastAPI, AWS Lambda en AWS CDK | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai. Tingyi Li is een Enterprise Solutions Architect van AWS gevestigd in Stockholm, Zweden, die de Scandinavische klanten ondersteunt. Ze helpt klanten graag met de architectuur, het ontwerp en de ontwikkeling van voor de cloud geoptimaliseerde infrastructuuroplossingen. Ze is gespecialiseerd in AI en Machine Learning en is geïnteresseerd in het versterken van klanten met intelligentie in hun AI/ML-toepassingen. In haar vrije tijd is ze ook een parttime illustrator die romans schrijft en piano speelt.

demir_hoofdschot Demir Catovic is een Machine Learning Engineer van AWS gevestigd in Zürich, Zwitserland. Hij gaat in gesprek met klanten en helpt hen schaalbare en volledig functionele ML-applicaties te implementeren. Hij is gepassioneerd door het bouwen en produceren van machine learning-applicaties voor klanten en is altijd bereid nieuwe trends en geavanceerde technologieën in de AI/ML-wereld te verkennen.

Door SEO aangedreven content en PR-distributie. Word vandaag nog versterkt.
PlatoData.Network Verticale generatieve AI. Versterk jezelf. Toegang hier.
PlatoAiStream. Web3-intelligentie. Kennis versterkt. Toegang hier.
PlatoESG. Automotive / EV's, carbon, CleanTech, Energie, Milieu, Zonne, Afvalbeheer. Toegang hier.
BlockOffsets. Eigendom voor milieucompensatie moderniseren. Toegang hier.
Bron: https://aws.amazon.com/blogs/machine-learning/deploy-a-serverless-ml-inference-endpoint-of-large-language-models-using-fastapi-aws-lambda-and-aws-cdk/

Tijdstempel: 23 June 2023

Tijdstempel: September 19, 2023

Heruitgegeven door Plato

AI21 Jurassic-1 foundation-model is nu beschikbaar op Amazon SageMaker

Voer gevolgtrekkingen uit op schaal voor OpenFold, een op PyTorch gebaseerd ML-model voor het vouwen van eiwitten, met behulp van Amazon EKS

Over Ons

Verticaal zoeken & Ai

Platform

Blijf verbonden

Account