Οικονομικά αποδοτικό συμπέρασμα ML με μοντέλα πολλαπλών πλαισίων στο Amazon SageMaker

Αναδημοσίευση από τον Πλάτωνα

Ακολουθούν: 0

Η μηχανική μάθηση (ML) έχει αποδειχθεί ότι είναι μια από τις πιο επιτυχημένες και διαδεδομένες εφαρμογές της τεχνολογίας, επηρεάζοντας ένα ευρύ φάσμα βιομηχανιών και επηρεάζοντας δισεκατομμύρια χρήστες καθημερινά. Με αυτήν την ταχεία υιοθέτηση της ML σε κάθε κλάδο, οι εταιρείες αντιμετωπίζουν προκλήσεις όσον αφορά την υποστήριξη προβλέψεων χαμηλής καθυστέρησης και με υψηλή διαθεσιμότητα, ενώ παράλληλα μεγιστοποιούν τη χρήση των πόρων και μειώνουν το σχετικό κόστος. Επειδή κάθε πλαίσιο ML έχει τις δικές του εξαρτήσεις και τα βήματα ανάπτυξης για κάθε πλαίσιο είναι διαφορετικά, η ανάπτυξη μοντέλων που είναι κατασκευασμένα σε διαφορετικά πλαίσια στην παραγωγή και η διαχείριση καθενός από τα τελικά σημεία γίνεται όλο και πιο περίπλοκη.

Amazon Sage Maker Τα τελικά σημεία πολλαπλών κοντέινερ (MCEs) μας δίνουν τη δυνατότητα να ομαδοποιήσουμε μοντέλα σε διαφορετικά πλαίσια και να τα αναπτύξουμε στον ίδιο κεντρικό υπολογιστή, δημιουργώντας ένα ενιαίο τελικό σημείο. Μπορείτε να παρέχετε κοντέινερ για τα διαφορετικά πλαίσια που χρησιμοποιείτε για τη δημιουργία των μοντέλων και το SageMaker παίρνει όλα αυτά τα κοντέινερ και τα τοποθετεί πίσω από ένα τελικό σημείο. Για παράδειγμα, θα μπορούσατε να έχετε ένα μοντέλο PyTorch και ένα μοντέλο TensorFlow φορτωμένο σε δύο αποκλειστικά τελικά σημεία που εξυπηρετούν τις ίδιες ή εντελώς διαφορετικές περιπτώσεις χρήσης και και τα δύο αυτά μοντέλα έχουν διακεκομμένη εισερχόμενη κίνηση που δεν χρησιμοποιεί πόρους στο όριο της. Σε ένα τέτοιο σενάριο, θα μπορούσατε να τα ομαδοποιήσετε χρησιμοποιώντας κοντέινερ σε ένα τελικό σημείο χρησιμοποιώντας ένα MCE, βελτιώνοντας τη χρήση των πόρων μειώνοντας παράλληλα το κόστος που προκύπτει από την εξυπηρέτηση και των δύο μοντέλων από διαφορετικά τελικά σημεία.

Τα τελικά σημεία πολλαπλών κοντέινερ παρέχουν μια επεκτάσιμη και οικονομικά αποδοτική λύση για την ανάπτυξη έως και 15 μοντέλων που έχουν δημιουργηθεί σε διαφορετικά πλαίσια ML, διακομιστές μοντέλων και αλγόριθμους που εξυπηρετούν την ίδια ή διαφορετική περίπτωση χρήσης, πράγμα που σημαίνει ότι μπορείτε να έχετε μοντέλα κατασκευασμένα σε διαφορετικά πλαίσια ML ή ενδιάμεσους βήματα σε όλα αυτά τα δοχεία και μοντέλα. Όλα αυτά τα μοντέλα μπορούν να προσπελαστούν μεμονωμένα μέσω άμεσης επίκλησης ή να συρραφτούν σε μια διοχέτευση χρησιμοποιώντας σειριακή επίκληση, όπου η έξοδος ενός μοντέλου είναι η είσοδος για το επόμενο.

Σε αυτήν την ανάρτηση, συζητάμε πώς να εκτελούμε οικονομικά αποδοτικά συμπεράσματα ML με μοντέλα πολλαπλών πλαισίων στο SageMaker.

Μοτίβα επίκλησης MCE

Η άμεση επίκληση του SageMaker MCE είναι χρήσιμη σε περιπτώσεις όπου έχετε συνδέσει άσχετα μοντέλα σε ένα τελικό σημείο MCE ή εκτελείτε μια δοκιμή A/B μεταξύ των μοντέλων πίσω από ένα τελικό σημείο MCE για να μετρήσετε την απόδοσή τους. Μπορείτε να καλέσετε το συγκεκριμένο κοντέινερ απευθείας στην κλήση API και να λάβετε την πρόβλεψη από αυτό το μοντέλο.

Με τη σειριακή επίκληση, μπορείτε να συρράψετε 2–15 δοχεία και η έξοδος του ενός γίνεται η είσοδος του επόμενου κοντέινερ με τη σειρά. Αυτή είναι μια ιδανική περίπτωση χρήσης εάν, για παράδειγμα, έχετε μια διοχέτευση πρόβλεψης πολλαπλών βημάτων όπου ένα μοντέλο Scikit-learn χρησιμοποιείται για μια ενδιάμεση πρόβλεψη και το αποτέλεσμα τροφοδοτείται σε ένα μοντέλο TensorFlow για τελική εξαγωγή συμπερασμάτων. Αντί να τα αναπτύσσετε ως διαφορετικά τελικά σημεία και μια άλλη εφαρμογή ή εργασία να τα ενορχηστρώνει και να πραγματοποιείτε πολλαπλές κλήσεις API, μπορείτε να τα αναπτύξετε ως SageMaker MCE, αφαιρώντας τη λογική και ρυθμίζοντας τα για σειριακή επίκληση, όπου το SageMaker διαχειρίζεται τη μεταφορά δεδομένων μεταξύ ενός κοντέινερ σε άλλο αυτόματα και εκπέμπει την έξοδο του τελικού κοντέινερ στον πελάτη που κάνει το αίτημα API.

Η σειριακή επίκληση του SageMaker MCE είναι θεμελιωδώς διαφορετική από μια διοχέτευση σειριακών συμπερασμάτων SageMaker (περισσότερες λεπτομέρειες στις παρακάτω ενότητες). Ένας σειριακός αγωγός συμπερασμάτων στοχεύει περισσότερο στην ενορχήστρωση σύνθετων ροών εργασιών ML, όπως η προεπεξεργασία δεδομένων, η κατασκευή ενός συνόλου μοντέλων, η εφαρμογή ελέγχων υπό όρους για τον προσδιορισμό του μοντέλου που θα επικαλεστεί ή η μεταεπεξεργασία της πρόβλεψης, που περιλαμβάνει επιχειρηματική λογική πριν η πρόβλεψη σταλεί στις κατάντη εφαρμογές . Αντίθετα, η σειριακή επίκληση MCE έχει σχεδιαστεί για να συρράψει 2-14 μοντέλα σε μια διοχέτευση για συμπέρασμα, με κάθε μοντέλο να παίρνει την πρόβλεψη του προηγούμενου μοντέλου ως είσοδο.

Όλα τα δοχεία σε ένα MCE είναι πάντα σε υπηρεσία και στη μνήμη, επομένως δεν υπάρχει ψυχρή εκκίνηση κατά την κλήση του τελικού σημείου. Τα MCE βελτιώνουν επίσης τη χρήση τελικού σημείου και βελτιώνουν το κόστος, επειδή τα μοντέλα αναπτύσσονται πίσω από ένα τελικό σημείο και μοιράζονται το υποκείμενο παράδειγμα υπολογισμού, αντί κάθε μοντέλο να καταλαμβάνει μεμονωμένους υπολογιστικούς πόρους.

Ας δούμε μερικές περιπτώσεις χρήσης και ας δούμε πώς μπορείτε να χρησιμοποιήσετε τα SageMaker MCE για να βελτιστοποιήσετε την εξαγωγή συμπερασμάτων ML.

Χρησιμοποιήστε θήκες για SageMaker MCE

Ας υποθέσουμε ότι έχετε δύο μοντέλα για την ταξινόμηση συναισθημάτων, ένα για την αγγλική γλώσσα και ένα άλλο για τη γερμανική γλώσσα, και αυτά τα μοντέλα εξυπηρετούν διαφορετικές γεωγραφίες με κίνηση που έρχεται σε διαφορετικές ώρες της ημέρας. Αντί να έχετε δύο τελικά σημεία 24/7, μπορείτε να τα αναπτύξετε και τα δύο σε ένα τελικό σημείο χρησιμοποιώντας ένα MCE και να αποκτήσετε πρόσβαση σε αυτά χρησιμοποιώντας άμεση επίκληση, βελτιστοποιώντας έτσι τη χρήση των πόρων και το κόστος σας. Δείτε τον παρακάτω κώδικα:

englishModel = {
   'Image': container1,
   'ContainerHostname': englishModel }; ...
 
germanModel = {
   'Image': container2,
   'ContainerHostname': germanModel }; ...
 
sm.create_model(
   InferenceExecutionConfig = {'Mode': 'Direct'},
   Containers = [englishModel, germanModel], ...)
sm.create_endpoint_config(EndpointConfigName = ‘my-mce-epc’,
    ProductionVariants=[{
        'InstanceType':        ‘ml.m4.xlarge’,
        'InitialInstanceCount': 2,
        'InitialVariantWeight': 1,
        'ModelName':            ‘my-multi-model-name’,
        'VariantName':          'AllTraffic'}])
sm.create_endpoint(EndpointName = ‘my-mce-endpoint’, 
                  EndpointConfigName = ‘my-mce-epc’)

Σε αυτό το παράδειγμα, έχουμε δύο μοντέλα (englishModel και germanModel), και ορίζουμε τα κοντέινερ στο SageMaker create_model κατασκευάστε και ορίστε το InferenceExecutionConfig ως «Άμεση». Τώρα μπορούμε να καλέσουμε το τελικό σημείο για συμπέρασμα και να ορίσουμε το TargetContainerHostname είτε ως englishModel or germanModel ανάλογα με τον πελάτη που πραγματοποιεί την κλήση API:

sm.invoke_endpoint(        
   EndpointName = endpoint_name,
   TargetContainerHostname = englishModel,
   Body = body, ...)

Μπορείτε επίσης να χρησιμοποιήσετε την άμεση επίκληση εντός του MCE για να εκτελέσετε δοκιμές A/B για να συγκρίνετε την απόδοση μεταξύ των μοντέλων.

Το παρακάτω διάγραμμα απεικονίζει την αρχιτεκτονική μας.

Ομοίως, σε άλλες περιπτώσεις χρήσης ML, όταν το εκπαιδευμένο μοντέλο χρησιμοποιείται για την επεξεργασία ενός αιτήματος, το μοντέλο λαμβάνει δεδομένα σε μια μορφή που πρέπει να προεπεξεργαστεί (για παράδειγμα, να χαρακτηριστεί) προτού περάσουν στον αλγόριθμο για συμπέρασμα. Όταν οι αλγόριθμοι ML συνδέονται μεταξύ τους, η έξοδος ενός μοντέλου χρησιμεύει ως είσοδος για το επόμενο πριν φτάσει στο τελικό αποτέλεσμα. Σε αυτήν την περίπτωση, μπορείτε να δημιουργήσετε έναν σειριακό αγωγό SageMaker MCE, όπου τα δοχεία συνομιλούν μεταξύ τους με τη σειρά που ορίζεται στο create_model κατασκευάστε αντί να αναπτύξετε καθένα από τα μοντέλα σε διαφορετικά τελικά σημεία και να γράψετε μια ανεξάρτητη λογική για να διευκολύνετε τη ροή δεδομένων μεταξύ όλων αυτών των μοντέλων και των κλήσεων API. Το παρακάτω διάγραμμα απεικονίζει αυτήν την αρχιτεκτονική.

Για αυτήν την περίπτωση χρήσης, χρησιμοποιούμε τον ακόλουθο κώδικα:

sm_model = PipelineModel(name=model_name, role=aws_role, models=[Processing-1, Processing-2, Inference-1, Inference-2]) 

predictor = sm_model.deploy(initial_instance_count=1, instance_type="ml.c4.xlarge")                  
response = runtime.invoke_endpoint( 
EndpointName=predictor.endpoint,                                
    Body=body,...)

Σε αυτό το παράδειγμα, έχουμε δύο δοχεία επεξεργασίας (Processing-1 και Processing-2) για επεξεργασία χαρακτηριστικών και μετασχηματισμούς δεδομένων και δύο δοχεία συμπερασμάτων (Inference-1 και Inference-2) για να εκτελέσετε προβλέψεις μοντέλων ML στα προεπεξεργασμένα δεδομένα. ο PipelineModel Το παράδειγμα σάς επιτρέπει να ορίσετε τη διοχέτευση συμπερασμάτων που αποτελείται από μια γραμμική ακολουθία τεσσάρων δοχείων που επεξεργάζονται αιτήματα για εξαγωγή συμπερασμάτων σε δεδομένα. Τα κοντέινερ τοποθετούνται μαζί στην ίδια περίπτωση, επιτρέποντάς σας να εκτελέσετε συμπέρασμα με χαμηλή καθυστέρηση.

Κλιμακώστε τα τελικά σημεία πολλαπλών μοντέλων για μεγάλο αριθμό μοντέλων

Τα οφέλη των τελικών σημείων πολλαπλών μοντέλων SageMaker αυξάνονται με βάση την κλίμακα ενοποίησης μοντέλων. Μπορείτε να δείτε εξοικονόμηση κόστους όταν φιλοξενείτε δύο μοντέλα με ένα τελικό σημείο και για περιπτώσεις χρήσης με εκατοντάδες ή χιλιάδες μοντέλα, η εξοικονόμηση είναι πολύ μεγαλύτερη.

Η κλιμάκωση των τελικών σημείων MCE είναι επίσης απλή χρησιμοποιώντας το SageMakerVariantInvocationsPerInstance προκαθορισμένη μέτρηση, η οποία δίνει τον μέσο αριθμό φορών ανά λεπτό που κάθε στιγμιότυπο για ένα τελικό σημείο μοντέλου καλείται για να ορίσει ένα TargetScaling πολιτική. Το SageMaker προσαρμόζει δυναμικά τον αριθμό των παρουσιών που παρέχονται για ένα μοντέλο ως απόκριση στις αλλαγές στο φόρτο εργασίας σας. Όταν ο φόρτος εργασίας αυξάνεται, η αυτόματη κλιμάκωση φέρνει περισσότερα στιγμιότυπα στο διαδίκτυο και φορτώνει με τα στοχευόμενα μοντέλα και κοντέινερ για να συνεχίσει να εξυπηρετεί τα αιτήματα. Όταν ο φόρτος εργασίας μειώνεται, η αυτόματη κλιμάκωση αφαιρεί περιττές παρουσίες και εκφορτώνει τα κοντέινερ του μοντέλου, έτσι ώστε τα κοντέινερ να μην καταναλώνουν τους πόρους και να μην πληρώνετε για περιπτώσεις που δεν χρησιμοποιείτε. Ο χρόνος για την ολοκλήρωση του πρώτου αιτήματος σε ένα δεδομένο μοντέλο αντιμετωπίζει πρόσθετο λανθάνον χρόνο (που ονομάζεται ψυχρή εκκίνηση) για τη λήψη του μοντέλου από Απλή υπηρεσία αποθήκευσης Amazon (Amazon S3) και φορτώστε το στη μνήμη. Οι επόμενες κλήσεις ολοκληρώνονται χωρίς επιπλέον επιβάρυνση επειδή το μοντέλο έχει ήδη φορτωθεί. Δείτε τον παρακάτω κώδικα:

# AutoScaling client
asg = boto3.client('application-autoscaling')

# Resource type is variant and the unique identifier is the resource ID.
resource_id=f"endpoint/{endpoint_name}/variant/AllTraffic"

# scaling configuration
response = asg.register_scalable_target(
    ServiceNamespace='sagemaker', #
    ResourceId=resource_id,
    ScalableDimension='sagemaker:variant:DesiredInstanceCount', 
    MinCapacity=1,
    MaxCapacity=4
)
#Target Scaling
response = asg.put_scaling_policy(
    PolicyName=f'Request-ScalingPolicy-{endpoint_name}',
    ServiceNamespace='sagemaker',
    ResourceId=resource_id,
    ScalableDimension='sagemaker:variant:DesiredInstanceCount',
    PolicyType='TargetTrackingScaling',
    TargetTrackingScalingPolicyConfiguration={
        'TargetValue': 70.0, # Threshold
        'PredefinedMetricSpecification': {
            'PredefinedMetricType': 'SageMakerVariantInvocationsPerInstance',
        },
        'ScaleInCooldown': 300, # duration until scale in
        'ScaleOutCooldown': 60 # duration between scale out
    }
)

Ακολουθώντας το προηγούμενο παράδειγμα διαμόρφωσης πολιτικής, χρησιμοποιούμε το SageMakerVariantInvocationsPerInstance προκαθορισμένη μέτρηση για να προσαρμόσετε τον αριθμό των παρουσιών παραλλαγής έτσι ώστε κάθε παρουσία να έχει ένα InvocationsPerInstance μέτρηση 70.

Μπορούμε επίσης να κλιμακώσουμε τα MCE του SageMaker με βάση τη δική μας προσαρμοσμένη μέτρηση, όπως π.χ CPUUtilization, MemoryUtilization, GPUUtilization, GPUMemoryUtilization, ή DiskUtilization, για να αυξήσετε ή να μειώσετε τον αριθμό των περιπτώσεων με βάση τη χρήση ενός συγκεκριμένου πόρου. Για περισσότερες πληροφορίες, ανατρέξτε στο Αυτόματη κλίμακα μοντέλων Amazon SageMaker.

Συνιστάται το μοντέλο σε κάθε κοντέινερ να εμφανίζει παρόμοιες απαιτήσεις υπολογισμού και καθυστέρησης σε κάθε αίτημα συμπερασμάτων, επειδή εάν η κίνηση στο MCE μετατοπιστεί από ένα μοντέλο υψηλής χρήσης CPU σε ένα μοντέλο χαμηλής χρήσης CPU, αλλά ο συνολικός όγκος κλήσεων παραμένει ίδιος, το τελικό σημείο δεν κλιμακώνεται και ενδέχεται να μην υπάρχουν αρκετές περιπτώσεις για να χειριστούν όλα τα αιτήματα στο μοντέλο υψηλής χρήσης CPU.

Ασφαλείς MCE

Για MCE με άμεση επίκληση, πολλά κοντέινερ φιλοξενούνται σε μία μόνο παρουσία με κοινή χρήση μνήμης και όγκο αποθήκευσης. Είναι σημαντικό να ασφαλίσετε τα κοντέινερ, να διατηρήσετε τη σωστή αντιστοίχιση των αιτημάτων για στόχευση κοντέινερ και να παρέχετε στους χρήστες τη σωστή πρόσβαση στα κοντέινερ-στόχους. Μπορείτε να περιορίσετε invoke_endpoint πρόσβαση σε ένα περιορισμένο σύνολο δοχείων μέσα σε ένα MCE χρησιμοποιώντας το sagemaker:TargetContainerHostname Διαχείριση ταυτότητας και πρόσβασης AWS κλειδί κατάστασης (IAM). χρησιμοποιεί το SageMaker Ρόλοι IAM για να παρέχετε πολιτικές βάσει ταυτότητας του IAM που χρησιμοποιείτε για να προσδιορίσετε επιτρεπόμενες ή απορριφθείσες ενέργειες και πόρους και τις συνθήκες υπό τις οποίες επιτρέπονται ή απορρίπτονται οι ενέργειες. Οι ακόλουθες πολιτικές δείχνουν πώς να περιορίσετε τις κλήσεις σε συγκεκριμένα κοντέινερ σε ένα τελικό σημείο:

{
    "Version": "2012-10-17",
    "Statement": [
        {
            "Action": [
                "sagemaker:InvokeEndpoint"
            ],
            "Effect": "Allow",
            "Resource": "arn:aws:sagemaker:region:account-id:endpoint/endpoint_name",
            "Condition": {
                "StringLike": {
                    "sagemaker:TargetContainerHostname": ["customIps*", "common*"]
                }
            }
        }
    ]
}

Παρακολουθήστε τα τελικά σημεία πολλών μοντέλων χρησιμοποιώντας μετρήσεις Amazon CloudWatch

Για να κάνετε αντιστάθμιση τιμής και απόδοσης, θα θέλετε να δοκιμάσετε τελικά σημεία πολλαπλών μοντέλων με μοντέλα και αντιπροσωπευτική επισκεψιμότητα από τη δική σας εφαρμογή. Το SageMaker παρέχει πρόσθετες μετρήσεις amazoncloudwatch για τα τελικά σημεία πολλών μοντέλων, ώστε να μπορείτε να προσδιορίσετε τη χρήση του τελικού σημείου και το ποσοστό επιτυχίας της προσωρινής μνήμης και να βελτιστοποιήσετε το τελικό σημείο σας. Οι μετρήσεις είναι οι εξής:

ModelLoadingWaitTime – Το χρονικό διάστημα κατά το οποίο ένα αίτημα επίκλησης περιμένει τη λήψη ή τη φόρτωση του μοντέλου προορισμού για να πραγματοποιηθεί το συμπέρασμα.
ModelUnloadingTime – Το χρονικό διάστημα που χρειάζεται για να ξεφορτωθεί το μοντέλο μέσα από το δοχείο UnloadModel Κλήση API.
ModelDownloadingTime – Το χρονικό διάστημα που χρειάζεται για τη λήψη του μοντέλου από το Amazon S3.
ModelLoadingTime – Το χρονικό διάστημα που χρειάζεται για να φορτώσει το μοντέλο μέσα από το δοχείο LoadModel Κλήση API.
ModelCacheHit - Ο αριθμός των InvokeEndpoint Τα αιτήματα αποστέλλονται στο τελικό σημείο όπου είχε ήδη φορτωθεί το μοντέλο. Λαμβάνοντας το Average Το στατιστικό δείχνει την αναλογία των αιτημάτων στα οποία είχε ήδη φορτωθεί το μοντέλο.
LoadedModelCount – Ο αριθμός των μοντέλων που έχουν φορτωθεί στα δοχεία στο τελικό σημείο. Αυτή η μέτρηση εκπέμπεται ανά περίπτωση. ο Average η στατιστική με περίοδο 1 λεπτού σας λέει τον μέσο αριθμό μοντέλων που φορτώθηκαν ανά περίπτωση και Sum Το στατιστικό σάς λέει τον συνολικό αριθμό μοντέλων που έχουν φορτωθεί σε όλες τις παρουσίες στο τελικό σημείο. Τα μοντέλα που παρακολουθεί αυτή η μέτρηση δεν είναι απαραίτητα μοναδικά, επειδή μπορείτε να φορτώσετε ένα μοντέλο σε πολλά κοντέινερ στο τελικό σημείο.

Υπάρχουν επίσης πολλές άλλες μετρήσεις που χρησιμοποιούνται από κάθε κοντέινερ που εκτελείται σε μια παρουσία, όπως π.χ Invocations αναφέροντας τον αριθμό των InvokeEndpoint αιτήματα που αποστέλλονται σε ένα κοντέινερ μέσα σε ένα τελικό σημείο, ContainerLatency δίνοντας τον χρόνο που χρειάστηκε ένα τελικό σημείο για να ανταποκριθεί το κοντέινερ προορισμού ή όλα τα κοντέινερ σε μια σειριακή κλήση, όπως προβλήθηκε από το SageMaker, και CPUUtilization και MemoryUtilizaton υποδεικνύοντας τις μονάδες CPU και το ποσοστό της μνήμης.

Συμπέρασμα

Στην ανάρτηση, συζητήσαμε πώς τα τελικά σημεία πολλαπλών κοντέινερ του SageMaker μπορούν να είναι χρήσιμα για τη βελτιστοποίηση του κόστους και τη χρήση των πόρων. Παραδείγματα για το πότε πρέπει να χρησιμοποιηθούν τα MCE περιλαμβάνουν, αλλά δεν περιορίζονται σε αυτά, τα ακόλουθα:

Φιλοξενία μοντέλων σε διαφορετικά πλαίσια (όπως το TensorFlow, το PyTorch και το Scikit-learn) που δεν έχουν επαρκή επισκεψιμότητα για να κορεστεί η πλήρης χωρητικότητα μιας παρουσίας
Φιλοξενία μοντέλων από το ίδιο πλαίσιο με διαφορετικούς αλγόριθμους ML (όπως συστάσεις, πρόβλεψη ή ταξινόμηση) και λειτουργίες χειριστή
Σύγκριση παρόμοιων αρχιτεκτονικών που εκτελούνται σε διαφορετικές εκδόσεις πλαισίου (όπως το TensorFlow 1.x έναντι του TensorFlow 2.x) για σενάρια όπως η δοκιμή A/B

Τα SageMaker MCE υποστηρίζουν την ανάπτυξη έως και 15 κοντέινερ σε τελικά σημεία σε πραγματικό χρόνο και την ανεξάρτητη επίκλησή τους για συμπέρασμα χαμηλής καθυστέρησης και εξοικονόμηση κόστους. Τα μοντέλα μπορεί να είναι εντελώς ετερογενή, με τη δική τους ανεξάρτητη στοίβα σερβιρίσματος. Μπορείτε είτε να καλέσετε αυτά τα κοντέινερ διαδοχικά ή ανεξάρτητα για κάθε αίτημα. Η ασφαλής φιλοξενία πολλαπλών μοντέλων, από διαφορετικά πλαίσια, σε μία μόνο παρουσία θα μπορούσε να σας εξοικονομήσει έως και 90% σε κόστος σε σύγκριση με τη φιλοξενία μοντέλων σε αποκλειστικά τελικά σημεία μιας παρουσίας.

Σχετικά με τους συγγραφείς

Dhawal Patel είναι Κύριος Αρχιτέκτονας Μηχανικής Μάθησης στο AWS. Έχει συνεργαστεί με οργανισμούς που κυμαίνονται από μεγάλες επιχειρήσεις έως νεοφυείς επιχειρήσεις μεσαίου μεγέθους για προβλήματα που σχετίζονται με τους κατανεμημένους υπολογιστές και την τεχνητή νοημοσύνη. Εστιάζει στη βαθιά μάθηση, συμπεριλαμβανομένων των τομέων NLP και όρασης υπολογιστή. Βοηθά τους πελάτες να επιτύχουν συμπεράσματα μοντέλων υψηλής απόδοσης στο Amazon SageMaker.

Vikram Elango είναι Senior AI/ML Specialist Solutions Architect στην Amazon Web Services, με έδρα τη Βιρτζίνια των ΗΠΑ. Η Vikram βοηθά τους πελάτες του παγκόσμιου χρηματοοικονομικού και ασφαλιστικού κλάδου με ηγετικό σχεδιασμό και σκέψη να δημιουργήσουν και να αναπτύξουν εφαρμογές μηχανικής εκμάθησης σε κλίμακα. Επί του παρόντος επικεντρώνεται στην επεξεργασία φυσικής γλώσσας, στην υπεύθυνη τεχνητή νοημοσύνη, στη βελτιστοποίηση συμπερασμάτων και στην κλιμάκωση της ML σε όλη την επιχείρηση. Στον ελεύθερο χρόνο του, του αρέσει να ταξιδεύει, να κάνει πεζοπορία, να μαγειρεύει και να κατασκηνώνει με την οικογένειά του.

Saurabh Trikande είναι Ανώτερος Διευθυντής Προϊόντων για το Amazon SageMaker Inference. Είναι παθιασμένος με τη συνεργασία με πελάτες και παρακινείται από τον στόχο του εκδημοκρατισμού της μηχανικής μάθησης. Εστιάζει στις βασικές προκλήσεις που σχετίζονται με την ανάπτυξη πολύπλοκων εφαρμογών ML, μοντέλων ML πολλαπλών μισθωτών, βελτιστοποιήσεις κόστους και καθιστώντας την ανάπτυξη μοντέλων βαθιάς μάθησης πιο προσιτή. Στον ελεύθερο χρόνο του, ο Saurabh απολαμβάνει την πεζοπορία, μαθαίνει για καινοτόμες τεχνολογίες, ακολουθεί το TechCrunch και περνά χρόνο με την οικογένειά του.

Σφραγίδα ώρας: Οκτώβριος 31, 2022Οκτώβριος 31, 2022

Περισσότερα από Μηχανική εκμάθηση AWS

Ενεργοποιήστε το Amazon SageMaker JumpStart για προσαρμοσμένους ρόλους εκτέλεσης IAM

Μηχανική εκμάθηση AWS

Κόμβος πηγής: 1305927

Σφραγίδα ώρας: 12 Μαΐου 2022

Αναπτύξτε μια πύλη Slack για το Amazon Q, τον ειδικό της επιχείρησής σας | Υπηρεσίες Ιστού της Amazon

Σύμπλεγμα πηγής:

Μηχανική εκμάθηση AWS

Κόμβος πηγής: 1935350

Σφραγίδα ώρας: 9 Ιανουαρίου 2024

Οικονομικά αποδοτικό συμπέρασμα ML με μοντέλα πολλαπλών πλαισίων στο Amazon SageMaker

Αναδημοσίευση από τον Πλάτωνα

Μοτίβα επίκλησης MCE

Χρησιμοποιήστε θήκες για SageMaker MCE

Κλιμακώστε τα τελικά σημεία πολλαπλών μοντέλων για μεγάλο αριθμό μοντέλων

Ασφαλείς MCE

Παρακολουθήστε τα τελικά σημεία πολλών μοντέλων χρησιμοποιώντας μετρήσεις Amazon CloudWatch

Συμπέρασμα

Σχετικά με τους συγγραφείς

Περισσότερα από Μηχανική εκμάθηση AWS

Δημιουργήστε συγχρονισμένους υπότιτλους και ήχο χρησιμοποιώντας τη γεννήτρια υποτίτλων Amazon Polly

Επεξεργασία δεδομένων PII στο The Very Group με το Amazon Comprehend

Προσδιορίστε δάση μαγκρόβων χρησιμοποιώντας χαρακτηριστικά δορυφορικής εικόνας χρησιμοποιώντας το Amazon SageMaker Studio και τον αυτόματο πιλότο του Amazon SageMaker – Μέρος 1

Δημιουργήστε μια λύση επαλήθευσης εμβολιασμού χρησιμοποιώντας τη λειτουργία Queries στο Amazon Textract | Υπηρεσίες Ιστού της Amazon

Πώς το Amazon Search εκτελεί έργα μεγάλης κλίμακας, ανθεκτικά στη μηχανική εκμάθηση με το Amazon SageMaker

Τα μοντέλα και οι αλγόριθμοι του Amazon SageMaker JumpStart είναι πλέον διαθέσιμα μέσω API

Εκτελέστε αυτόματο συντονισμό μοντέλων με το Amazon SageMaker JumpStart

Σχετικά με μας

Κάθετη αναζήτηση & Ai

Πλατφόρμα

Μείνετε συνδεδεμένοι

Λογαριασμός