ปรับปรุงการวิจัยที่มีมูลค่าสูงด้วย Hugging Face และจุดสิ้นสุดการอนุมานแบบอะซิงโครนัสของ Amazon SageMaker PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

ปรับปรุงการวิจัยที่มีมูลค่าสูงด้วย Hugging Face และจุดสิ้นสุดการอนุมานแบบอะซิงโครนัสของ Amazon SageMaker

ลูกค้า AWS ของเราหลายรายให้บริการการวิจัย การวิเคราะห์ และระบบธุรกิจอัจฉริยะ การวิจัยและข่าวกรองธุรกิจประเภทนี้ช่วยให้ลูกค้าปลายทางนำหน้าตลาดและคู่แข่ง ระบุโอกาสในการเติบโต และแก้ไขปัญหาในเชิงรุก ตัวอย่างเช่น ลูกค้าในภาคส่วนบริการทางการเงินของเราบางรายทำการวิจัยเกี่ยวกับตราสารทุน กองทุนเฮดจ์ฟันด์ และบริษัทจัดการการลงทุน เพื่อช่วยให้พวกเขาเข้าใจแนวโน้มและระบุกลยุทธ์พอร์ตโฟลิโอ ในอุตสาหกรรมด้านสุขภาพ ปัจจุบันการวิจัยด้านสุขภาพส่วนใหญ่มีฐานเป็นข้อมูล การวิจัยจำนวนมากเกี่ยวข้องกับการวิเคราะห์ข้อมูลที่รวบรวมในขั้นต้นเพื่อการวินิจฉัย การรักษา หรือสำหรับโครงการวิจัยอื่น ๆ และขณะนี้ถูกนำมาใช้เพื่อวัตถุประสงค์ในการวิจัยใหม่ ๆ รูปแบบการวิจัยด้านสุขภาพเหล่านี้นำไปสู่การป้องกันเบื้องต้นที่มีประสิทธิภาพเพื่อหลีกเลี่ยงผู้ป่วยรายใหม่ การป้องกันรองเพื่อตรวจหาแต่เนิ่นๆ และการป้องกันเพื่อการจัดการโรคที่ดีขึ้น ผลการวิจัยนอกจากจะทำให้คุณภาพชีวิตดีขึ้นแล้วยังช่วยลดค่ารักษาพยาบาลอีกด้วย

ลูกค้ามักจะแยกแยะข้อมูลจากแหล่งข้อมูลสาธารณะและส่วนตัว จากนั้นจึงใช้โมเดลการประมวลผลภาษาธรรมชาติ (NLP) ที่สร้างขึ้นหรือกำหนดเองเพื่อสรุปและระบุแนวโน้มและสร้างข้อมูลเชิงลึกตามข้อมูลนี้ แบบจำลอง NLP ที่ใช้สำหรับงานวิจัยประเภทนี้เกี่ยวข้องกับแบบจำลองขนาดใหญ่ และมักจะเกี่ยวข้องกับบทความขนาดยาวที่จะสรุปโดยพิจารณาจากขนาดของคลังข้อมูล—และจุดสิ้นสุดเฉพาะ ซึ่งไม่ได้ปรับต้นทุนให้เหมาะสมในขณะนี้ แอปพลิเคชันเหล่านี้ได้รับการเข้าชมจำนวนมากในช่วงเวลาต่างๆ ของวัน

เราเชื่อว่าลูกค้าจะได้รับประโยชน์อย่างมากจากความสามารถในการลดขนาดลงเป็นศูนย์และเพิ่มความสามารถในการอนุมานตามความจำเป็น สิ่งนี้ช่วยปรับต้นทุนการวิจัยให้เหมาะสมและยังไม่ลดทอนคุณภาพของการอนุมาน โพสต์นี้กล่าวถึงวิธีการกอดหน้าพร้อมกับ อเมซอน SageMaker การอนุมานแบบอะซิงโครนัสสามารถช่วยให้บรรลุเป้าหมายนี้ได้

คุณสามารถสร้างโมเดลการสรุปข้อความด้วยเฟรมเวิร์กการเรียนรู้เชิงลึกหลายตัว เช่น TensorFlow, PyTorch และ Apache MXNet โมเดลเหล่านี้มักจะมีเพย์โหลดขนาดใหญ่สำหรับเอกสารข้อความหลายรายการที่มีขนาดแตกต่างกัน โมเดลการเรียนรู้เชิงลึกขั้นสูงต้องการการประมวลผลล่วงหน้าที่มีการคำนวณสูงก่อนที่จะอนุมานโมเดล เวลาในการประมวลผลอาจนานถึงสองสามนาที ซึ่งจะลบตัวเลือกในการเรียกใช้การอนุมานตามเวลาจริงโดยการส่งผ่านเพย์โหลดผ่าน HTTP API คุณต้องประมวลผลเพย์โหลดอินพุตแบบอะซิงโครนัสจากที่เก็บอ็อบเจ็กต์แทน บริการจัดเก็บข้อมูลอย่างง่ายของ Amazon (Amazon S3) พร้อมการจัดคิวอัตโนมัติและเกณฑ์การทำงานพร้อมกันที่กำหนดไว้ล่วงหน้า ระบบควรสามารถรับการแจ้งเตือนสถานะและลดค่าใช้จ่ายที่ไม่จำเป็นโดยการล้างทรัพยากรเมื่องานเสร็จสิ้น

SageMaker ช่วยให้นักวิทยาศาสตร์ข้อมูลและนักพัฒนาจัดเตรียม สร้าง ฝึกฝน และปรับใช้โมเดลแมชชีนเลิร์นนิง (ML) คุณภาพสูงได้อย่างรวดเร็วโดยรวบรวมชุดความสามารถที่หลากหลายซึ่งสร้างขึ้นตามวัตถุประสงค์สำหรับ ML SageMaker นำเสนอคอนเทนเนอร์ที่ให้บริการโมเดลแบบโอเพ่นซอร์สที่ทันสมัยที่สุดสำหรับ XGBoost (ภาชนะ, SDK), Scikit-เรียนรู้ (ภาชนะ, SDK), ไพทอร์ช (ภาชนะ, SDK), เทนเซอร์โฟลว์ (ภาชนะ, SDK) และ Apache MXNet (ภาชนะ, SDK).

SageMaker มีตัวเลือกสี่ตัวเลือกในการปรับใช้โมเดล ML ที่ผ่านการฝึกอบรมสำหรับการสร้างการอนุมานเกี่ยวกับข้อมูลใหม่
  1. การอนุมานตามเวลาจริง จุดสิ้นสุดเหมาะสำหรับปริมาณงานที่ต้องประมวลผลด้วยความต้องการเวลาแฝงต่ำตามลำดับ ms ถึงวินาที
  2. การแปลงแบทช์ เหมาะอย่างยิ่งสำหรับการคาดคะเนแบบออฟไลน์สำหรับข้อมูลจำนวนมาก
  3. การอนุมานแบบไร้เซิร์ฟเวอร์ของ Amazon SageMaker (ในโหมดดูตัวอย่างและไม่แนะนำสำหรับปริมาณงานการผลิตในขณะที่เขียนบทความนี้) เป็นตัวเลือกการอนุมานที่สร้างขึ้นตามวัตถุประสงค์ ซึ่งช่วยให้คุณปรับใช้และปรับขนาดโมเดล ML ได้ง่าย การอนุมานแบบไร้เซิร์ฟเวอร์เหมาะอย่างยิ่งสำหรับปริมาณงานที่มีช่วงว่างระหว่างทราฟฟิกกระฉูดและสามารถทนต่อการเริ่มเย็นได้
  4. การอนุมานแบบอะซิงโครนัส คำขอขาเข้าของคิวปลายทาง เหมาะสำหรับปริมาณงานที่คำขอมีขนาดใหญ่ (สูงสุด 1 GB) และเวลาในการประมวลผลอนุมานเป็นนาที (สูงสุด 15 นาที) การอนุมานแบบอะซิงโครนัสช่วยให้คุณประหยัดค่าใช้จ่ายโดยปรับขนาดอินสแตนซ์อัตโนมัติให้เป็นศูนย์เมื่อไม่มีคำขอให้ดำเนินการ

ภาพรวมโซลูชัน

ในโพสต์นี้ เราปรับใช้ รุ่นเพกาซัส ที่ได้รับการฝึกอบรมล่วงหน้าเพื่อทำการสรุปข้อความจาก กอดหน้า ไปยัง บริการโฮสติ้งของ SageMaker. เราใช้โมเดลจาก Hugging Face เพื่อความเรียบง่าย อย่างไรก็ตาม คุณสามารถ ปรับแต่งโมเดลอย่างละเอียดตามชุดข้อมูลที่กำหนดเอง. คุณยังสามารถลองรุ่นอื่นๆ ที่มีใน กอดหน้านางแบบฮับ. นอกจากนี้ เรายังจัดเตรียมจุดสิ้นสุดการอนุมานแบบอะซิงโครนัสที่โฮสต์โมเดลนี้ ซึ่งคุณสามารถรับการคาดคะเนได้

ตัวจัดการการอนุมานของปลายทางการอนุมานแบบอะซิงโครนัสคาดว่าบทความเป็นเพย์โหลดอินพุต ข้อความสรุปของบทความคือผลลัพธ์ เอาต์พุตจะถูกจัดเก็บไว้ในฐานข้อมูลสำหรับการวิเคราะห์แนวโน้มหรือป้อนลงเพื่อการวิเคราะห์เพิ่มเติม การวิเคราะห์ดาวน์สตรีมนี้ได้รับข้อมูลเชิงลึกที่ช่วยในการวิจัย

เราแสดงให้เห็นว่าจุดสิ้นสุดการอนุมานแบบอะซิงโครนัสช่วยให้คุณมีการแจ้งเตือนการทำงานพร้อมกันและเสร็จสิ้นตามที่ผู้ใช้กำหนดได้อย่างไร เรากำหนดค่าการปรับขนาดอัตโนมัติของอินสแตนซ์หลังจุดสิ้นสุดให้ลดขนาดลงเป็นศูนย์เมื่อทราฟฟิกลดลงและสำรองขนาดเมื่อคิวคำขอเต็ม

เรายังใช้ อเมซอน คลาวด์วอตช์ เมตริกเพื่อมอนิเตอร์ขนาดคิว เวลาประมวลผลทั้งหมด และการเรียกใช้ที่ประมวลผล

ในแผนภาพต่อไปนี้ เราแสดงขั้นตอนที่เกี่ยวข้องในขณะที่ทำการอนุมานโดยใช้จุดสิ้นสุดการอนุมานแบบอะซิงโครนัส

ปรับปรุงการวิจัยที่มีมูลค่าสูงด้วย Hugging Face และจุดสิ้นสุดการอนุมานแบบอะซิงโครนัสของ Amazon SageMaker PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

  1. การฝึกอบรมล่วงหน้าของเรา PEGASUS โมเดล ML ถูกโฮสต์บนจุดสิ้นสุดการปรับสเกลก่อน
  2. ผู้ใช้อัปโหลดบทความที่จะสรุปไปยังบัคเก็ต S3 อินพุต
  3. จุดสิ้นสุดการอนุมานแบบอะซิงโครนัสถูกเรียกใช้โดยใช้ API
  4. หลังจากการอนุมานเสร็จสิ้น ผลลัพธ์จะถูกบันทึกลงในบัคเก็ต S3 เอาต์พุต
  5. An บริการแจ้งเตือนแบบง่ายของ Amazon การแจ้งเตือน (Amazon SNS) จะถูกส่งไปยังผู้ใช้เพื่อแจ้งให้ทราบว่าสำเร็จหรือล้มเหลว

สร้างจุดสิ้นสุดการอนุมานแบบอะซิงโครนัส

เราสร้างจุดสิ้นสุดการอนุมานแบบอะซิงโครนัสที่คล้ายกับจุดสิ้นสุดที่โฮสต์ตามเวลาจริง ขั้นตอนประกอบด้วยการสร้างแบบจำลอง SageMaker ตามด้วยการกำหนดค่าจุดสิ้นสุดและปรับใช้จุดสิ้นสุด ความแตกต่างระหว่างจุดสิ้นสุดทั้งสองประเภทคือการกำหนดค่าจุดสิ้นสุดแบบอนุมานแบบอะซิงโครนัสประกอบด้วย AsyncInferenceConfig ส่วน. ที่นี่ เราระบุเส้นทางเอาต์พุต S3 สำหรับผลลัพธ์จากการเรียกใช้จุดสิ้นสุด และเลือกรวมหัวข้อ SNS สำหรับการแจ้งเตือนเมื่อสำเร็จและล้มเหลว นอกจากนี้ เรายังระบุจำนวนสูงสุดของการเรียกใช้พร้อมกันต่ออินสแตนซ์ตามที่ลูกค้ากำหนด ดูรหัสต่อไปนี้:

AsyncInferenceConfig={ "OutputConfig": { "S3OutputPath": f"s3://{bucket}/{bucket_prefix}/output", # Optionally specify Amazon SNS topics for notifications "NotificationConfig": { "SuccessTopic": success_topic, "ErrorTopic": error_topic, } }, "ClientConfig": { "MaxConcurrentInvocationsPerInstance": 2 #increase this value up to throughput peak for ideal performance } }

โปรดดูรายละเอียดเกี่ยวกับ API เพื่อสร้างการกำหนดค่าปลายทางสำหรับการอนุมานแบบอะซิงโครนัส สร้างจุดสิ้นสุดการอนุมานแบบอะซิงโครนัส.

เรียกใช้จุดสิ้นสุดการอนุมานแบบอะซิงโครนัส

ภาพหน้าจอต่อไปนี้แสดงบทความสั้น ๆ ที่เราใช้เป็นเพย์โหลดอินพุตของเรา:
ปรับปรุงการวิจัยที่มีมูลค่าสูงด้วย Hugging Face และจุดสิ้นสุดการอนุมานแบบอะซิงโครนัสของ Amazon SageMaker PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

รหัสต่อไปนี้อัปโหลดบทความเป็น input.json ไฟล์ไปยัง Amazon S3:

sm_session.upload_data( input_location, bucket=sm_session.default_bucket(), key_prefix=prefix, extra_args={"ContentType": "text/plain"})

เราใช้ Amazon S3 URI กับไฟล์เพย์โหลดอินพุตเพื่อเรียกใช้จุดสิ้นสุด ออบเจกต์ตอบกลับมีตำแหน่งเอาต์พุตใน Amazon S3 เพื่อดึงผลลัพธ์หลังจากเสร็จสิ้น:

response = sm_runtime.invoke_endpoint_async(EndpointName=endpoint_name, InputLocation=input_1_s3_location)
output_location = response['OutputLocation']

ภาพหน้าจอต่อไปนี้แสดงการสรุปโพสต์ผลลัพธ์ตัวอย่าง:
ปรับปรุงการวิจัยที่มีมูลค่าสูงด้วย Hugging Face และจุดสิ้นสุดการอนุมานแบบอะซิงโครนัสของ Amazon SageMaker PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

โปรดดูรายละเอียดเกี่ยวกับ API เพื่อเรียกใช้จุดสิ้นสุดการอนุมานแบบอะซิงโครนัส เรียกใช้จุดสิ้นสุดการอนุมานแบบอะซิงโครนัส.

จัดคิวคำขอการเรียกใช้ด้วยการทำงานพร้อมกันที่ผู้ใช้กำหนด

จุดสิ้นสุดการอนุมานแบบอะซิงโครนัสจัดคิวคำขอการเรียกใช้โดยอัตโนมัติ นี่คือคิวที่มีการจัดการเต็มรูปแบบพร้อมเมตริกการตรวจสอบต่างๆ และไม่ต้องการการกำหนดค่าเพิ่มเติมใดๆ มันใช้ MaxConcurrentInvocationsPerInstance พารามิเตอร์ในการกำหนดค่าปลายทางก่อนหน้าเพื่อประมวลผลคำขอใหม่จากคิวหลังจากที่คำขอก่อนหน้านี้เสร็จสมบูรณ์ MaxConcurrentInvocationsPerInstance คือจำนวนคำขอพร้อมกันสูงสุดที่ไคลเอ็นต์ SageMaker ส่งไปยังคอนเทนเนอร์โมเดล หากไม่ได้ระบุค่าไว้ SageMaker จะเลือกค่าที่เหมาะสมที่สุดสำหรับคุณ

อินสแตนซ์ปรับขนาดอัตโนมัติภายในจุดสิ้นสุดการอนุมานแบบอะซิงโครนัส

เรากำหนดนโยบายการปรับขนาดอัตโนมัติด้วยความจุขั้นต่ำเป็นศูนย์และความจุสูงสุดห้าอินสแตนซ์ จุดสิ้นสุดการอนุมานแบบอะซิงโครนัสไม่เหมือนกับจุดสิ้นสุดที่โฮสต์ตามเวลาจริง สนับสนุนการลดขนาดอินสแตนซ์ให้เป็นศูนย์โดยการตั้งค่าความจุขั้นต่ำเป็นศูนย์ เราใช้ ApproximateBacklogSizePerInstance เมตริกสำหรับการกำหนดค่านโยบายการปรับขนาดด้วยคิวเป้าหมายที่ค้างอยู่ XNUMX รายการต่ออินสแตนซ์เพื่อปรับขนาดเพิ่มเติม เรากำหนดระยะเวลาคูลดาวน์สำหรับ ScaleInCooldown ถึง 120 วินาที และ ScaleOutCooldown ถึง 120 วินาที ค่าสำหรับ ApproximateBacklogSizePerInstance จะถูกเลือกโดยพิจารณาจากทราฟฟิกและความไวต่อการปรับความเร็วของคุณ ยิ่งคุณปรับขนาดได้เร็วเท่าไร คุณก็ยิ่งมีค่าใช้จ่ายน้อยลง แต่มีโอกาสมากขึ้นที่คุณจะต้องปรับขนาดอีกครั้งเมื่อมีคำขอใหม่เข้ามา ยิ่งคุณปรับขนาดได้ช้าลง ค่าใช้จ่ายก็จะยิ่งมากขึ้น แต่คุณมีโอกาสน้อยที่จะมี คำขอเข้ามาเมื่อคุณไม่ได้สเกล

client = boto3.client('application-autoscaling') # Common class representing Application Auto Scaling for SageMaker amongst other services resource_id='endpoint/' + endpoint_name + '/variant/' + 'variant1' # This is the format in which application autoscaling references the endpoint response = client.register_scalable_target(
ServiceNamespace='sagemaker', #
ResourceId=resource_id,
ScalableDimension='sagemaker:variant:DesiredInstanceCount',
MinCapacity=0,
MaxCapacity=5
) response = client.put_scaling_policy(
PolicyName='Invocations-ScalingPolicy',
ServiceNamespace='sagemaker', # The namespace of the AWS service that provides the resource.
ResourceId=resource_id, # Endpoint name
ScalableDimension='sagemaker:variant:DesiredInstanceCount', # SageMaker supports only Instance Count
PolicyType='TargetTrackingScaling', # 'StepScaling'|'TargetTrackingScaling'
TargetTrackingScalingPolicyConfiguration={ 'TargetValue': 5.0, # The target value for the metric. 'CustomizedMetricSpecification': { 'MetricName': 'ApproximateBacklogSizePerInstance', 'Namespace': 'AWS/SageMaker', 'Dimensions': [{'Name': 'EndpointName', 'Value': endpoint_name }], 'Statistic': 'Average',
}, 'ScaleInCooldown': 120, # ScaleInCooldown - The amount of time, in seconds, after a scale-in activity completes before another scale in activity can start. 'ScaleOutCooldown': 120 # ScaleOutCooldown - The amount of time, in seconds, after a scale-out activity completes before another scale out activity can start.
# 'DisableScaleIn': True|False - indicates whether scale in by the target tracking policy is disabled.
# If the value is true, scale-in is disabled and the target tracking policy won't remove capacity from the scalable resource.
}
)

สำหรับรายละเอียดเกี่ยวกับ API เพื่อปรับขนาดจุดสิ้นสุดการอนุมานแบบอะซิงโครนัสโดยอัตโนมัติ โปรดดูที่ ปรับขนาดจุดสิ้นสุดการอนุมานแบบอะซิงโครนัสโดยอัตโนมัติ.

กำหนดค่าการแจ้งเตือนจากจุดสิ้นสุดการอนุมานแบบอะซิงโครนัส

เราสร้างหัวข้อ SNS แยกกันสองหัวข้อสำหรับความสำเร็จและการแจ้งเตือนข้อผิดพลาดสำหรับผลลัพธ์การเรียกใช้ปลายทางแต่ละรายการ:

sns_client = boto3.client('sns')
response = sns_client.create_topic(Name="Async-Demo-ErrorTopic2")
error_topic = response['TopicArn']
response = sns_client.create_topic(Name="Async-Demo-SuccessTopic2")
success_topic = response['TopicArn']

ตัวเลือกอื่นๆ สำหรับการแจ้งเตือน ได้แก่ การตรวจสอบเอาต์พุตของบัคเก็ต S3 เป็นระยะๆ หรือใช้การแจ้งเตือนบัคเก็ต S3 เพื่อเริ่มต้น AWS แลมบ์ดา ฟังก์ชั่นในการอัพโหลดไฟล์ การแจ้งเตือน SNS จะรวมอยู่ในส่วนการกำหนดค่าปลายทางตามที่อธิบายไว้ก่อนหน้านี้

โปรดดูรายละเอียดวิธีตั้งค่าการแจ้งเตือนจากจุดสิ้นสุดการอนุมานแบบอะซิงโครนัส ตรวจสอบผลการทำนาย.

ตรวจสอบจุดสิ้นสุดการอนุมานแบบอะซิงโครนัส

เราตรวจสอบจุดสิ้นสุดการอนุมานแบบอะซิงโครนัสด้วยตัววัด CloudWatch เพิ่มเติมในตัวสำหรับการอนุมานแบบอะซิงโครนัสโดยเฉพาะ ตัวอย่างเช่น เราตรวจสอบความยาวของคิวในแต่ละอินสแตนซ์ด้วย ApproximateBacklogSizePerInstance และความยาวคิวทั้งหมดด้วย ApproximateBacklogSize.

สำหรับรายการเมตริกทั้งหมด โปรดดูที่ การตรวจสอบจุดสิ้นสุดการอนุมานแบบอะซิงโครนัส.

เราสามารถเพิ่มประสิทธิภาพการกำหนดค่าปลายทางเพื่อให้ได้อินสแตนซ์ที่คุ้มค่าที่สุดและมีประสิทธิภาพสูง ตัวอย่างเช่น เราสามารถใช้อินสแตนซ์กับ Amazon Elastic Inference หรือ AWS Inferentia นอกจากนี้ เรายังสามารถค่อยๆ เพิ่มระดับการทำงานพร้อมกันจนถึงปริมาณงานสูงสุดในขณะที่ปรับพารามิเตอร์เซิร์ฟเวอร์และคอนเทนเนอร์รุ่นอื่นๆ

กราฟ CloudWatch

เราจำลองทราฟฟิกของคำขอการอนุมาน 10,000 รายการที่ส่งไปยังจุดสิ้นสุดการอนุมานแบบอะซิงโครนัสที่เปิดใช้งานด้วยนโยบายการปรับขนาดอัตโนมัติที่อธิบายไว้ในส่วนก่อนหน้า

ภาพหน้าจอต่อไปนี้แสดงเมตริกอินสแตนซ์ก่อนที่คำขอจะเริ่มไหล เราเริ่มต้นด้วยจุดสิ้นสุดที่ใช้งานจริงโดยไม่มีอินสแตนซ์ทำงานอยู่:
ปรับปรุงการวิจัยที่มีมูลค่าสูงด้วย Hugging Face และจุดสิ้นสุดการอนุมานแบบอะซิงโครนัสของ Amazon SageMaker PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

กราฟต่อไปนี้แสดงให้เห็นว่า BacklogSize และ BacklogSizePerInstance เมตริกเปลี่ยนแปลงเมื่อเริ่มปรับขนาดอัตโนมัติและโหลดบนจุดสิ้นสุดถูกแชร์โดยอินสแตนซ์หลายรายการที่จัดเตรียมไว้เป็นส่วนหนึ่งของกระบวนการปรับขนาดอัตโนมัติ
ปรับปรุงการวิจัยที่มีมูลค่าสูงด้วย Hugging Face และจุดสิ้นสุดการอนุมานแบบอะซิงโครนัสของ Amazon SageMaker PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

ดังที่แสดงในภาพหน้าจอต่อไปนี้ จำนวนอินสแตนซ์เพิ่มขึ้นเมื่อจำนวนการอนุมานเพิ่มขึ้น:
ปรับปรุงการวิจัยที่มีมูลค่าสูงด้วย Hugging Face และจุดสิ้นสุดการอนุมานแบบอะซิงโครนัสของ Amazon SageMaker PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

ภาพหน้าจอต่อไปนี้แสดงวิธีการปรับขนาดในการนำจุดสิ้นสุดกลับสู่สถานะเริ่มต้นของอินสแตนซ์ที่กำลังทำงานเป็นศูนย์:
ปรับปรุงการวิจัยที่มีมูลค่าสูงด้วย Hugging Face และจุดสิ้นสุดการอนุมานแบบอะซิงโครนัสของ Amazon SageMaker PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

ทำความสะอาด

หลังจากคำขอทั้งหมดเสร็จสิ้น เราสามารถลบจุดสิ้นสุดได้เหมือนกับการลบจุดสิ้นสุดที่โฮสต์ตามเวลาจริง โปรดทราบว่าหากเราตั้งค่าความจุขั้นต่ำของจุดสิ้นสุดการอนุมานแบบอะซิงโครนัสเป็นศูนย์ จะไม่มีการเรียกเก็บเงินจากอินสแตนซ์เกิดขึ้นหลังจากที่ลดขนาดลงเป็นศูนย์

หากคุณเปิดใช้งานการปรับขนาดอัตโนมัติสำหรับตำแหน่งข้อมูลของคุณ ตรวจสอบให้แน่ใจว่าคุณยกเลิกการลงทะเบียนตำแหน่งข้อมูลเป็นเป้าหมายที่ปรับขนาดได้ก่อนที่จะลบตำแหน่งข้อมูล เมื่อต้องการทำเช่นนี้ เรียกใช้รหัสต่อไปนี้:

response = client.deregister_scalable_target(ServiceNamespace='sagemaker',ResourceId='resource_id',ScalableDimension='sagemaker:variant:DesiredInstanceCount')

อย่าลืมลบจุดสิ้นสุดของคุณหลังจากใช้งาน เนื่องจากคุณจะถูกเรียกเก็บเงินสำหรับอินสแตนซ์ที่ใช้ในการสาธิตนี้

sm_client.delete_endpoint(EndpointName=endpoint_name)

คุณต้องลบวัตถุ S3 และหัวข้อ SNS ด้วย หากคุณสร้างทรัพยากร AWS อื่นๆ เพื่อใช้และดำเนินการกับการแจ้งเตือน SNS คุณอาจต้องการลบทรัพยากรเหล่านั้นด้วย

สรุป

ในโพสต์นี้ เราได้สาธิตวิธีการใช้ความสามารถในการอนุมานแบบอะซิงโครนัสใหม่จาก SageMaker เพื่อประมวลผลเพย์โหลดอินพุตขนาดใหญ่ทั่วไปที่เป็นส่วนหนึ่งของงานสรุป สำหรับการอนุมาน เราใช้แบบจำลองจาก Hugging Face และปรับใช้บนจุดสิ้นสุดการอนุมานแบบอะซิงโครนัส เราได้อธิบายถึงความท้าทายทั่วไปของทราฟฟิกแบบต่อเนื่อง เวลาในการประมวลผลโมเดลที่สูง และเพย์โหลดขนาดใหญ่ที่เกี่ยวข้องกับการวิเคราะห์วิจัย ความสามารถโดยธรรมชาติของตำแหน่งข้อมูลการอนุมานแบบอะซิงโครนัสในการจัดการคิวภายใน ขีดจำกัดการทำงานพร้อมกันที่กำหนดไว้ล่วงหน้า กำหนดค่าการแจ้งเตือนการตอบสนอง และการลดขนาดลงเป็นศูนย์โดยอัตโนมัติช่วยให้เราจัดการกับความท้าทายเหล่านี้ได้ รหัสที่สมบูรณ์สำหรับตัวอย่างนี้มีอยู่บน GitHub.

หากต้องการเริ่มต้นใช้งานการอนุมานแบบอะซิงโครนัสของ SageMaker โปรดดูที่ การอนุมานแบบอะซิงโครนัส.


เกี่ยวกับผู้เขียน

ปรับปรุงการวิจัยที่มีมูลค่าสูงด้วย Hugging Face และจุดสิ้นสุดการอนุมานแบบอะซิงโครนัสของ Amazon SageMaker PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.ดิเนช กุมาร สุพรหมมานี เป็น Senior Solutions Architect กับทีม UKIR SMB ซึ่งตั้งอยู่ในเมืองเอดินบะระ ประเทศสกอตแลนด์ เขาเชี่ยวชาญด้านปัญญาประดิษฐ์และการเรียนรู้ของเครื่อง Dinesh สนุกกับการทำงานร่วมกับลูกค้าในอุตสาหกรรมต่างๆ เพื่อช่วยแก้ปัญหาด้วยบริการของ AWS นอกที่ทำงาน เขาชอบใช้เวลาอยู่กับครอบครัว เล่นหมากรุก และเพลิดเพลินกับดนตรีหลากหลายแนว

ปรับปรุงการวิจัยที่มีมูลค่าสูงด้วย Hugging Face และจุดสิ้นสุดการอนุมานแบบอะซิงโครนัสของ Amazon SageMaker PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.ราหู ราเมชา เป็น ML Solutions Architect กับทีม Amazon SageMaker Service เขามุ่งเน้นไปที่การช่วยลูกค้าสร้าง ปรับใช้ และโยกย้ายปริมาณงานการผลิต ML ไปยัง SageMaker ตามขนาด เขาเชี่ยวชาญด้านแมชชีนเลิร์นนิง, AI และคอมพิวเตอร์วิทัศน์ และสำเร็จการศึกษาระดับปริญญาโทสาขาวิทยาการคอมพิวเตอร์จาก UT Dallas เวลาว่างชอบท่องเที่ยวและถ่ายรูป

ประทับเวลา:

เพิ่มเติมจาก AWS Machine Learning AWS