ด้วยการนำแอปพลิเคชัน generative AI มาใช้อย่างรวดเร็ว แอปพลิเคชันเหล่านี้จึงจำเป็นต้องตอบสนองได้ทันเวลา เพื่อลดเวลาแฝงในการรับรู้ด้วยปริมาณงานที่สูงขึ้น แบบจำลองพื้นฐาน (FM) มักได้รับการฝึกอบรมล่วงหน้าเกี่ยวกับคลังข้อมูลจำนวนมหาศาล โดยมีพารามิเตอร์ตั้งแต่ขนาดล้านถึงพันล้านและมากกว่านั้น โมเดลภาษาขนาดใหญ่ (LLM) เป็น FM ประเภทหนึ่งที่สร้างข้อความเพื่อตอบสนองต่อการอนุมานของผู้ใช้ การอนุมานโมเดลเหล่านี้ด้วยการกำหนดค่าพารามิเตอร์การอนุมานที่แตกต่างกันอาจทำให้เกิดเวลาแฝงที่ไม่สอดคล้องกัน ความไม่สอดคล้องกันอาจเป็นเพราะจำนวนโทเค็นการตอบกลับที่แตกต่างกันซึ่งคุณคาดหวังจากโมเดลหรือประเภทของตัวเร่งความเร็วที่โมเดลใช้งานอยู่
ไม่ว่าในกรณีใด แทนที่จะรอการตอบกลับแบบเต็ม คุณสามารถนำแนวทางการสตรีมการตอบสนองมาใช้สำหรับการอนุมานของคุณได้ ซึ่งจะส่งข้อมูลจำนวนมากกลับไปทันทีที่ข้อมูลถูกสร้างขึ้น สิ่งนี้จะสร้างประสบการณ์เชิงโต้ตอบโดยช่วยให้คุณเห็นการตอบกลับบางส่วนที่สตรีมแบบเรียลไทม์ แทนที่จะตอบสนองแบบล่าช้าทั้งหมด
โดยมีประกาศอย่างเป็นทางการว่า การอนุมานแบบเรียลไทม์ของ Amazon SageMaker รองรับการสตรีมการตอบสนองแล้วตอนนี้คุณสามารถสตรีมการตอบกลับการอนุมานกลับไปยังไคลเอนต์ได้อย่างต่อเนื่องเมื่อใช้งาน อเมซอน SageMaker การอนุมานแบบเรียลไทม์พร้อมการสตรีมการตอบสนอง โซลูชันนี้จะช่วยคุณสร้างประสบการณ์เชิงโต้ตอบสำหรับแอปพลิเคชัน AI เจนเนอเรชั่นต่างๆ เช่น แชทบอท ผู้ช่วยเสมือน และเครื่องกำเนิดเพลง โพสต์นี้แสดงให้คุณเห็นถึงวิธีทราบเวลาตอบสนองที่เร็วขึ้นในรูปแบบของ Time to First Byte (TTFB) และลดเวลาแฝงในการรับรู้โดยรวมในขณะที่อนุมานโมเดล Llama 2
เพื่อนำโซลูชันไปใช้ เราใช้ SageMaker ซึ่งเป็นบริการที่มีการจัดการเต็มรูปแบบเพื่อเตรียมข้อมูลและสร้าง ฝึกอบรม และปรับใช้โมเดลการเรียนรู้ของเครื่อง (ML) สำหรับกรณีการใช้งานใดๆ ที่มีโครงสร้างพื้นฐาน เครื่องมือ และเวิร์กโฟลว์ที่มีการจัดการเต็มรูปแบบ สำหรับข้อมูลเพิ่มเติมเกี่ยวกับตัวเลือกการปรับใช้ต่างๆ ที่ SageMaker มีให้ โปรดดูที่ คำถามที่พบบ่อยเกี่ยวกับการโฮสต์โมเดล Amazon SageMaker. เรามาทำความเข้าใจกันว่าเราจะแก้ไขปัญหาเวลาแฝงโดยใช้การอนุมานแบบเรียลไทม์ด้วยการสตรีมการตอบสนองได้อย่างไร
ภาพรวมโซลูชัน
เนื่องจากเราต้องการจัดการกับเวลาแฝงที่กล่าวมาข้างต้นที่เกี่ยวข้องกับการอนุมานแบบเรียลไทม์ด้วย LLM ก่อนอื่นเรามาทำความเข้าใจว่าเราจะใช้การสนับสนุนการสตรีมการตอบสนองสำหรับการอนุมานแบบเรียลไทม์สำหรับ Llama 2 ได้อย่างไร อย่างไรก็ตาม LLM ใดๆ ก็สามารถใช้ประโยชน์จากการสนับสนุนการสตรีมการตอบสนองแบบเรียลไทม์ได้ - การอนุมานเวลา
Llama 2 คือคอลเลกชันของโมเดลข้อความที่สร้างไว้ล่วงหน้าและปรับแต่งอย่างละเอียด โดยมีขนาดตั้งแต่ 7 พันล้านถึง 70 พันล้านพารามิเตอร์ โมเดล Llama 2 เป็นโมเดลแบบ autoregressive ที่มีสถาปัตยกรรมแบบถอดรหัสเท่านั้น เมื่อได้รับพารามิเตอร์พร้อมต์และการอนุมาน โมเดล Llama 2 จะสามารถสร้างการตอบกลับด้วยข้อความได้ โมเดลเหล่านี้ใช้สำหรับการแปล การสรุป การตอบคำถาม และการสนทนา
สำหรับโพสต์นี้ เราปรับใช้โมเดล Llama 2 Chat meta-llama/Llama-2-13b-chat-hf
บน SageMaker สำหรับการอนุมานแบบเรียลไทม์พร้อมการสตรีมการตอบสนอง
เมื่อพูดถึงการปรับใช้โมเดลบนตำแหน่งข้อมูล SageMaker คุณสามารถจัดคอนเทนเนอร์โมเดลโดยใช้เฉพาะทางได้ คอนเทนเนอร์การเรียนรู้เชิงลึกของ AWS รูปภาพ (DLC) พร้อมใช้งานสำหรับไลบรารีโอเพ่นซอร์สยอดนิยม โมเดล Llama 2 เป็นโมเดลการสร้างข้อความ คุณสามารถใช้อย่างใดอย่างหนึ่ง คอนเทนเนอร์การอนุมาน Hugging Face LLM บน SageMaker ขับเคลื่อนโดย กอดใบหน้า การอนุมานการสร้างข้อความ (TGI) หรือ AWS DLC สำหรับ การอนุมานแบบจำลองขนาดใหญ่ (แอลเอ็มไอ)
ในโพสต์นี้ เราปรับใช้โมเดล Chat Llama 2 13B โดยใช้ DLC บน SageMaker Hosting สำหรับการอนุมานแบบเรียลไทม์ที่ขับเคลื่อนโดยอินสแตนซ์ G5 อินสแตนซ์ G5 เป็นอินสแตนซ์ที่ใช้ GPU ประสิทธิภาพสูงสำหรับแอปพลิเคชันที่เน้นกราฟิกและการอนุมาน ML คุณยังสามารถใช้ประเภทอินสแตนซ์ที่รองรับ p4d, p3, g5 และ g4dn โดยมีการเปลี่ยนแปลงที่เหมาะสมตามการกำหนดค่าอินสแตนซ์
เบื้องต้น
หากต้องการใช้โซลูชันนี้ คุณควรมีสิ่งต่อไปนี้:
- บัญชี AWS ที่มี AWS Identity และการจัดการการเข้าถึง บทบาท (IAM) ที่มีสิทธิ์ในการจัดการทรัพยากรที่สร้างขึ้นโดยเป็นส่วนหนึ่งของโซลูชัน
- หากนี่เป็นครั้งแรกที่คุณร่วมงานด้วย สตูดิโอ Amazon SageMakerคุณต้องสร้างไฟล์ โดเมน SageMaker.
- บัญชีกอดใบหน้า ลงชื่อ ด้วยอีเมลของคุณหากคุณยังไม่มีบัญชี
- เพื่อให้เข้าถึงโมเดลต่างๆ ที่มีอยู่ใน Hugging Face ได้อย่างราบรื่น โดยเฉพาะโมเดลที่มีรั้วรอบขอบชิด เช่น Llama เพื่อวัตถุประสงค์ในการปรับแต่งและการอนุมานอย่างละเอียด คุณควรมีบัญชี Hugging Face เพื่อรับโทเค็นการเข้าถึงเพื่อการอ่าน หลังจากที่คุณสมัครใช้งานบัญชี Hugging Face แล้ว เข้าสู่ระบบ ไปเยี่ยมชม https://huggingface.co/settings/tokens เพื่อสร้างโทเค็นการเข้าถึงเพื่อการอ่าน
- เข้าถึง Llama 2 โดยใช้รหัสอีเมลเดียวกับที่คุณใช้สมัคร Hugging Face
- รุ่น Llama 2 ที่มีจำหน่ายผ่าน Hugging Face เป็นรุ่นที่มีรั้วรอบขอบชิด การใช้โมเดล Llama อยู่ภายใต้ใบอนุญาต Meta หากต้องการดาวน์โหลดน้ำหนักโมเดลและโทเค็นไนเซอร์ ขอเข้าถึงลามะ และยอมรับใบอนุญาตของพวกเขา
- หลังจากที่คุณได้รับสิทธิ์ในการเข้าถึง (โดยทั่วไปภายในสองสามวัน) คุณจะได้รับการยืนยันทางอีเมล สำหรับตัวอย่างนี้ เราใช้โมเดล
Llama-2-13b-chat-hf
แต่คุณควรจะสามารถเข้าถึงรูปแบบอื่นๆ ได้เช่นกัน
วิธีที่ 1: การกอดหน้า TGI
ในส่วนนี้ เราจะแสดงวิธีการปรับใช้ meta-llama/Llama-2-13b-chat-hf
สร้างโมเดลไปยังตำแหน่งข้อมูลแบบเรียลไทม์ของ SageMaker พร้อมการสตรีมการตอบสนองโดยใช้ Hugging Face TGI ตารางต่อไปนี้สรุปข้อกำหนดสำหรับการปรับใช้นี้
สเปค | ความคุ้มค่า |
ภาชนะ | กอดหน้า TGI |
ชื่อรุ่น | meta-llama/Llama-2-13b-chat-hf |
อินสแตนซ์ ML | มล.g5.12xlarge |
การอนุมาน | เรียลไทม์พร้อมการสตรีมการตอบสนอง |
ปรับใช้โมเดล
ขั้นแรก คุณดึงข้อมูลอิมเมจพื้นฐานสำหรับ LLM ที่จะปรับใช้ จากนั้นคุณสร้างโมเดลบนอิมเมจพื้นฐาน สุดท้าย คุณปรับใช้โมเดลกับอินสแตนซ์ ML สำหรับ SageMaker Hosting สำหรับการอนุมานแบบเรียลไทม์
มาดูวิธีการปรับใช้โดยทางโปรแกรมกัน เพื่อความกระชับ จะมีการกล่าวถึงเฉพาะโค้ดที่ช่วยในขั้นตอนการปรับใช้ในส่วนนี้ ซอร์สโค้ดแบบเต็มสำหรับการปรับใช้มีอยู่ในโน้ตบุ๊ก llama-2-hf-tgi/llama-2-13b-chat-hf/1-deploy-llama-2-13b-chat-hf-tgi-sagemaker.ipynb.
รับ Hugging Face LLM DLC ล่าสุดที่ขับเคลื่อนโดย TGI ผ่านการสร้างไว้ล่วงหน้า DLC ของ SageMaker. คุณใช้รูปภาพนี้เพื่อปรับใช้ meta-llama/Llama-2-13b-chat-hf
โมเดลบน SageMaker ดูรหัสต่อไปนี้:
กำหนดสภาพแวดล้อมสำหรับโมเดลด้วยพารามิเตอร์การกำหนดค่าที่กำหนดไว้ดังต่อไปนี้:
แทนที่ <YOUR_HUGGING_FACE_READ_ACCESS_TOKEN>
สำหรับพารามิเตอร์การกำหนดค่า HUGGING_FACE_HUB_TOKEN
ด้วยมูลค่าของโทเค็นที่ได้รับจากโปรไฟล์ Hugging Face ของคุณตามรายละเอียดในส่วนข้อกำหนดเบื้องต้นของโพสต์นี้ ในการกำหนดค่า คุณกำหนดจำนวน GPU ที่ใช้ต่อการจำลองของโมเดลเป็น 4 สำหรับ SM_NUM_GPUS
. จากนั้นคุณสามารถปรับใช้ meta-llama/Llama-2-13b-chat-hf
โมเดลบนอินสแตนซ์ ml.g5.12xlarge ที่มาพร้อมกับ GPU 4 ตัว
ตอนนี้คุณสามารถสร้างอินสแตนซ์ของ HuggingFaceModel
ด้วยการกำหนดค่าสภาพแวดล้อมดังกล่าวข้างต้น:
สุดท้าย ปรับใช้โมเดลโดยระบุอาร์กิวเมนต์ให้กับวิธีการปรับใช้ที่มีอยู่ในโมเดลพร้อมค่าพารามิเตอร์ต่างๆ เช่น endpoint_name
, initial_instance_count
และ instance_type
:
ทำการอนุมาน
Hugging Face TGI DLC มาพร้อมกับความสามารถในการสตรีมการตอบสนองโดยไม่ต้องปรับแต่งหรือเปลี่ยนแปลงโค้ดใด ๆ กับโมเดล คุณสามารถใช้ได้ involve_endpoint_with_response_stream หากคุณใช้ Boto3 หรือ เรียกใช้EndpointWithResponseStream เมื่อเขียนโปรแกรมด้วย SageMaker Python SDK
พื้นที่ InvokeEndpointWithResponseStream
API ของ SageMaker ช่วยให้นักพัฒนาสามารถสตรีมการตอบกลับจากโมเดล SageMaker ซึ่งสามารถช่วยปรับปรุงความพึงพอใจของลูกค้าโดยการลดเวลาแฝงในการรับรู้ นี่เป็นสิ่งสำคัญอย่างยิ่งสำหรับแอปพลิเคชันที่สร้างด้วยโมเดล AI เจนเนอเรชั่น ซึ่งการประมวลผลในทันทีมีความสำคัญมากกว่าการรอการตอบสนองทั้งหมด
สำหรับตัวอย่างนี้ เราใช้ Boto3 เพื่ออนุมานโมเดลและใช้ SageMaker API invoke_endpoint_with_response_stream
ดังต่อไปนี้:
อาร์กิวเมนต์ CustomAttributes
ถูกตั้งค่าเป็นค่า accept_eula=false
. พื้นที่ accept_eula
ต้องตั้งค่าพารามิเตอร์เป็น true
เพื่อรับการตอบรับจากรุ่น Llama 2 ได้สำเร็จ หลังจากใช้งานสำเร็จแล้ว invoke_endpoint_with_response_stream
เมธอดจะส่งคืนสตรีมการตอบสนองเป็นไบต์
ไดอะแกรมต่อไปนี้แสดงเวิร์กโฟลว์นี้
คุณต้องมีตัววนซ้ำที่วนซ้ำกระแสไบต์และแยกวิเคราะห์ให้เป็นข้อความที่อ่านได้ ที่ LineIterator
สามารถดูการนำไปปฏิบัติได้ที่ llama-2-hf-tgi/llama-2-13b-chat-hf/utils/LineIterator.py. ตอนนี้คุณพร้อมที่จะเตรียมพรอมต์และคำแนะนำเพื่อใช้เป็นเพย์โหลดในขณะที่อนุมานโมเดล
เตรียมคำแนะนำและคำแนะนำ
ในขั้นตอนนี้ คุณจะต้องเตรียมคำแนะนำและคำแนะนำสำหรับ LLM ของคุณ หากต้องการแจ้ง Llama 2 คุณควรมีเทมเพลตพร้อมท์ต่อไปนี้:
คุณสร้างเทมเพลตพร้อมต์ที่กำหนดโดยทางโปรแกรมในวิธีการ build_llama2_prompt
ซึ่งสอดคล้องกับเทมเพลตพร้อมท์ที่กล่าวมาข้างต้น จากนั้นคุณกำหนดคำแนะนำตามกรณีการใช้งาน ในกรณีนี้ เรากำลังสั่งให้โมเดลสร้างอีเมลสำหรับแคมเปญการตลาดตามที่ครอบคลุมใน get_instructions
วิธี. รหัสสำหรับวิธีการเหล่านี้อยู่ในไฟล์ llama-2-hf-tgi/llama-2-13b-chat-hf/2-sagemaker-realtime-inference-llama-2-13b-chat-hf-tgi-streaming-response.ipynb สมุดบันทึก. สร้างคำสั่งรวมกับงานที่ต้องดำเนินการตามรายละเอียดใน user_ask_1
ดังต่อไปนี้:
เราส่งคำแนะนำเพื่อสร้างพรอมต์ตามเทมเพลตพรอมต์ที่สร้างโดย build_llama2_prompt
เรารวมพารามิเตอร์การอนุมานพร้อมกับพร้อมท์พร้อมคีย์ stream
ด้วยค่า True
เพื่อสร้างเพย์โหลดสุดท้าย ส่ง payload มาที่. get_realtime_response_stream
ซึ่งจะใช้ในการเรียกใช้ตำแหน่งข้อมูลด้วยการสตรีมการตอบสนอง:
ข้อความที่สร้างขึ้นจาก LLM จะถูกสตรีมไปยังเอาต์พุตตามที่แสดงในภาพเคลื่อนไหวต่อไปนี้
แนวทางที่ 2: LMI พร้อม DJL Serving
ในส่วนนี้ เราจะสาธิตวิธีการปรับใช้ meta-llama/Llama-2-13b-chat-hf
สร้างโมเดลไปยังตำแหน่งข้อมูลแบบเรียลไทม์ของ SageMaker พร้อมการสตรีมการตอบสนองโดยใช้ LMI พร้อม DJL Serving ตารางต่อไปนี้สรุปข้อกำหนดสำหรับการปรับใช้นี้
สเปค | ความคุ้มค่า |
ภาชนะ | อิมเมจคอนเทนเนอร์ LMI พร้อม DJL Serving |
ชื่อรุ่น | meta-llama/Llama-2-13b-chat-hf |
อินสแตนซ์ ML | มล.g5.12xlarge |
การอนุมาน | เรียลไทม์พร้อมการสตรีมการตอบสนอง |
ขั้นแรกให้คุณดาวน์โหลดโมเดลและเก็บไว้ในนั้น บริการจัดเก็บข้อมูลอย่างง่ายของ Amazon (อเมซอน S3). จากนั้นคุณระบุ S3 URI ที่ระบุคำนำหน้า S3 ของโมเดลใน serving.properties
ไฟล์. ถัดไป คุณจะดึงข้อมูลอิมเมจพื้นฐานสำหรับ LLM ที่จะปรับใช้ จากนั้นคุณสร้างโมเดลบนอิมเมจพื้นฐาน สุดท้าย คุณปรับใช้โมเดลกับอินสแตนซ์ ML สำหรับ SageMaker Hosting สำหรับการอนุมานแบบเรียลไทม์
มาดูวิธีบรรลุขั้นตอนการปรับใช้ที่กล่าวมาข้างต้นโดยทางโปรแกรมกัน เพื่อความกระชับ เฉพาะโค้ดที่ช่วยในขั้นตอนการปรับใช้เท่านั้นที่มีรายละเอียดในส่วนนี้ ซอร์สโค้ดแบบเต็มสำหรับการปรับใช้นี้มีอยู่ในโน้ตบุ๊ก llama-2-lmi/llama-2-13b-chat/1-deploy-llama-2-13b-chat-lmi-response-streaming.ipynb.
ดาวน์โหลดสแน็ปช็อตโมเดลจาก Hugging Face และอัปโหลดอาร์ติแฟกต์ของโมเดลบน Amazon S3
ด้วยข้อกำหนดเบื้องต้นข้างต้น ให้ดาวน์โหลดโมเดลบนอินสแตนซ์โน้ตบุ๊ก SageMaker จากนั้นอัปโหลดไปยังบัคเก็ต S3 เพื่อการใช้งานเพิ่มเติม:
โปรดทราบว่าแม้ว่าคุณจะไม่ได้ระบุโทเค็นการเข้าถึงที่ถูกต้อง แต่โมเดลก็จะดาวน์โหลด แต่เมื่อคุณปรับใช้โมเดลดังกล่าว การให้บริการโมเดลจะไม่สำเร็จ ดังนั้นจึงแนะนำให้เปลี่ยน <YOUR_HUGGING_FACE_READ_ACCESS_TOKEN>
สำหรับการโต้แย้ง token
ด้วยมูลค่าของโทเค็นที่ได้รับจากโปรไฟล์ Hugging Face ของคุณตามรายละเอียดในข้อกำหนดเบื้องต้น สำหรับโพสต์นี้ เราจะระบุชื่อโมเดลอย่างเป็นทางการสำหรับ Llama 2 ตามที่ระบุไว้ใน Hugging Face พร้อมค่า meta-llama/Llama-2-13b-chat-hf
. โมเดลที่ไม่มีการบีบอัดจะถูกดาวน์โหลดไปที่ local_model_path
อันเป็นผลมาจากการรันโค้ดข้างต้น
อัปโหลดไฟล์ไปยัง Amazon S3 และรับ URI ซึ่งจะนำไปใช้ในภายหลัง serving.properties
.
คุณจะได้ทำการบรรจุภัณฑ์ meta-llama/Llama-2-13b-chat-hf
สร้างโมเดลบนอิมเมจคอนเทนเนอร์ LMI พร้อม DJL Serving โดยใช้การกำหนดค่าที่ระบุผ่าน serving.properties
. จากนั้น คุณปรับใช้โมเดลพร้อมกับสิ่งประดิษฐ์ของโมเดลที่แพ็กเกจบนอิมเมจคอนเทนเนอร์บนอินสแตนซ์ SageMaker ML ml.g5.12xlarge จากนั้นคุณใช้อินสแตนซ์ ML นี้สำหรับ SageMaker Hosting เพื่อการอนุมานแบบเรียลไทม์
เตรียมสิ่งประดิษฐ์แบบจำลองสำหรับการให้บริการ DJL
เตรียมสิ่งประดิษฐ์แบบจำลองของคุณโดยการสร้าง serving.properties
ไฟล์การกำหนดค่า:
เราใช้การตั้งค่าต่อไปนี้ในไฟล์กำหนดค่านี้:
- เครื่องยนต์ – นี่เป็นการระบุเอ็นจิ้นรันไทม์สำหรับ DJL ที่จะใช้ ค่าที่เป็นไปได้ได้แก่
Python
,DeepSpeed
,FasterTransformer
และMPI
. ในกรณีนี้เราตั้งค่าเป็นMPI
. Model Parallelization and Inference (MPI) อำนวยความสะดวกในการแบ่งพาร์ติชันโมเดลกับ GPU ที่มีอยู่ทั้งหมด และดังนั้นจึงเร่งการอนุมาน - option.จุดเข้า – ตัวเลือกนี้ระบุว่าตัวจัดการใดที่นำเสนอโดย DJL Serving ที่คุณต้องการใช้ ค่าที่เป็นไปได้คือ
djl_python.huggingface
,djl_python.deepspeed
และdjl_python.stable-diffusion
. เราใช้djl_python.huggingface
เพื่อการกอดใบหน้าแบบเร่งรัด - option.tensor_parallel_degree – ตัวเลือกนี้ระบุจำนวนพาร์ติชันแบบขนานของเทนเซอร์ที่ทำงานบนแบบจำลอง คุณสามารถตั้งค่าจำนวนอุปกรณ์ GPU ที่ Accelerate จำเป็นต้องใช้ในการแบ่งพาร์ติชันโมเดลได้ พารามิเตอร์นี้ยังควบคุมจำนวนคนทำงานต่อโมเดลที่จะเริ่มทำงานเมื่อการให้บริการ DJL ทำงาน ตัวอย่างเช่น หากเรามีเครื่อง GPU 4 เครื่องและเรากำลังสร้างพาร์ติชันสี่พาร์ติชัน เราจะมีผู้ปฏิบัติงานหนึ่งคนต่อโมเดลเพื่อรองรับคำขอ
- option.low_cpu_mem_usage – ซึ่งจะช่วยลดการใช้หน่วยความจำ CPU เมื่อโหลดโมเดล เราขอแนะนำให้คุณตั้งค่านี้เป็น
TRUE
. - option.rolling_batch – ช่วยให้สามารถจัดชุดระดับการวนซ้ำโดยใช้หนึ่งในกลยุทธ์ที่รองรับ ค่าต่างๆ ได้แก่
auto
,scheduler
และlmi-dist
. เราใช้lmi-dist
สำหรับการเปิดการแบทช์ต่อเนื่องสำหรับ Llama 2 - option.max_rolling_batch_size – นี่เป็นการจำกัดจำนวนคำขอที่เกิดขึ้นพร้อมกันในชุดต่อเนื่อง ค่าดีฟอลต์คือ 32
- ตัวเลือก model_id – คุณควรเปลี่ยน
{{model_id}}
ด้วยรหัสโมเดลของโมเดลที่ได้รับการฝึกอบรมล่วงหน้าซึ่งโฮสต์อยู่ภายใน พื้นที่เก็บข้อมูลโมเดลบน Hugging Face หรือเส้นทาง S3 ไปยังอาร์ติแฟกต์ของโมเดล
สามารถดูตัวเลือกการกำหนดค่าเพิ่มเติมได้ใน การกำหนดค่าและการตั้งค่า.
เนื่องจาก DJL Serving คาดว่าอาร์ติแฟกต์ของโมเดลจะได้รับการแพ็กเกจและจัดรูปแบบในไฟล์ .tar ให้รันโค้ดต่อไปนี้เพื่อบีบอัดและอัปโหลดไฟล์ .tar ไปยัง Amazon S3:
รับอิมเมจคอนเทนเนอร์ LMI ล่าสุดด้วย DJL Serving
ถัดไป ให้คุณใช้ DLC ที่มาพร้อมกับ SageMaker สำหรับ LMI เพื่อปรับใช้โมเดล เรียกข้อมูล URI อิมเมจของ SageMaker สำหรับ djl-deepspeed
คอนเทนเนอร์โดยทางโปรแกรมโดยใช้รหัสต่อไปนี้:
คุณสามารถใช้อิมเมจดังกล่าวเพื่อปรับใช้ meta-llama/Llama-2-13b-chat-hf
โมเดลบน SageMaker ตอนนี้คุณสามารถดำเนินการสร้างโมเดลต่อไปได้
สร้างแบบจำลอง
คุณสามารถสร้างแบบจำลองที่มีการสร้างคอนเทนเนอร์โดยใช้ inference_image_uri
และโค้ดการให้บริการโมเดลอยู่ที่ S3 URI ที่ระบุโดย s3_code_artifact:
ตอนนี้คุณสามารถสร้างการกำหนดค่าโมเดลพร้อมรายละเอียดทั้งหมดสำหรับการกำหนดค่าอุปกรณ์ปลายทางได้
สร้างการกำหนดค่าโมเดล
ใช้โค้ดต่อไปนี้เพื่อสร้างการกำหนดค่าโมเดลสำหรับโมเดลที่ระบุ model_name
:
การกำหนดค่าโมเดลถูกกำหนดไว้สำหรับ ProductionVariants
พารามิเตอร์ InstanceType
สำหรับอินสแตนซ์ ML ml.g5.12xlarge คุณยังจัดให้มี ModelName
โดยใช้ชื่อเดียวกันกับที่คุณใช้สร้างโมเดลในขั้นตอนก่อนหน้า ดังนั้นจึงสร้างความสัมพันธ์ระหว่างโมเดลและการกำหนดค่าจุดสิ้นสุด
เมื่อคุณได้กำหนดโมเดลและการกำหนดค่าโมเดลแล้ว คุณสามารถสร้างจุดสิ้นสุด SageMaker ได้
สร้างปลายทาง SageMaker
สร้างจุดสิ้นสุดเพื่อปรับใช้โมเดลโดยใช้ข้อมูลโค้ดต่อไปนี้:
คุณสามารถดูความคืบหน้าของการปรับใช้ได้โดยใช้ข้อมูลโค้ดต่อไปนี้:
หลังจากการปรับใช้สำเร็จ สถานะปลายทางจะเป็น InService
. ตอนนี้ตำแหน่งข้อมูลพร้อมแล้ว เรามาทำการอนุมานด้วยการสตรีมการตอบสนองกันดีกว่า
การอนุมานแบบเรียลไทม์พร้อมการสตรีมการตอบสนอง
ตามที่เราได้กล่าวถึงในแนวทางก่อนหน้านี้สำหรับ Hugging Face TGI คุณสามารถใช้วิธีเดียวกันได้ get_realtime_response_stream
เพื่อเรียกใช้การสตรีมการตอบสนองจากตำแหน่งข้อมูล SageMaker รหัสสำหรับการอนุมานโดยใช้แนวทาง LMI อยู่ในไฟล์ llama-2-lmi/llama-2-13b-chat/2-inference-llama-2-13b-chat-lmi-response-streaming.ipynb สมุดบันทึก. ที่ LineIterator
การนำไปปฏิบัติอยู่ที่ llama-2-lmi/utils/LineIterator.py. โปรดทราบว่าไฟล์ LineIterator
สำหรับโมเดล Llama 2 Chat ที่ใช้งานบนคอนเทนเนอร์ LMI จะแตกต่างไปจาก LineIterator
อ้างอิงในส่วน Hugging Face TGI ที่ LineIterator
วนซ้ำสตรีมไบต์จากโมเดล Llama 2 Chat ที่อนุมานด้วยคอนเทนเนอร์ LMI ด้วย djl-deepspeed
เวอร์ชัน 0.25.0. ฟังก์ชันตัวช่วยต่อไปนี้จะแยกวิเคราะห์สตรีมการตอบสนองที่ได้รับจากคำขอการอนุมานที่ทำผ่าน invoke_endpoint_with_response_stream
ไฟ:
วิธีการก่อนหน้านี้จะพิมพ์กระแสข้อมูลที่อ่านโดย LineIterator
ในรูปแบบที่มนุษย์อ่านได้
มาดูวิธีเตรียมพรอมต์และคำแนะนำเพื่อใช้เป็นเพย์โหลดขณะอนุมานโมเดลกัน
เนื่องจากคุณกำลังอนุมานโมเดลเดียวกันทั้งใน Hugging Face TGI และ LMI กระบวนการเตรียมพร้อมท์และคำแนะนำจึงเหมือนกัน ดังนั้นคุณสามารถใช้วิธีการต่างๆ get_instructions
และ build_llama2_prompt
เพื่อการอนุมาน
พื้นที่ get_instructions
method ส่งคืนคำสั่ง สร้างคำแนะนำรวมกับงานที่ต้องดำเนินการตามรายละเอียดใน user_ask_2
ดังต่อไปนี้:
ส่งคำแนะนำเพื่อสร้างพรอมต์ตามเทมเพลตพรอมต์ที่สร้างโดย build_llama2_prompt:
เรารวมพารามิเตอร์การอนุมานพร้อมกับข้อความแจ้งเพื่อสร้างเพย์โหลดสุดท้าย จากนั้นคุณส่ง payload ไปที่ get_realtime_response_stream,
ซึ่งใช้เพื่อเรียกใช้จุดสิ้นสุดด้วยการสตรีมการตอบสนอง:
ข้อความที่สร้างขึ้นจาก LLM จะถูกสตรีมไปยังเอาต์พุตตามที่แสดงในภาพเคลื่อนไหวต่อไปนี้
ทำความสะอาด
เพื่อหลีกเลี่ยงไม่ให้มีค่าใช้จ่ายที่ไม่จำเป็น ให้ใช้ คอนโซลการจัดการ AWS เพื่อลบจุดสิ้นสุดและทรัพยากรที่เกี่ยวข้องซึ่งสร้างขึ้นขณะเรียกใช้แนวทางที่กล่าวถึงในโพสต์ สำหรับวิธีการปรับใช้ทั้งสอง ดำเนินการรูทีนการล้างข้อมูลต่อไปนี้:
แทนที่ <SageMaker_Real-time_Endpoint_Name>
สำหรับตัวแปร endpoint_name
กับจุดสิ้นสุดที่แท้จริง
สำหรับแนวทางที่สอง เราได้จัดเก็บโมเดลและอาร์ติแฟกต์โค้ดไว้ใน Amazon S3 คุณสามารถล้างบัคเก็ต S3 ได้โดยใช้โค้ดต่อไปนี้:
สรุป
ในโพสต์นี้ เราได้พูดคุยกันว่าจำนวนโทเค็นการตอบสนองที่แตกต่างกันหรือชุดพารามิเตอร์การอนุมานที่แตกต่างกันสามารถส่งผลต่อเวลาแฝงที่เกี่ยวข้องกับ LLM ได้อย่างไร เราได้แสดงวิธีแก้ไขปัญหาด้วยความช่วยเหลือของการสตรีมการตอบสนอง จากนั้น เราได้ระบุสองแนวทางในการปรับใช้และการอนุมานโมเดล Llama 2 Chat โดยใช้ AWS DLC ได้แก่ LMI และ Hugging Face TGI
ตอนนี้คุณควรเข้าใจถึงความสำคัญของการตอบสนองแบบสตรีมมิ่งและวิธีที่จะลดเวลาในการตอบสนองในการรับรู้ได้ การตอบสนองแบบสตรีมสามารถปรับปรุงประสบการณ์ผู้ใช้ ซึ่งอาจทำให้คุณต้องรอจนกว่า LLM จะสร้างการตอบสนองทั้งหมด นอกจากนี้ การปรับใช้โมเดล Llama 2 Chat พร้อมการสตรีมการตอบสนองจะปรับปรุงประสบการณ์ผู้ใช้และทำให้ลูกค้าของคุณมีความสุข
คุณสามารถดูตัวอย่าง aws อย่างเป็นทางการได้ amazon-sagemaker-llama2-การตอบกลับ-สตรีมมิ่ง-สูตรอาหาร ซึ่งครอบคลุมถึงการใช้งานสำหรับรุ่น Llama 2 รุ่นอื่นๆ
อ้างอิง
เกี่ยวกับผู้เขียน
ปาวัน กุมาร เรา นาวูเล เป็นสถาปนิกโซลูชันที่ Amazon Web Services เขาทำงานร่วมกับ ISV ในอินเดียเพื่อช่วยพวกเขาสร้างสรรค์สิ่งใหม่ๆ บน AWS เขาเป็นนักเขียนที่ได้รับการตีพิมพ์สำหรับหนังสือ "Getting Started with V Programming" เขาสำเร็จการศึกษา M.Tech ผู้บริหารสาขาวิทยาศาสตร์ข้อมูลจาก Indian Institute of Technology (IIT) เมืองไฮเดอราบัด นอกจากนี้ เขายังสำเร็จการศึกษาระดับปริญญาโทบริหารธุรกิจสาขาไอทีจาก Indian School of Business Management and Administration และสำเร็จการศึกษาวิทยาศาสตรบัณฑิต สาขาวิศวกรรมอิเล็กทรอนิกส์และการสื่อสารจาก Vaagdevi Institute of Technology and Science Pavan เป็น AWS Certified Solutions Architect Professional และได้รับการรับรองอื่นๆ เช่น AWS Certified Machine Learning Specialty, Microsoft Certified Professional (MCP) และ Microsoft Certified Technology Specialist (MCTS) เขายังเป็นผู้ที่ชื่นชอบโอเพ่นซอร์สอีกด้วย ในเวลาว่าง เขาชอบฟังเสียงวิเศษของ Sia และ Rihanna
ซูดานชูเกลียด เป็นผู้เชี่ยวชาญด้าน AI/ML หลักของ AWS และทำงานร่วมกับลูกค้าเพื่อให้คำแนะนำเกี่ยวกับ MLOps และการเดินทางของ AI เชิงสร้างสรรค์ ในบทบาทก่อนหน้าของเขาต่อหน้า Amazon เขาได้วางแนวความคิด สร้าง และนำทีมเพื่อสร้างแพลตฟอร์ม AI และเกมมิฟิเคชั่นแบบโอเพ่นซอร์สแบบพื้นฐาน และประสบความสำเร็จในเชิงพาณิชย์กับลูกค้ามากกว่า 100 ราย Sudhanshu ได้รับเครดิตจากสิทธิบัตรสองสามฉบับของเขา ได้เขียนหนังสือสองเล่ม เอกสารและบล็อกหลายฉบับ และได้นำเสนอมุมมองของเขาในฟอรัมทางเทคนิคต่างๆ เขาเป็นผู้นำทางความคิดและผู้พูด และอยู่ในอุตสาหกรรมนี้มาเกือบ 25 ปี เขาทำงานร่วมกับลูกค้าที่ติดอันดับ Fortune 1000 ทั่วโลก และล่าสุดกับลูกค้าดิจิทัลในอินเดีย
- เนื้อหาที่ขับเคลื่อนด้วย SEO และการเผยแพร่ประชาสัมพันธ์ รับการขยายวันนี้
- PlatoData.Network Vertical Generative Ai เพิ่มพลังให้กับตัวเอง เข้าถึงได้ที่นี่.
- เพลโตไอสตรีม. Web3 อัจฉริยะ ขยายความรู้ เข้าถึงได้ที่นี่.
- เพลโตESG. คาร์บอน, คลีนเทค, พลังงาน, สิ่งแวดล้อม แสงอาทิตย์, การจัดการของเสีย. เข้าถึงได้ที่นี่.
- เพลโตสุขภาพ เทคโนโลยีชีวภาพและข่าวกรองการทดลองทางคลินิก เข้าถึงได้ที่นี่.
- ที่มา: https://aws.amazon.com/blogs/machine-learning/inference-llama-2-models-with-real-time-response-streaming-using-amazon-sagemaker/
- :มี
- :เป็น
- :ที่ไหน
- $ ขึ้น
- 1
- 10
- 100
- 11
- 12
- 14
- 15%
- 150
- 16
- 19
- 1st
- 25
- 32
- 385
- 50
- 7
- 70
- 8
- 9
- a
- ความสามารถ
- สามารถ
- เกี่ยวกับเรา
- เร่งความเร็ว
- เร่ง
- คันเร่ง
- ยอมรับ
- เข้า
- ลงชื่อเข้าใช้
- บรรลุ
- ข้าม
- การกระทำ
- ที่เกิดขึ้นจริง
- นอกจากนี้
- ที่อยู่
- การบริหาร
- นำมาใช้
- การนำมาใช้
- ความได้เปรียบ
- แนะนำ
- มีผลต่อ
- หลังจาก
- AI
- โมเดล AI
- AI / ML
- อลิซ
- จัดแนว
- ทั้งหมด
- การอนุญาต
- ช่วยให้
- ตาม
- แล้ว
- ด้วย
- อเมซอน
- อเมซอน SageMaker
- Amazon Web Services
- an
- และ
- ภาพเคลื่อนไหว
- ประกาศ
- การประกาศ
- ใด
- API
- การใช้งาน
- เข้าใกล้
- วิธีการ
- เหมาะสม
- ในเชิงสถาปัตยกรรม
- สถาปัตยกรรม
- เป็น
- อาร์กิวเมนต์
- ข้อโต้แย้ง
- AS
- ผู้ช่วย
- ที่เกี่ยวข้อง
- At
- ผู้เขียน
- ใช้ได้
- หลีกเลี่ยง
- AWS
- กลับ
- ฐาน
- เครื่องผสม
- BE
- เพราะ
- รับ
- ก่อน
- ระหว่าง
- เกิน
- พันล้าน
- พันล้าน
- BIN
- Blog
- ร่างกาย
- หนังสือ
- ร้านหนังสือเกาหลี
- ทั้งสอง
- สร้าง
- สร้าง
- สร้าง
- ธุรกิจ
- แต่
- by
- โทรศัพท์
- รณรงค์
- CAN
- สามารถ
- กรณี
- การรับรอง
- มีมาตรฐาน
- การเปลี่ยนแปลง
- โหลด
- พูดคุย
- chatbots
- ปลาเดยส์
- ไคลเอนต์
- ลูกค้า
- สโมสร
- รหัส
- ชุด
- COM
- รวม
- มา
- การสื่อสาร
- พร้อมกัน
- องค์ประกอบ
- การยืนยัน
- ภาชนะ
- ภาชนะบรรจุ
- ต่อเนื่องกัน
- อย่างต่อเนื่อง
- การควบคุม
- ได้
- คู่
- คูปอง
- ปกคลุม
- ครอบคลุม
- สร้าง
- ที่สร้างขึ้น
- สร้าง
- การสร้าง
- เครดิต
- ลูกค้า
- ความพึงพอใจของลูกค้า
- ลูกค้า
- ข้อมูล
- วิทยาศาสตร์ข้อมูล
- วัน
- ลึก
- การเรียนรู้ลึก ๆ
- ค่าเริ่มต้น
- กำหนด
- กำหนด
- ล่าช้า
- สาธิต
- ปรับใช้
- นำไปใช้
- ปรับใช้
- การใช้งาน
- รายละเอียด
- รายละเอียด
- นักพัฒนา
- อุปกรณ์
- ต่าง
- ดิจิตอล
- กล่าวถึง
- Dont
- ดาวน์โหลด
- ในระหว่าง
- ก่อน
- ทั้ง
- อิเล็กทรอนิกส์
- อีเมล
- ช่วยให้
- ปลายทาง
- เครื่องยนต์
- ชั้นเยี่ยม
- คนที่กระตือรือร้น
- ทั้งหมด
- สิ่งแวดล้อม
- โดยเฉพาะอย่างยิ่ง
- การสร้าง
- แม้
- ตัวอย่าง
- ผู้บริหารงาน
- คาดหวังว่า
- คาดว่า
- ประสบการณ์
- ประสบการณ์
- สำรวจ
- ใบหน้า
- อำนวยความสะดวก
- เท็จ
- เร็วขึ้น
- เนื้อไม่มีมัน
- ไฟล์
- สุดท้าย
- ในที่สุด
- ชื่อจริง
- ครั้งแรก
- ดังต่อไปนี้
- ดังต่อไปนี้
- สำหรับ
- ฟอร์ม
- รูป
- โชคลาภ
- ฟอรั่ม
- พบ
- รากฐาน
- สี่
- ฟรี
- ราคาเริ่มต้นที่
- เต็ม
- อย่างเต็มที่
- ฟังก์ชัน
- ต่อไป
- gamification
- รั้วรอบขอบชิด
- สร้าง
- สร้าง
- การสร้าง
- รุ่น
- กำเนิด
- กำเนิด AI
- เครื่องกำเนิดไฟฟ้า
- ได้รับ
- GIF
- โลก
- Go
- ปกครอง
- GPU
- GPUs
- รับ
- ยิ่งใหญ่
- มีความสุข
- เกลียด
- มี
- he
- ช่วย
- จะช่วยให้
- ประสิทธิภาพสูง
- สูงกว่า
- ของเขา
- ถือ
- เป็นเจ้าภาพ
- โฮสติ้ง
- สรุป ความน่าเชื่อถือของ Olymp Trade?
- ทำอย่างไร
- อย่างไรก็ตาม
- HTML
- ที่ http
- HTTPS
- กอดใบหน้า
- มนุษย์สามารถอ่านได้
- ID
- ระบุ
- เอกลักษณ์
- if
- แสดงให้เห็นถึง
- ภาพ
- ภาพ
- ทันที
- การดำเนินการ
- การดำเนินงาน
- นำเข้า
- ความสำคัญ
- สำคัญ
- ปรับปรุง
- ช่วยเพิ่ม
- in
- ประกอบด้วย
- รวมทั้ง
- อินเดีย
- ชาวอินเดีย
- แสดงว่า
- อุตสาหกรรม
- ข้อมูล
- โครงสร้างพื้นฐาน
- เราสร้างสรรค์สิ่งใหม่ ๆ
- อินพุต
- ปัจจัยการผลิต
- ภายใน
- ตัวอย่าง
- แทน
- สถาบัน
- คำแนะนำการใช้
- การโต้ตอบ
- อินเทอร์เน็ต
- ปัญหา
- IT
- ITS
- การเดินทาง
- JSON
- คีย์
- kumar
- ภาษา
- ใหญ่
- ความแอบแฝง
- ปัญหาเวลาแฝง
- ต่อมา
- ล่าสุด
- เปิดตัว
- นำ
- ผู้นำ
- การเรียนรู้
- นำ
- ความยาว
- ห้องสมุด
- License
- กดไลก์
- ขีด จำกัด
- Line
- ฟัง
- ดูรายละเอียด
- LLM
- โหลด
- ที่ตั้งอยู่
- รัก
- เครื่อง
- เรียนรู้เครื่อง
- ทำ
- ทำ
- ทำให้
- จัดการ
- การจัดการ
- การจัดการ
- การตลาด
- แม็กซ์
- อาจ..
- MCP
- หน่วยความจำ
- กล่าวถึง
- Meta
- วิธี
- วิธีการ
- ไมโครซอฟท์
- ล้าน
- ML
- ม.ป.ป
- แบบ
- โมเดล
- เดือน
- ข้อมูลเพิ่มเติม
- มากที่สุด
- ดนตรี
- ต้อง
- ชื่อ
- ที่มีชื่อ
- พื้นเมือง
- เกือบทั้งหมด
- จำเป็นต้อง
- ความต้องการ
- ใหม่
- ถัดไป
- หมายเหตุ
- สมุดบันทึก
- ตอนนี้
- จำนวน
- วัตถุ
- สังเกต
- ได้รับ
- ที่ได้รับ
- of
- เสนอ
- เป็นทางการ
- มักจะ
- on
- ONE
- เพียง
- เปิด
- โอเพนซอร์ส
- ตัวเลือกเสริม (Option)
- Options
- or
- อื่นๆ
- มิฉะนั้น
- โครงร่าง
- เอาท์พุต
- เกิน
- ทั้งหมด
- แพคเกจ
- บรรจุภัณฑ์
- เอกสาร
- Parallel
- พารามิเตอร์
- พารามิเตอร์
- ส่วนหนึ่ง
- ส่ง
- สิทธิบัตร
- เส้นทาง
- ต่อ
- ที่รับรู้
- ดำเนินการ
- ดำเนินการ
- สิทธิ์
- แพลตฟอร์ม
- เพลโต
- เพลโตดาต้าอินเทลลิเจนซ์
- เพลโตดาต้า
- จุด
- ยอดนิยม
- เป็นไปได้
- โพสต์
- ขับเคลื่อน
- มาก่อน
- เตรียมการ
- การเตรียมความพร้อม
- ข้อกำหนดเบื้องต้น
- นำเสนอ
- ก่อน
- หลัก
- พิมพ์
- ปัญหา
- ดำเนิน
- กระบวนการ
- แปรรูปแล้ว
- การประมวลผล
- ผลิตภัณฑ์
- เปิดตัวผลิตภัณฑ์
- มืออาชีพ
- โปรไฟล์
- การเขียนโปรแกรม
- ความคืบหน้า
- คุณสมบัติ
- ให้
- ให้
- ให้
- การให้
- การตีพิมพ์
- วัตถุประสงค์
- หลาม
- ไฟฉาย
- คำถาม
- ตั้งแต่
- รวดเร็ว
- ค่อนข้าง
- อ่าน
- พร้อม
- จริง
- เรียลไทม์
- ตระหนักถึง
- รับ
- ที่ได้รับ
- เมื่อเร็ว ๆ นี้
- แนะนำ
- แนะนำ
- ลด
- ลด
- ลด
- อ้างอิง
- ความสัมพันธ์
- แทนที่
- แบบจำลอง
- กรุ
- ขอ
- การร้องขอ
- แหล่งข้อมูล
- ตอบสนอง
- คำตอบ
- การตอบสนอง
- ผล
- กลับ
- รับคืน
- บทบาท
- ประจำวัน
- วิ่ง
- วิ่ง
- ทำงาน
- รันไทม์
- sagemaker
- เดียวกัน
- ความพอใจ
- ขนาด
- โรงเรียน
- วิทยาศาสตร์
- SDK
- ไร้รอยต่อ
- ที่สอง
- Section
- เห็น
- ส่ง
- ส่ง
- ให้บริการ
- บริการ
- บริการ
- การให้บริการ
- ชุด
- การตั้งค่า
- หลาย
- สั้น
- น่า
- โชว์
- แสดงให้เห็นว่า
- แสดง
- แสดงให้เห็นว่า
- ลงชื่อ
- ง่าย
- ภาพย่อ
- เศษเล็กเศษน้อย
- ทางออก
- โซลูชัน
- ในไม่ช้า
- แหล่ง
- รหัสแหล่งที่มา
- ลำโพง
- ผู้เชี่ยวชาญ
- เฉพาะ
- พิเศษ
- ข้อกำหนด
- ที่ระบุไว้
- ข้อความที่เริ่ม
- Status
- ขั้นตอน
- ขั้นตอน
- หยุด
- การเก็บรักษา
- จัดเก็บ
- เก็บไว้
- กลยุทธ์
- กระแส
- สตรีม
- ที่พริ้ว
- สตรีมมิ่งบริการ
- ประสบความสำเร็จ
- ที่ประสบความสำเร็จ
- ประสบความสำเร็จ
- อย่างเช่น
- สนับสนุน
- ที่สนับสนุน
- รองรับ
- ตาราง
- เอา
- งาน
- ทีม
- เทคโนโลยี
- วิชาการ
- เทคโนโลยี
- เทมเพลต
- ข้อความ
- กว่า
- ที่
- พื้นที่
- ของพวกเขา
- พวกเขา
- แล้วก็
- ที่นั่น
- ดังนั้น
- ดังนั้น
- ล้อยางขัดเหล่านี้ติดตั้งบนแกน XNUMX (มม.) ผลิตภัณฑ์นี้ถูกผลิตในหลายรูปทรง และหลากหลายเบอร์ความแน่นหนาของปริมาณอนุภาคขัดของมัน จะทำให้ท่านได้รับประสิทธิภาพสูงในการขัดและการใช้งานที่ยาวนาน
- พวกเขา
- นี้
- แต่?
- คิดว่า
- ปริมาณงาน
- เวลา
- ครั้ง
- ไปยัง
- โทเค็น
- ราชสกุล
- เครื่องมือ
- รถไฟ
- การแปลภาษา
- จริง
- การหมุน
- สอง
- ชนิด
- ชนิด
- เป็นปกติ
- เข้าใจ
- ไม่จำเป็น
- จนกระทั่ง
- การใช้
- ใช้
- ใช้กรณี
- มือสอง
- ผู้ใช้งาน
- ประสบการณ์ของผู้ใช้
- การใช้
- ถูกต้อง
- ความคุ้มค่า
- ความคุ้มค่า
- ตัวแปร
- ต่างๆ
- แตกต่างกัน
- กว้างใหญ่
- รุ่น
- ผ่านทาง
- รายละเอียด
- เสมือน
- เยี่ยมชมร้านค้า
- เสียงVO
- รอ
- ที่รอ
- ต้องการ
- we
- เว็บ
- บริการเว็บ
- ดี
- คือ
- เมื่อ
- ที่
- ในขณะที่
- ทั้งหมด
- ใคร
- จะ
- กับ
- ภายใน
- ไม่มี
- ทำงาน
- ผู้ปฏิบัติงาน
- แรงงาน
- เวิร์กโฟลว์
- ขั้นตอนการทำงาน
- การทำงาน
- โรงงาน
- จะ
- เขียน
- เขียน
- ปี
- คุณ
- ของคุณ
- ลมทะเล