สร้างไปป์ไลน์การวิเคราะห์ความเชื่อมั่น MLOps โดยใช้ Amazon SageMaker Ground Truth และ Databricks MLflow

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

ในขณะที่องค์กรต่างๆ เปลี่ยนไปใช้แมชชีนเลิร์นนิง (ML) เพื่อขับเคลื่อนข้อมูลเชิงลึกที่ลึกซึ้งยิ่งขึ้น อุปสรรคสำคัญสองประการที่พวกเขาพบคือการติดฉลากและการจัดการวงจรชีวิต การติดฉลากคือการระบุข้อมูลและเพิ่มป้ายกำกับเพื่อให้บริบทเพื่อให้โมเดล ML สามารถเรียนรู้จากมันได้ ป้ายกำกับอาจบ่งบอกถึงวลีในไฟล์เสียง รถในรูปถ่าย หรืออวัยวะใน MRI จำเป็นต้องมีการติดฉลากข้อมูลเพื่อให้โมเดล ML สามารถทำงานกับข้อมูลได้ การจัดการวงจรชีวิตเกี่ยวข้องกับกระบวนการตั้งค่าการทดสอบ ML และการบันทึกชุดข้อมูล ไลบรารี เวอร์ชัน และโมเดลที่ใช้เพื่อให้ได้ผลลัพธ์ ทีมงานอาจทำการทดลองหลายร้อยครั้งก่อนที่จะตัดสินในแนวทางเดียว การย้อนกลับและสร้างแนวทางใหม่อาจเป็นเรื่องยากหากไม่มีการบันทึกองค์ประกอบของการทดลองนั้น

ตัวอย่างและบทช่วยสอน ML จำนวนมากเริ่มต้นด้วยชุดข้อมูลที่มีค่าเป้าหมาย อย่างไรก็ตาม ข้อมูลในโลกแห่งความเป็นจริงไม่ได้มีค่าเป้าหมายเสมอไป ตัวอย่างเช่น ในการวิเคราะห์ความรู้สึก บุคคลมักจะสามารถตัดสินว่าบทวิจารณ์นั้นเป็นไปในเชิงบวก เชิงลบ หรือแบบผสม แต่บทวิจารณ์ประกอบด้วยชุดข้อความที่ไม่มีค่าวิจารณญาณแนบมาด้วย เพื่อสร้าง การเรียนรู้ภายใต้การดูแล แบบจำลองเพื่อแก้ปัญหานี้ ชุดข้อมูลที่มีป้ายกำกับคุณภาพสูงเป็นสิ่งสำคัญ ความจริงของ Amazon SageMaker เป็นบริการการติดฉลากข้อมูลที่มีการจัดการเต็มรูปแบบ ซึ่งทำให้ง่ายต่อการสร้างชุดข้อมูลการฝึกอบรมที่มีความแม่นยำสูงสำหรับ ML

สำหรับองค์กรที่ใช้ Databricks เป็นแพลตฟอร์มข้อมูลและการวิเคราะห์บน AWS เพื่อดำเนินการแยก แปลง และโหลด (ETL) เป้าหมายสูงสุดมักจะฝึกอบรมโมเดลการเรียนรู้ภายใต้การดูแล ในโพสต์นี้ เราแสดงให้เห็นว่า Databricks ทำงานร่วมกับ Ground Truth และ . ได้อย่างไร อเมซอน SageMaker สำหรับการติดฉลากข้อมูลและการกระจายแบบจำลอง

ภาพรวมโซลูชัน

Ground Truth คือบริการการติดฉลากข้อมูลที่มีการจัดการเต็มรูปแบบ ซึ่งทำให้ง่ายต่อการสร้างชุดข้อมูลการฝึกอบรมที่มีความแม่นยำสูงสำหรับ ML ผ่านคอนโซล Ground Truth เราสามารถสร้างเวิร์กโฟลว์การติดฉลากข้อมูลแบบกำหนดเองหรือในตัวได้ในเวลาไม่กี่นาที เวิร์กโฟลว์เหล่านี้รองรับกรณีการใช้งานที่หลากหลาย รวมถึง 3D point clouds วิดีโอ รูปภาพ และข้อความ นอกจากนี้ Ground Truth ยังเสนอการติดฉลากข้อมูลอัตโนมัติ ซึ่งใช้โมเดล ML เพื่อติดป้ายกำกับข้อมูลของเรา

เราฝึกโมเดลของเราเกี่ยวกับชุดข้อมูล Amazon Customer Reviews ที่เผยแพร่ต่อสาธารณะ ในระดับสูงมีขั้นตอนดังนี้

แยกชุดข้อมูลดิบที่จะติดป้ายกำกับและย้ายไปยัง บริการจัดเก็บข้อมูลอย่างง่ายของ Amazon (อเมซอน เอส3).
ทำการติดฉลากโดยสร้างงานการติดฉลากใน SageMaker
สร้างและฝึกโมเดลผู้เรียนเชิงเส้นแบบ Scikit-learn อย่างง่าย เพื่อจำแนกความรู้สึกของข้อความทบทวนบนแพลตฟอร์ม Databricks โดยใช้ตัวอย่าง สมุดบันทึก.
ใช้ ม.ล.โฟลว์ ส่วนประกอบเพื่อสร้างและดำเนินการ MLOps และบันทึกสิ่งประดิษฐ์ของแบบจำลอง
ปรับใช้โมเดลเป็นจุดสิ้นสุด SageMaker โดยใช้ ไลบรารี MLflow SageMaker สำหรับการอนุมานตามเวลาจริง

ไดอะแกรมต่อไปนี้แสดงการติดฉลากและการเดินทางของ ML โดยใช้ Ground Truth และ MLflow

สร้างงานการติดฉลากใน SageMaker

จากชุดข้อมูล Amazon Customer Reviews เราแยกเฉพาะส่วนของข้อความเท่านั้น เนื่องจากเรากำลังสร้างแบบจำลองการวิเคราะห์ความรู้สึก เมื่อแยกแล้ว เราจะใส่ข้อความในบัคเก็ต S3 แล้วสร้างงานการติดป้ายกำกับ Ground Truth ผ่านคอนโซล SageMaker

เกี่ยวกับ สร้างงานติดฉลาก หน้า กรอกข้อมูลในฟิลด์ที่จำเป็นทั้งหมด ส่วนหนึ่งของขั้นตอนในหน้านี้ Ground Truth อนุญาตให้คุณสร้างไฟล์รายการงาน Ground Truth ใช้ไฟล์ Manifest อินพุตเพื่อระบุจำนวนไฟล์หรืออ็อบเจ็กต์ในงานการติดฉลาก เพื่อให้จำนวนงานที่ถูกต้องถูกสร้างขึ้นและส่งไปยังผู้ติดฉลากที่เป็นมนุษย์ (หรือเครื่องจักร) ไฟล์จะถูกบันทึกโดยอัตโนมัติในบัคเก็ต S3 ขั้นตอนต่อไปคือการระบุประเภทงานและการเลือกงาน กรณีการใช้งานนี้ เราเลือก ข้อความ เป็นหมวดหมู่งานและ การจัดประเภทข้อความ ด้วยป้ายกำกับเดียวสำหรับการเลือกงาน ซึ่งหมายความว่าข้อความรีวิวจะมีความรู้สึกเดียว: เชิงบวก เชิงลบ หรือเป็นกลาง

สุดท้าย เราเขียนคำแนะนำง่ายๆ แต่กระชับสำหรับผู้ติดป้ายกำกับเกี่ยวกับวิธีติดป้ายกำกับข้อมูลข้อความ คำแนะนำจะแสดงอยู่ในเครื่องมือการติดฉลาก และคุณสามารถเลือกตรวจสอบมุมมองของผู้ใส่คำอธิบายประกอบได้ในขณะนี้ สุดท้าย เราส่งงานและติดตามความคืบหน้าบนคอนโซล

ในขณะที่งานการติดฉลากอยู่ในระหว่างดำเนินการ เรายังสามารถดูข้อมูลที่ติดฉลากบน เอาท์พุต แท็บ เราสามารถติดตามตรวจสอบข้อความและฉลากแต่ละรายการ และถ้างานทำโดยมนุษย์หรือเครื่องจักร เราสามารถเลือกงานการติดฉลากได้ 100% ที่มนุษย์ต้องทำหรือเลือกคำอธิบายประกอบของเครื่อง ซึ่งจะช่วยเร่งงานและลดต้นทุนแรงงาน

เมื่องานเสร็จสมบูรณ์ สรุปงานการติดฉลากจะมีลิงก์ไปยังรายการผลลัพธ์และชุดข้อมูลที่ติดฉลาก เราสามารถไปที่ Amazon S3 และดาวน์โหลดทั้งคู่จากโฟลเดอร์บัคเก็ต S3 ของเราได้เช่นกัน

สร้างไปป์ไลน์การวิเคราะห์ความเชื่อมั่น MLOps โดยใช้ Amazon SageMaker Ground Truth และ Databricks MLflow PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

ในขั้นตอนต่อไป เราใช้โน้ตบุ๊ก Databricks ม.ล.โฟลว์และชุดข้อมูลที่ติดป้ายกำกับโดย Ground Truth เพื่อสร้าง a วิทย์ - เรียน แบบ

ดาวน์โหลดชุดข้อมูลที่มีป้ายกำกับจาก Amazon S3

เราเริ่มต้นด้วยการดาวน์โหลดชุดข้อมูลที่ติดป้ายกำกับจาก Amazon S3 รายการจะถูกบันทึกในรูปแบบ JSON และเราโหลดลงใน Spark DataFrame ใน Databricks สำหรับการฝึกอบรมรูปแบบการวิเคราะห์ความเชื่อมั่น เราต้องการเพียงข้อความตรวจสอบและความรู้สึกที่ได้รับการอธิบายโดยงานการติดฉลาก Ground Truth เท่านั้น เราใช้ select() เพื่อแยกคุณสมบัติทั้งสองนี้ จากนั้นเราจะแปลงชุดข้อมูลจาก PySpark DataFrame เป็น Pandas DataFrame เนื่องจากอัลกอริธึม Scikit-learn ต้องใช้รูปแบบ Pandas DataFrame

ต่อไปเราใช้ Scikit-learn CountVectorizer เพื่อแปลงข้อความรีวิวเป็นเวกเตอร์ bigram โดยการตั้งค่า ngram_range ค่าสูงสุด 2 CountVectorizer แปลงข้อความเป็นเมทริกซ์ของการนับโทเค็น จากนั้นเราก็ใช้ TfidfTransformer เพื่อแปลงเวกเตอร์ bigram เป็นรูปแบบคำความถี่-ผกผันความถี่เอกสาร (TF-IDF)

เราเปรียบเทียบคะแนนความแม่นยำสำหรับการฝึกที่ทำกับเวกเตอร์ bigram กับ bigram ด้วย TF-IDF TF-IDF เป็นการวัดทางสถิติที่ประเมินความเกี่ยวข้องของคำกับเอกสารในชุดเอกสาร เนื่องจากข้อความทบทวนมีแนวโน้มที่จะค่อนข้างสั้น เราจึงสามารถสังเกตได้ว่า TF-IDF ส่งผลต่อประสิทธิภาพของแบบจำลองการคาดการณ์อย่างไร

ตั้งค่าการทดสอบ MLflow

MLflow ได้รับการพัฒนาโดย Databricks และตอนนี้กลายเป็น โครงการโอเพ่นซอร์ส. MLflow จัดการวงจรชีวิต ML เพื่อให้คุณสามารถติดตาม สร้างใหม่ และเผยแพร่การทดสอบได้อย่างง่ายดาย

ในการตั้งค่าการทดสอบ MLflow เราใช้ mlflow.sklearn.autolog() เพื่อเปิดใช้งานการบันทึกไฮเปอร์พารามิเตอร์ เมทริก และอาร์ติแฟกต์ของโมเดลโดยอัตโนมัติเมื่อไรก็ตาม estimator.fit(), estimator.fit_predict(), และ estimator.fit_transform() เรียกว่า. หรือคุณสามารถดำเนินการด้วยตนเองโดยโทร mlflow.log_param() และ mlflow.log_metric().

เราปรับชุดข้อมูลที่แปลงแล้วให้เข้ากับตัวแยกประเภทเชิงเส้นด้วยการเรียนรู้ Stochastic Gradient Descent (SGD) ด้วย SGD การไล่ระดับสีของการสูญเสียจะประมาณครั้งละหนึ่งตัวอย่าง และแบบจำลองจะได้รับการอัปเดตไปพร้อมกับตารางความแข็งแกร่งที่ลดลง

ชุดข้อมูลทั้งสองที่เราเตรียมไว้ก่อนหน้านี้จะถูกส่งต่อไปยัง train_and_show_scores() ฟังก์ชั่นสำหรับการฝึกอบรม หลังจากการฝึกอบรม เราจำเป็นต้องลงทะเบียนแบบจำลองและบันทึกสิ่งประดิษฐ์ เราใช้ mlflow.sklearn.log_model() จะทำเช่นนั้น

ก่อนปรับใช้ เราจะดูผลลัพธ์ของการทดสอบและเลือกการทดสอบสองรายการ (การทดสอบหนึ่งสำหรับ bigram และอีกรายการสำหรับ bigram ที่มี TF-IDF) เพื่อเปรียบเทียบ ในกรณีการใช้งานของเรา โมเดลที่สองที่ฝึกด้วย bigram TF-IDF ทำงานได้ดีขึ้นเล็กน้อย ดังนั้นเราจึงเลือกโมเดลนั้นเพื่อปรับใช้ หลังจากลงทะเบียนโมเดลแล้ว เราปรับใช้โมเดล โดยเปลี่ยนขั้นตอนของโมเดลเป็นการผลิต เราสามารถทำได้บน MLflow UI หรือในโค้ดโดยใช้ transition_model_version_stage().

ปรับใช้และทดสอบโมเดลเป็นปลายทาง SageMaker

ก่อนที่เราจะปรับใช้โมเดลที่ได้รับการฝึกอบรม เราจำเป็นต้องสร้างคอนเทนเนอร์ Docker เพื่อโฮสต์โมเดลใน SageMaker เราทำได้โดยใช้คำสั่ง MLflow ง่ายๆ ที่สร้างและผลักคอนเทนเนอร์ไปที่ การลงทะเบียน Amazon Elastic Container (Amazon ECR) ในบัญชี AWS ของเรา

ตอนนี้เราพบ URI ของรูปภาพบนคอนโซล Amazon ECR แล้ว เราส่ง URI ของรูปภาพเป็น an image_url พารามิเตอร์และการใช้งาน DEPLOYMENT_MODE_CREATE สำหรับพารามิเตอร์โหมด หากนี่คือการปรับใช้ใหม่ หากอัปเดตปลายทางที่มีอยู่ด้วยเวอร์ชันใหม่ ให้ใช้ DEPLOYMENT_MODE_REPLACE.

ในการทดสอบจุดสิ้นสุด SageMaker เราได้สร้างฟังก์ชันที่ใช้ชื่อจุดสิ้นสุดและป้อนข้อมูลเป็นพารามิเตอร์

สรุป

ในโพสต์นี้ เราแสดงให้คุณเห็นถึงวิธีใช้ Ground Truth เพื่อติดป้ายกำกับชุดข้อมูลดิบ และใช้ข้อมูลที่ติดป้ายกำกับเพื่อฝึกตัวแยกประเภทเชิงเส้นอย่างง่ายโดยใช้ Scikit-learn ในตัวอย่างนี้ เราใช้ MLflow เพื่อติดตามไฮเปอร์พารามิเตอร์และเมทริก ลงทะเบียนโมเดลระดับการผลิต และปรับใช้โมเดลที่ได้รับการฝึกกับ SageMaker เป็นปลายทาง นอกจาก Databricks ในการประมวลผลข้อมูลแล้ว คุณสามารถทำให้ Use Case ทั้งหมดนี้เป็นแบบอัตโนมัติได้ ดังนั้นเมื่อมีการแนะนำข้อมูลใหม่ จึงสามารถติดป้ายกำกับและประมวลผลลงในแบบจำลองได้ การทำให้ไปป์ไลน์และโมเดลเหล่านี้เป็นไปโดยอัตโนมัติ ทีมวิทยาศาสตร์ข้อมูลสามารถมุ่งเน้นไปที่กรณีการใช้งานใหม่และค้นพบข้อมูลเชิงลึกมากขึ้น แทนที่จะใช้เวลาจัดการการอัปเดตข้อมูลในแต่ละวัน

ในการเริ่มต้น ให้ดูที่ ใช้ Amazon SageMaker Ground Truth เพื่อติดป้ายกำกับข้อมูล และลงทะเบียนเพื่อรับ a ทดลองใช้ Databricks บน AWS . ฟรี 14 วัน. หากต้องการเรียนรู้เพิ่มเติมเกี่ยวกับวิธีที่ Databricks ผสานรวมกับ SageMaker ตลอดจนบริการอื่นๆ ของ AWS เช่น AWS กาว และ อเมซอน Redshiftโปรดเยี่ยมชม Databricks บน AWS.

นอกจากนี้ ตรวจสอบแหล่งข้อมูลต่อไปนี้ที่ใช้ในโพสต์นี้:

ใช้สิ่งต่อไปนี้ สมุดบันทึก ที่จะเริ่มต้น

เกี่ยวกับผู้เขียน

สร้างไปป์ไลน์การวิเคราะห์ความเชื่อมั่น MLOps โดยใช้ Amazon SageMaker Ground Truth และ Databricks MLflow PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI. รูมี โอลเซ่น เป็นสถาปนิกโซลูชันในโปรแกรมคู่ค้าของ AWS เธอเชี่ยวชาญด้านโซลูชั่นไร้เซิร์ฟเวอร์และแมชชีนเลิร์นนิงในบทบาทปัจจุบัน และมีพื้นฐานด้านเทคโนโลยีการประมวลผลภาษาธรรมชาติ เธอใช้เวลาว่างส่วนใหญ่กับลูกสาวสำรวจธรรมชาติของแปซิฟิกตะวันตกเฉียงเหนือ

Igor Alekseev เป็น Partner Solution Architect ที่ AWS ในด้านข้อมูลและการวิเคราะห์ Igor ทำงานร่วมกับพันธมิตรเชิงกลยุทธ์เพื่อช่วยสร้างสถาปัตยกรรมที่ซับซ้อนและปรับให้เหมาะสมกับ AWS ก่อนร่วมงานกับ AWS ในฐานะสถาปนิกข้อมูล/โซลูชัน เขาได้ดำเนินการหลายโครงการใน Big Data รวมถึง Data Lake หลายแห่งในระบบนิเวศ Hadoop ในฐานะวิศวกรข้อมูล เขามีส่วนร่วมในการใช้ AI/ML กับการตรวจจับการฉ้อโกงและระบบอัตโนมัติในสำนักงาน โครงการของ Igor อยู่ในหลากหลายอุตสาหกรรม รวมถึงการสื่อสาร การเงิน ความปลอดภัยสาธารณะ การผลิต และการดูแลสุขภาพ ก่อนหน้านี้ Igor ทำงานเป็นวิศวกรเต็มกอง/หัวหน้าฝ่ายเทคโนโลยี

Naseer Ahmed เป็น Sr. Partner Solutions Architect ที่ Databricks ซึ่งสนับสนุนธุรกิจ AWS Naseer เชี่ยวชาญด้าน Data Warehousing, Business Intelligence, App development, Container, Serverless, Machine Learning Architectures บน AWS เขาได้รับการโหวตให้เป็น SME แห่งปี 2021 ของ Databricks และเป็นคนที่กระตือรือร้นในการเข้ารหัสลับ

ประทับเวลา: April 4, 2022

เปิดใช้งานผู้พิการทางสายตาเพื่อฟังเอกสารโดยใช้ Amazon Texttract และ Amazon Polly

คลัสเตอร์ต้นทาง:

AWS Machine Learning AWS

โหนดต้นทาง: 1197157

ประทับเวลา: Mar 3, 2022

สร้างไปป์ไลน์การวิเคราะห์ความเชื่อมั่น MLOps โดยใช้ Amazon SageMaker Ground Truth และ Databricks MLflow

เผยแพร่ซ้ำโดยเพลโต

ภาพรวมโซลูชัน

สร้างงานการติดฉลากใน SageMaker

ดาวน์โหลดชุดข้อมูลที่มีป้ายกำกับจาก Amazon S3

ตั้งค่าการทดสอบ MLflow

ปรับใช้และทดสอบโมเดลเป็นปลายทาง SageMaker

สรุป

เกี่ยวกับผู้เขียน

เพิ่มเติมจาก AWS Machine Learning AWS

ฝึกฝน ปรับแต่ง และปรับใช้วงดนตรีแบบกำหนดเองอย่างมีประสิทธิภาพโดยใช้ Amazon SageMaker | บริการเว็บอเมซอน

คำแนะนำของคุณเกี่ยวกับ AI/ML ที่ AWS re:Invent 2022

สร้างการวิเคราะห์ต่อต้านข้อเท็จจริงของการตอบสนองของข้าวโพดต่อไนโตรเจนด้วยโซลูชัน Amazon SageMaker JumpStart

ปรับใช้โมเดลภาษาขนาดใหญ่บน AWS Inferentia2 โดยใช้คอนเทนเนอร์การอนุมานโมเดลขนาดใหญ่

เรียกใช้สมุดบันทึกเป็นงานแบตช์ใน Amazon SageMaker Studio Lab

การประมวลผลเอกสารอัจฉริยะด้วยบริการ AWS AI: ตอนที่ 2

เปิดใช้งานผู้พิการทางสายตาเพื่อฟังเอกสารโดยใช้ Amazon Texttract และ Amazon Polly

เกี่ยวกับเรา

การค้นหาแนวตั้ง & Ai

ระบบปฏิบัติการ

การติดต่อ

ลงชื่อเข้าใช้