ในขณะที่องค์กรต่างๆ เปลี่ยนไปใช้แมชชีนเลิร์นนิง (ML) เพื่อขับเคลื่อนข้อมูลเชิงลึกที่ลึกซึ้งยิ่งขึ้น อุปสรรคสำคัญสองประการที่พวกเขาพบคือการติดฉลากและการจัดการวงจรชีวิต การติดฉลากคือการระบุข้อมูลและเพิ่มป้ายกำกับเพื่อให้บริบทเพื่อให้โมเดล ML สามารถเรียนรู้จากมันได้ ป้ายกำกับอาจบ่งบอกถึงวลีในไฟล์เสียง รถในรูปถ่าย หรืออวัยวะใน MRI จำเป็นต้องมีการติดฉลากข้อมูลเพื่อให้โมเดล ML สามารถทำงานกับข้อมูลได้ การจัดการวงจรชีวิตเกี่ยวข้องกับกระบวนการตั้งค่าการทดสอบ ML และการบันทึกชุดข้อมูล ไลบรารี เวอร์ชัน และโมเดลที่ใช้เพื่อให้ได้ผลลัพธ์ ทีมงานอาจทำการทดลองหลายร้อยครั้งก่อนที่จะตัดสินในแนวทางเดียว การย้อนกลับและสร้างแนวทางใหม่อาจเป็นเรื่องยากหากไม่มีการบันทึกองค์ประกอบของการทดลองนั้น
ตัวอย่างและบทช่วยสอน ML จำนวนมากเริ่มต้นด้วยชุดข้อมูลที่มีค่าเป้าหมาย อย่างไรก็ตาม ข้อมูลในโลกแห่งความเป็นจริงไม่ได้มีค่าเป้าหมายเสมอไป ตัวอย่างเช่น ในการวิเคราะห์ความรู้สึก บุคคลมักจะสามารถตัดสินว่าบทวิจารณ์นั้นเป็นไปในเชิงบวก เชิงลบ หรือแบบผสม แต่บทวิจารณ์ประกอบด้วยชุดข้อความที่ไม่มีค่าวิจารณญาณแนบมาด้วย เพื่อสร้าง การเรียนรู้ภายใต้การดูแล แบบจำลองเพื่อแก้ปัญหานี้ ชุดข้อมูลที่มีป้ายกำกับคุณภาพสูงเป็นสิ่งสำคัญ ความจริงของ Amazon SageMaker เป็นบริการการติดฉลากข้อมูลที่มีการจัดการเต็มรูปแบบ ซึ่งทำให้ง่ายต่อการสร้างชุดข้อมูลการฝึกอบรมที่มีความแม่นยำสูงสำหรับ ML
สำหรับองค์กรที่ใช้ Databricks เป็นแพลตฟอร์มข้อมูลและการวิเคราะห์บน AWS เพื่อดำเนินการแยก แปลง และโหลด (ETL) เป้าหมายสูงสุดมักจะฝึกอบรมโมเดลการเรียนรู้ภายใต้การดูแล ในโพสต์นี้ เราแสดงให้เห็นว่า Databricks ทำงานร่วมกับ Ground Truth และ . ได้อย่างไร อเมซอน SageMaker สำหรับการติดฉลากข้อมูลและการกระจายแบบจำลอง
ภาพรวมโซลูชัน
Ground Truth คือบริการการติดฉลากข้อมูลที่มีการจัดการเต็มรูปแบบ ซึ่งทำให้ง่ายต่อการสร้างชุดข้อมูลการฝึกอบรมที่มีความแม่นยำสูงสำหรับ ML ผ่านคอนโซล Ground Truth เราสามารถสร้างเวิร์กโฟลว์การติดฉลากข้อมูลแบบกำหนดเองหรือในตัวได้ในเวลาไม่กี่นาที เวิร์กโฟลว์เหล่านี้รองรับกรณีการใช้งานที่หลากหลาย รวมถึง 3D point clouds วิดีโอ รูปภาพ และข้อความ นอกจากนี้ Ground Truth ยังเสนอการติดฉลากข้อมูลอัตโนมัติ ซึ่งใช้โมเดล ML เพื่อติดป้ายกำกับข้อมูลของเรา
เราฝึกโมเดลของเราเกี่ยวกับชุดข้อมูล Amazon Customer Reviews ที่เผยแพร่ต่อสาธารณะ ในระดับสูงมีขั้นตอนดังนี้
- แยกชุดข้อมูลดิบที่จะติดป้ายกำกับและย้ายไปยัง บริการจัดเก็บข้อมูลอย่างง่ายของ Amazon (อเมซอน เอส3).
- ทำการติดฉลากโดยสร้างงานการติดฉลากใน SageMaker
- สร้างและฝึกโมเดลผู้เรียนเชิงเส้นแบบ Scikit-learn อย่างง่าย เพื่อจำแนกความรู้สึกของข้อความทบทวนบนแพลตฟอร์ม Databricks โดยใช้ตัวอย่าง สมุดบันทึก.
- ใช้ ม.ล.โฟลว์ ส่วนประกอบเพื่อสร้างและดำเนินการ MLOps และบันทึกสิ่งประดิษฐ์ของแบบจำลอง
- ปรับใช้โมเดลเป็นจุดสิ้นสุด SageMaker โดยใช้ ไลบรารี MLflow SageMaker สำหรับการอนุมานตามเวลาจริง
ไดอะแกรมต่อไปนี้แสดงการติดฉลากและการเดินทางของ ML โดยใช้ Ground Truth และ MLflow
สร้างงานการติดฉลากใน SageMaker
จากชุดข้อมูล Amazon Customer Reviews เราแยกเฉพาะส่วนของข้อความเท่านั้น เนื่องจากเรากำลังสร้างแบบจำลองการวิเคราะห์ความรู้สึก เมื่อแยกแล้ว เราจะใส่ข้อความในบัคเก็ต S3 แล้วสร้างงานการติดป้ายกำกับ Ground Truth ผ่านคอนโซล SageMaker
เกี่ยวกับ สร้างงานติดฉลาก หน้า กรอกข้อมูลในฟิลด์ที่จำเป็นทั้งหมด ส่วนหนึ่งของขั้นตอนในหน้านี้ Ground Truth อนุญาตให้คุณสร้างไฟล์รายการงาน Ground Truth ใช้ไฟล์ Manifest อินพุตเพื่อระบุจำนวนไฟล์หรืออ็อบเจ็กต์ในงานการติดฉลาก เพื่อให้จำนวนงานที่ถูกต้องถูกสร้างขึ้นและส่งไปยังผู้ติดฉลากที่เป็นมนุษย์ (หรือเครื่องจักร) ไฟล์จะถูกบันทึกโดยอัตโนมัติในบัคเก็ต S3 ขั้นตอนต่อไปคือการระบุประเภทงานและการเลือกงาน กรณีการใช้งานนี้ เราเลือก ข้อความ เป็นหมวดหมู่งานและ การจัดประเภทข้อความ ด้วยป้ายกำกับเดียวสำหรับการเลือกงาน ซึ่งหมายความว่าข้อความรีวิวจะมีความรู้สึกเดียว: เชิงบวก เชิงลบ หรือเป็นกลาง
สุดท้าย เราเขียนคำแนะนำง่ายๆ แต่กระชับสำหรับผู้ติดป้ายกำกับเกี่ยวกับวิธีติดป้ายกำกับข้อมูลข้อความ คำแนะนำจะแสดงอยู่ในเครื่องมือการติดฉลาก และคุณสามารถเลือกตรวจสอบมุมมองของผู้ใส่คำอธิบายประกอบได้ในขณะนี้ สุดท้าย เราส่งงานและติดตามความคืบหน้าบนคอนโซล
ในขณะที่งานการติดฉลากอยู่ในระหว่างดำเนินการ เรายังสามารถดูข้อมูลที่ติดฉลากบน เอาท์พุต แท็บ เราสามารถติดตามตรวจสอบข้อความและฉลากแต่ละรายการ และถ้างานทำโดยมนุษย์หรือเครื่องจักร เราสามารถเลือกงานการติดฉลากได้ 100% ที่มนุษย์ต้องทำหรือเลือกคำอธิบายประกอบของเครื่อง ซึ่งจะช่วยเร่งงานและลดต้นทุนแรงงาน
เมื่องานเสร็จสมบูรณ์ สรุปงานการติดฉลากจะมีลิงก์ไปยังรายการผลลัพธ์และชุดข้อมูลที่ติดฉลาก เราสามารถไปที่ Amazon S3 และดาวน์โหลดทั้งคู่จากโฟลเดอร์บัคเก็ต S3 ของเราได้เช่นกัน
ในขั้นตอนต่อไป เราใช้โน้ตบุ๊ก Databricks ม.ล.โฟลว์และชุดข้อมูลที่ติดป้ายกำกับโดย Ground Truth เพื่อสร้าง a วิทย์ - เรียน แบบ
ดาวน์โหลดชุดข้อมูลที่มีป้ายกำกับจาก Amazon S3
เราเริ่มต้นด้วยการดาวน์โหลดชุดข้อมูลที่ติดป้ายกำกับจาก Amazon S3 รายการจะถูกบันทึกในรูปแบบ JSON และเราโหลดลงใน Spark DataFrame ใน Databricks สำหรับการฝึกอบรมรูปแบบการวิเคราะห์ความเชื่อมั่น เราต้องการเพียงข้อความตรวจสอบและความรู้สึกที่ได้รับการอธิบายโดยงานการติดฉลาก Ground Truth เท่านั้น เราใช้ select() เพื่อแยกคุณสมบัติทั้งสองนี้ จากนั้นเราจะแปลงชุดข้อมูลจาก PySpark DataFrame เป็น Pandas DataFrame เนื่องจากอัลกอริธึม Scikit-learn ต้องใช้รูปแบบ Pandas DataFrame
ต่อไปเราใช้ Scikit-learn CountVectorizer
เพื่อแปลงข้อความรีวิวเป็นเวกเตอร์ bigram โดยการตั้งค่า ngram_range
ค่าสูงสุด 2 CountVectorizer
แปลงข้อความเป็นเมทริกซ์ของการนับโทเค็น จากนั้นเราก็ใช้ TfidfTransformer
เพื่อแปลงเวกเตอร์ bigram เป็นรูปแบบคำความถี่-ผกผันความถี่เอกสาร (TF-IDF)
เราเปรียบเทียบคะแนนความแม่นยำสำหรับการฝึกที่ทำกับเวกเตอร์ bigram กับ bigram ด้วย TF-IDF TF-IDF เป็นการวัดทางสถิติที่ประเมินความเกี่ยวข้องของคำกับเอกสารในชุดเอกสาร เนื่องจากข้อความทบทวนมีแนวโน้มที่จะค่อนข้างสั้น เราจึงสามารถสังเกตได้ว่า TF-IDF ส่งผลต่อประสิทธิภาพของแบบจำลองการคาดการณ์อย่างไร
ตั้งค่าการทดสอบ MLflow
MLflow ได้รับการพัฒนาโดย Databricks และตอนนี้กลายเป็น โครงการโอเพ่นซอร์ส. MLflow จัดการวงจรชีวิต ML เพื่อให้คุณสามารถติดตาม สร้างใหม่ และเผยแพร่การทดสอบได้อย่างง่ายดาย
ในการตั้งค่าการทดสอบ MLflow เราใช้ mlflow.sklearn.autolog()
เพื่อเปิดใช้งานการบันทึกไฮเปอร์พารามิเตอร์ เมทริก และอาร์ติแฟกต์ของโมเดลโดยอัตโนมัติเมื่อไรก็ตาม estimator.fit()
, estimator.fit_predict()
, และ estimator.fit_transform()
เรียกว่า. หรือคุณสามารถดำเนินการด้วยตนเองโดยโทร mlflow.log_param()
และ mlflow.log_metric()
.
เราปรับชุดข้อมูลที่แปลงแล้วให้เข้ากับตัวแยกประเภทเชิงเส้นด้วยการเรียนรู้ Stochastic Gradient Descent (SGD) ด้วย SGD การไล่ระดับสีของการสูญเสียจะประมาณครั้งละหนึ่งตัวอย่าง และแบบจำลองจะได้รับการอัปเดตไปพร้อมกับตารางความแข็งแกร่งที่ลดลง
ชุดข้อมูลทั้งสองที่เราเตรียมไว้ก่อนหน้านี้จะถูกส่งต่อไปยัง train_and_show_scores()
ฟังก์ชั่นสำหรับการฝึกอบรม หลังจากการฝึกอบรม เราจำเป็นต้องลงทะเบียนแบบจำลองและบันทึกสิ่งประดิษฐ์ เราใช้ mlflow.sklearn.log_model()
จะทำเช่นนั้น
ก่อนปรับใช้ เราจะดูผลลัพธ์ของการทดสอบและเลือกการทดสอบสองรายการ (การทดสอบหนึ่งสำหรับ bigram และอีกรายการสำหรับ bigram ที่มี TF-IDF) เพื่อเปรียบเทียบ ในกรณีการใช้งานของเรา โมเดลที่สองที่ฝึกด้วย bigram TF-IDF ทำงานได้ดีขึ้นเล็กน้อย ดังนั้นเราจึงเลือกโมเดลนั้นเพื่อปรับใช้ หลังจากลงทะเบียนโมเดลแล้ว เราปรับใช้โมเดล โดยเปลี่ยนขั้นตอนของโมเดลเป็นการผลิต เราสามารถทำได้บน MLflow UI หรือในโค้ดโดยใช้ transition_model_version_stage()
.
ปรับใช้และทดสอบโมเดลเป็นปลายทาง SageMaker
ก่อนที่เราจะปรับใช้โมเดลที่ได้รับการฝึกอบรม เราจำเป็นต้องสร้างคอนเทนเนอร์ Docker เพื่อโฮสต์โมเดลใน SageMaker เราทำได้โดยใช้คำสั่ง MLflow ง่ายๆ ที่สร้างและผลักคอนเทนเนอร์ไปที่ การลงทะเบียน Amazon Elastic Container (Amazon ECR) ในบัญชี AWS ของเรา
ตอนนี้เราพบ URI ของรูปภาพบนคอนโซล Amazon ECR แล้ว เราส่ง URI ของรูปภาพเป็น an image_url
พารามิเตอร์และการใช้งาน DEPLOYMENT_MODE_CREATE
สำหรับพารามิเตอร์โหมด หากนี่คือการปรับใช้ใหม่ หากอัปเดตปลายทางที่มีอยู่ด้วยเวอร์ชันใหม่ ให้ใช้ DEPLOYMENT_MODE_REPLACE
.
ในการทดสอบจุดสิ้นสุด SageMaker เราได้สร้างฟังก์ชันที่ใช้ชื่อจุดสิ้นสุดและป้อนข้อมูลเป็นพารามิเตอร์
สรุป
ในโพสต์นี้ เราแสดงให้คุณเห็นถึงวิธีใช้ Ground Truth เพื่อติดป้ายกำกับชุดข้อมูลดิบ และใช้ข้อมูลที่ติดป้ายกำกับเพื่อฝึกตัวแยกประเภทเชิงเส้นอย่างง่ายโดยใช้ Scikit-learn ในตัวอย่างนี้ เราใช้ MLflow เพื่อติดตามไฮเปอร์พารามิเตอร์และเมทริก ลงทะเบียนโมเดลระดับการผลิต และปรับใช้โมเดลที่ได้รับการฝึกกับ SageMaker เป็นปลายทาง นอกจาก Databricks ในการประมวลผลข้อมูลแล้ว คุณสามารถทำให้ Use Case ทั้งหมดนี้เป็นแบบอัตโนมัติได้ ดังนั้นเมื่อมีการแนะนำข้อมูลใหม่ จึงสามารถติดป้ายกำกับและประมวลผลลงในแบบจำลองได้ การทำให้ไปป์ไลน์และโมเดลเหล่านี้เป็นไปโดยอัตโนมัติ ทีมวิทยาศาสตร์ข้อมูลสามารถมุ่งเน้นไปที่กรณีการใช้งานใหม่และค้นพบข้อมูลเชิงลึกมากขึ้น แทนที่จะใช้เวลาจัดการการอัปเดตข้อมูลในแต่ละวัน
ในการเริ่มต้น ให้ดูที่ ใช้ Amazon SageMaker Ground Truth เพื่อติดป้ายกำกับข้อมูล และลงทะเบียนเพื่อรับ a ทดลองใช้ Databricks บน AWS . ฟรี 14 วัน. หากต้องการเรียนรู้เพิ่มเติมเกี่ยวกับวิธีที่ Databricks ผสานรวมกับ SageMaker ตลอดจนบริการอื่นๆ ของ AWS เช่น AWS กาว และ อเมซอน Redshiftโปรดเยี่ยมชม Databricks บน AWS.
นอกจากนี้ ตรวจสอบแหล่งข้อมูลต่อไปนี้ที่ใช้ในโพสต์นี้:
ใช้สิ่งต่อไปนี้ สมุดบันทึก ที่จะเริ่มต้น
เกี่ยวกับผู้เขียน
รูมี โอลเซ่น เป็นสถาปนิกโซลูชันในโปรแกรมคู่ค้าของ AWS เธอเชี่ยวชาญด้านโซลูชั่นไร้เซิร์ฟเวอร์และแมชชีนเลิร์นนิงในบทบาทปัจจุบัน และมีพื้นฐานด้านเทคโนโลยีการประมวลผลภาษาธรรมชาติ เธอใช้เวลาว่างส่วนใหญ่กับลูกสาวสำรวจธรรมชาติของแปซิฟิกตะวันตกเฉียงเหนือ
Igor Alekseev เป็น Partner Solution Architect ที่ AWS ในด้านข้อมูลและการวิเคราะห์ Igor ทำงานร่วมกับพันธมิตรเชิงกลยุทธ์เพื่อช่วยสร้างสถาปัตยกรรมที่ซับซ้อนและปรับให้เหมาะสมกับ AWS ก่อนร่วมงานกับ AWS ในฐานะสถาปนิกข้อมูล/โซลูชัน เขาได้ดำเนินการหลายโครงการใน Big Data รวมถึง Data Lake หลายแห่งในระบบนิเวศ Hadoop ในฐานะวิศวกรข้อมูล เขามีส่วนร่วมในการใช้ AI/ML กับการตรวจจับการฉ้อโกงและระบบอัตโนมัติในสำนักงาน โครงการของ Igor อยู่ในหลากหลายอุตสาหกรรม รวมถึงการสื่อสาร การเงิน ความปลอดภัยสาธารณะ การผลิต และการดูแลสุขภาพ ก่อนหน้านี้ Igor ทำงานเป็นวิศวกรเต็มกอง/หัวหน้าฝ่ายเทคโนโลยี
Naseer Ahmed เป็น Sr. Partner Solutions Architect ที่ Databricks ซึ่งสนับสนุนธุรกิจ AWS Naseer เชี่ยวชาญด้าน Data Warehousing, Business Intelligence, App development, Container, Serverless, Machine Learning Architectures บน AWS เขาได้รับการโหวตให้เป็น SME แห่งปี 2021 ของ Databricks และเป็นคนที่กระตือรือร้นในการเข้ารหัสลับ
- คอยน์สมาร์ท การแลกเปลี่ยน Bitcoin และ Crypto ที่ดีที่สุดในยุโรป
- เพลโตบล็อคเชน Web3 Metaverse ข่าวกรอง ขยายความรู้. เข้าฟรี
- คริปโตฮอว์ก เรดาร์ Altcoin ทดลองฟรี.
- ที่มา: https://aws.amazon.com/blogs/machine-learning/build-an-mlops-sentiment-analysis-pipeline-using-amazon-sagemaker-ground-truth-and-databricks-mlflow/
- "
- 100
- 2021
- 3d
- เกี่ยวกับเรา
- ลงชื่อเข้าใช้
- ถูกต้อง
- นอกจากนี้
- ขั้นตอนวิธี
- ทั้งหมด
- อเมซอน
- การวิเคราะห์
- การวิเคราะห์
- app
- การพัฒนาแอพ
- การประยุกต์ใช้
- เข้าใกล้
- เสียง
- รถยนต์
- อัตโนมัติ
- ใช้ได้
- AWS
- พื้นหลัง
- รากฐาน
- ข้อมูลขนาดใหญ่
- สร้าง
- การก่อสร้าง
- สร้าง
- built-in
- ธุรกิจ
- ระบบธุรกิจอัจฉริยะ
- รถ
- กรณี
- หมวดหมู่
- Choose
- การจัดหมวดหมู่
- รหัส
- ชุด
- คมนาคม
- ซับซ้อน
- ปลอบใจ
- ภาชนะ
- มี
- ค่าใช้จ่าย
- ที่สร้างขึ้น
- การสร้าง
- การเข้ารหัสลับ
- ปัจจุบัน
- ประเพณี
- ข้อมูล
- วิทยาศาสตร์ข้อมูล
- ลึก
- ปรับใช้
- ปรับใช้
- การใช้งาน
- การตรวจพบ
- พัฒนา
- พัฒนาการ
- ยาก
- การกระจาย
- นักเทียบท่า
- เอกสาร
- ไม่
- ขับรถ
- อย่างง่ายดาย
- ระบบนิเวศ
- ทำให้สามารถ
- ปลายทาง
- วิศวกร
- จำเป็น
- ประมาณ
- ตัวอย่าง
- การทดลอง
- คุณสมบัติ
- สาขา
- ในที่สุด
- เงินทุน
- พอดี
- โฟกัส
- ดังต่อไปนี้
- รูป
- การหลอกลวง
- ฟรี
- เต็ม
- ฟังก์ชัน
- สร้าง
- เป้าหมาย
- ไป
- การดูแลสุขภาพ
- จุดสูง
- อย่างสูง
- สรุป ความน่าเชื่อถือของ Olymp Trade?
- ทำอย่างไร
- HTTPS
- เป็นมนุษย์
- มนุษย์
- ร้อย
- ประจำตัว
- แยกแยะ
- ภาพ
- การดำเนินการ
- รวมทั้ง
- อุตสาหกรรม
- อินพุต
- ข้อมูลเชิงลึก
- Intelligence
- ร่วมมือ
- IT
- การสัมภาษณ์
- งาน
- คีย์
- การติดฉลาก
- ป้ายกำกับ
- แรงงาน
- ภาษา
- นำ
- เรียนรู้
- การเรียนรู้
- ชั้น
- ห้องสมุด
- การเชื่อมโยง
- โหลด
- เครื่อง
- เรียนรู้เครื่อง
- ทำ
- ทำให้
- การจัดการ
- การจัดการ
- การจัดการ
- ด้วยมือ
- การผลิต
- มดลูก
- วัด
- ตัวชี้วัด
- ผสม
- ML
- แบบ
- โมเดล
- การตรวจสอบ
- ข้อมูลเพิ่มเติม
- มากที่สุด
- ย้าย
- โดยธรรมชาติ
- ธรรมชาติ
- สมุดบันทึก
- จำนวน
- เสนอ
- ใบสั่ง
- องค์กร
- อื่นๆ
- แปซิฟิก
- หุ้นส่วน
- พาร์ทเนอร์
- การปฏิบัติ
- คน
- เวที
- จุด
- บวก
- ปัญหา
- กระบวนการ
- การผลิต
- โครงการ
- โครงการ
- ให้
- สาธารณะ
- ประกาศ
- ดิบ
- เรียลไทม์
- บันทึก
- ทะเบียน
- ลงทะเบียน
- ตรงประเด็น
- จำเป็นต้องใช้
- แหล่งข้อมูล
- ผลสอบ
- ทบทวน
- รีวิว
- วิ่ง
- วิ่ง
- ความปลอดภัย
- วิทยาศาสตร์
- ความรู้สึก
- serverless
- บริการ
- บริการ
- ชุด
- การตั้งค่า
- สั้น
- ง่าย
- So
- ทางออก
- โซลูชัน
- แก้
- ความเชี่ยวชาญ
- การใช้จ่าย
- กอง
- ระยะ
- เริ่มต้น
- ข้อความที่เริ่ม
- ทางสถิติ
- การเก็บรักษา
- ยุทธศาสตร์
- สนับสนุน
- ที่สนับสนุน
- เป้า
- งาน
- ทีม
- เทคโนโลยี
- ทดสอบ
- ตลอด
- เวลา
- โทเค็น
- เครื่องมือ
- ลู่
- การฝึกอบรม
- แปลง
- การทดลอง
- บทเรียน
- ui
- ที่สุด
- เปิดเผย
- การปรับปรุง
- ใช้
- มักจะ
- ความคุ้มค่า
- ความหลากหลาย
- วีดีโอ
- รายละเอียด
- ว่า
- ไม่มี
- งาน
- ทำงาน
- โรงงาน
- ปี