ขณะนี้ Amazon SageMaker JumpStart มีสมุดบันทึก Amazon Comprehend สำหรับการจัดหมวดหมู่แบบกำหนดเองและการตรวจจับเอนทิตีแบบกำหนดเอง PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

ตอนนี้ Amazon SageMaker JumpStart มีสมุดบันทึก Amazon Comprehend สำหรับการจัดหมวดหมู่แบบกำหนดเองและการตรวจจับเอนทิตีแบบกำหนดเอง

เข้าใจ Amazon เป็นบริการประมวลผลภาษาธรรมชาติ (NLP) ที่ใช้การเรียนรู้ของเครื่อง (ML) เพื่อค้นหาข้อมูลเชิงลึกจากข้อความ Amazon Comprehend นำเสนอคุณสมบัติที่ปรับแต่งได้ การรับรู้เอนทิตีแบบกำหนดเอง, การจำแนกประเภทที่กำหนดเองและ API ที่ผ่านการฝึกอบรมล่วงหน้า เช่น การสกัดวลีสำคัญ การวิเคราะห์ความรู้สึก การจดจำเอนทิตี และอื่นๆ เพื่อให้คุณสามารถรวม NLP เข้ากับแอปพลิเคชันของคุณได้อย่างง่ายดาย

เราเพิ่งเพิ่มสมุดบันทึกที่เกี่ยวข้องกับ Amazon Comprehend ใน Amazon SageMaker JumpStart สมุดบันทึกที่สามารถช่วยคุณเริ่มต้นได้อย่างรวดเร็วโดยใช้ตัวแยกประเภทแบบกำหนดเองของ Amazon Comprehend และตัวจำแนกเอนทิตีแบบกำหนดเอง คุณสามารถใช้การจัดประเภทแบบกำหนดเองเพื่อจัดระเบียบเอกสารเป็นหมวดหมู่ (คลาส) ที่คุณกำหนด การจดจำเอนทิตีแบบกำหนดเองขยายขีดความสามารถของ API การตรวจจับเอนทิตีที่ได้รับการฝึกอบรมล่วงหน้าของ Amazon Comprehend โดยช่วยให้คุณระบุประเภทเอนทิตีที่ไม่ซ้ำกับโดเมนหรือธุรกิจของคุณที่ไม่ได้อยู่ในประเภททั่วไปที่กำหนดไว้ล่วงหน้า ประเภทนิติบุคคล.

ในโพสต์นี้ เราจะแสดงวิธีใช้ JumpStart เพื่อสร้างแบบจำลองการจำแนกประเภทแบบกำหนดเองของ Amazon Comprehend และการตรวจจับเอนทิตีแบบกำหนดเอง ซึ่งเป็นส่วนหนึ่งของความต้องการ NLP ขององค์กรของคุณ

SageMaker JumpStart

พื้นที่ สตูดิโอ Amazon SageMaker หน้า Landing Page มีตัวเลือกในการใช้ JumpStart JumpStart เป็นวิธีที่รวดเร็วในการเริ่มต้นโดยจัดเตรียมแบบจำลองที่ผ่านการฝึกอบรมล่วงหน้าสำหรับปัญหาประเภทต่างๆ คุณสามารถฝึกและปรับแต่งโมเดลเหล่านี้ได้ JumpStart ยังมีแหล่งข้อมูลอื่นๆ เช่น สมุดบันทึก บล็อก และวิดีโอ

สมุดบันทึก JumpStart เป็นโค้ดตัวอย่างที่สำคัญซึ่งคุณสามารถใช้เป็นจุดเริ่มต้นเพื่อเริ่มต้นได้อย่างรวดเร็ว ขณะนี้ เรามีสมุดบันทึกให้คุณมากกว่า 40 รายการ ซึ่งคุณสามารถใช้ตามที่เป็นอยู่หรือปรับแต่งได้ตามต้องการ คุณสามารถค้นหาสมุดบันทึกของคุณได้โดยใช้การค้นหาหรือแผงมุมมองแบบแท็บ หลังจากที่คุณพบสมุดบันทึกที่คุณต้องการใช้ คุณสามารถนำเข้าสมุดบันทึก ปรับแต่งตามความต้องการของคุณ และเลือกโครงสร้างพื้นฐานและสภาพแวดล้อมเพื่อเรียกใช้สมุดบันทึก

เริ่มต้นใช้งานสมุดบันทึก JumpStart

หากต้องการเริ่มต้นใช้งาน JumpStart ให้ไปที่ อเมซอน SageMaker คอนโซลและเปิด Studio อ้างถึง เริ่มต้นกับ SageMaker Studio สำหรับคำแนะนำในการเริ่มต้นใช้งาน Studio จากนั้นทำตามขั้นตอนต่อไปนี้:

  1. ใน Studio ไปที่หน้าเปิดตัวของ JumpStart แล้วเลือก ไปที่ SageMaker JumpStart.

คุณได้รับข้อเสนอหลายวิธีในการค้นหา คุณสามารถใช้แท็บด้านบนเพื่อไปยังสิ่งที่คุณต้องการ หรือใช้ช่องค้นหาดังที่แสดงในภาพหน้าจอต่อไปนี้

  1. หากต้องการค้นหาสมุดบันทึกเราไปที่ โน๊ตบุ๊ค แถบ

ไปที่แท็บสมุดบันทึก

ในขณะที่เขียน JumpStart มีสมุดบันทึก 47 เล่ม คุณสามารถใช้ตัวกรองเพื่อค้นหาสมุดบันทึกที่เกี่ยวข้องกับ Amazon Comprehend

  1. เกี่ยวกับ ชนิดของเนื้อหา เลือกเมนูแบบเลื่อนลง สมุดบันทึก.

ดังที่คุณเห็นในภาพหน้าจอต่อไปนี้ ขณะนี้เรามีสมุดบันทึก Amazon Comprehend สองเครื่อง

ค้นหาสมุดบันทึก Comprehend

ในส่วนต่อไปนี้ เราจะสำรวจสมุดบันทึกทั้งสอง

Amazon Comprehend ลักษณนามที่กำหนดเอง

ในสมุดบันทึกนี้ เราสาธิตวิธีการใช้ API ลักษณนามที่กำหนดเอง เพื่อสร้างแบบจำลองการจัดหมวดหมู่เอกสาร

ตัวแยกประเภทแบบกำหนดเองคือคุณสมบัติ Amazon Comprehend ที่มีการจัดการเต็มรูปแบบ ซึ่งช่วยให้คุณสร้างโมเดลการจัดประเภทข้อความแบบกำหนดเองซึ่งเป็นเอกลักษณ์เฉพาะสำหรับธุรกิจของคุณ แม้ว่าคุณจะมีความเชี่ยวชาญด้าน ML น้อยหรือไม่มีเลยก็ตาม ตัวแยกประเภทแบบกำหนดเองสร้างขึ้นจากความสามารถที่มีอยู่ของ Amazon Comprehend ซึ่งได้รับการฝึกอบรมแล้วในเอกสารนับสิบล้าน เป็นนามธรรมของความซับซ้อนที่จำเป็นในการสร้างแบบจำลองการจัดประเภท NLP ลักษณนามที่กำหนดเองจะโหลดและตรวจสอบข้อมูลการฝึกโดยอัตโนมัติ เลือกอัลกอริทึม ML ที่เหมาะสม ฝึกโมเดลของคุณ ค้นหาไฮเปอร์พารามิเตอร์ที่เหมาะสมที่สุด ทดสอบโมเดล และให้เมตริกประสิทธิภาพของโมเดล ตัวแยกประเภทแบบกำหนดเองของ Amazon Comprehend ยังมีคอนโซลที่ใช้งานง่ายสำหรับเวิร์กโฟลว์ ML ทั้งหมด ซึ่งรวมถึงการติดฉลากข้อความโดยใช้ ความจริงของ Amazon SageMakerการฝึกอบรมและการปรับใช้แบบจำลอง และการแสดงภาพผลการทดสอบ ด้วยตัวแยกประเภทที่กำหนดเองของ Amazon Comprehend คุณสามารถสร้างโมเดลต่อไปนี้:

  • แบบจำลองการจัดประเภทหลายชั้น – ในการจำแนกประเภทหลายชั้น แต่ละเอกสารสามารถมีหนึ่งชั้นและชั้นเดียวเท่านั้นที่กำหนดให้กับมัน แต่ละชั้นเรียนจะไม่เกิดร่วมกัน ตัวอย่างเช่น ภาพยนตร์สามารถจัดประเภทเป็นสารคดีหรือนิยายวิทยาศาสตร์ แต่ไม่ใช่ทั้งสองอย่างพร้อมกัน
  • รูปแบบการจำแนกประเภทหลายฉลาก – ในการจำแนกประเภทหลายป้ายกำกับ แต่ละคลาสจะแสดงหมวดหมู่ที่แตกต่างกัน แต่หมวดหมู่เหล่านี้มีความเกี่ยวข้องกันและไม่แยกออกจากกัน ด้วยเหตุนี้ แต่ละเอกสารจึงมีอย่างน้อยหนึ่งคลาสที่กำหนดให้กับมัน แต่สามารถมีมากกว่านั้นได้ ตัวอย่างเช่น ภาพยนตร์สามารถเป็นภาพยนตร์แอคชั่น หรืออาจเป็นภาพยนตร์แอคชั่น ภาพยนตร์นิยายวิทยาศาสตร์ และตลกในเวลาเดียวกันก็ได้

สมุดบันทึกนี้ไม่จำเป็นต้องมีความเชี่ยวชาญด้าน ML ในการฝึกโมเดลด้วยชุดข้อมูลตัวอย่างหรือชุดข้อมูลเฉพาะสำหรับธุรกิจของคุณเอง คุณสามารถใช้การทำงานของ API ที่กล่าวถึงในสมุดบันทึกนี้ในแอปพลิเคชันของคุณเอง

ตัวรู้จำเอนทิตีแบบกำหนดเองของ Amazon

ในสมุดบันทึกนี้ เราสาธิตวิธีการใช้ API การจดจำเอนทิตีแบบกำหนดเอง เพื่อสร้างแบบจำลองการรับรู้เอนทิตี

การจดจำเอนทิตีแบบกำหนดเองขยายขีดความสามารถของ Amazon Comprehend โดยช่วยคุณระบุประเภทเอนทิตีเฉพาะของคุณที่ไม่ได้อยู่ในประเภทเอนทิตีทั่วไปที่กำหนดไว้ล่วงหน้า ซึ่งหมายความว่าคุณสามารถวิเคราะห์เอกสารและแยกเอนทิตี เช่น รหัสผลิตภัณฑ์หรือเอนทิตีเฉพาะธุรกิจที่เหมาะกับความต้องการเฉพาะของคุณได้

การสร้างตัวจำแนกเอนทิตีแบบกำหนดเองที่แม่นยำด้วยตัวคุณเองอาจเป็นกระบวนการที่ซับซ้อน โดยต้องมีการเตรียมเอกสารการฝึกอบรมที่มีคำอธิบายประกอบชุดใหญ่ด้วยตนเอง และเลือกอัลกอริทึมและพารามิเตอร์ที่เหมาะสมสำหรับการฝึกโมเดล Amazon Comprehend ช่วยลดความซับซ้อนด้วยการให้คำอธิบายประกอบอัตโนมัติและการพัฒนาแบบจำลองเพื่อสร้างแบบจำลองการจดจำเอนทิตีที่กำหนดเอง

สมุดบันทึกตัวอย่างใช้ชุดข้อมูลการฝึกอบรมในรูปแบบ CSV และเรียกใช้การอนุมานกับการป้อนข้อความ Amazon Comprehend ยังรองรับกรณีการใช้งานขั้นสูงที่ใช้ข้อมูลคำอธิบายประกอบของ Ground Truth สำหรับการฝึกอบรม และอนุญาตให้คุณรันการอนุมานบนเอกสาร PDF และ Word ได้โดยตรง สำหรับข้อมูลเพิ่มเติม โปรดดูที่ สร้างตัวจำแนกเอนทิตีแบบกำหนดเองสำหรับเอกสาร PDF โดยใช้ Amazon Comprehend.

Amazon Comprehend ได้ลดขีดจำกัดของคำอธิบายประกอบและช่วยให้คุณได้รับผลลัพธ์ที่เสถียรมากขึ้น โดยเฉพาะอย่างยิ่งสำหรับตัวอย่างย่อยไม่กี่ภาพ สำหรับข้อมูลเพิ่มเติมเกี่ยวกับการปรับปรุงนี้ โปรดดูที่ Amazon Comprehend ประกาศขีดจำกัดคำอธิบายประกอบที่ต่ำกว่าสำหรับการรู้จำเอนทิตีแบบกำหนดเอง.

สมุดบันทึกนี้ไม่จำเป็นต้องมีความเชี่ยวชาญด้าน ML ในการฝึกโมเดลด้วยชุดข้อมูลตัวอย่างหรือชุดข้อมูลเฉพาะสำหรับธุรกิจของคุณเอง คุณสามารถใช้การทำงานของ API ที่กล่าวถึงในสมุดบันทึกนี้ในแอปพลิเคชันของคุณเอง

ใช้ ปรับแต่ง และปรับใช้สมุดบันทึก Amazon Comprehend JumpStart

หลังจากที่คุณเลือกสมุดบันทึก Amazon Comprehend ที่คุณต้องการใช้ ให้เลือก นำเข้าโน๊ตบุ๊ค. ขณะที่คุณทำเช่นนั้น คุณจะเห็นเคอร์เนลของโน้ตบุ๊กเริ่มต้นขึ้น

นำเข้าโน๊ตบุ๊ค

การนำเข้าโน้ตบุ๊กของคุณจะทริกเกอร์การเลือกอินสแตนซ์ของโน้ตบุ๊ก เคอร์เนล และอิมเมจที่ใช้ในการเรียกใช้โน้ตบุ๊ก หลังจากจัดเตรียมโครงสร้างพื้นฐานเริ่มต้นแล้ว คุณสามารถเปลี่ยนการเลือกตามความต้องการของคุณ

สมุดบันทึกใน SageMaker Studio ของคุณ

ตอนนี้ ไปที่โครงร่างของสมุดบันทึกและอ่านส่วนต่าง ๆ อย่างรอบคอบสำหรับการตั้งค่าข้อกำหนดเบื้องต้น การตั้งค่าข้อมูล การฝึกแบบจำลอง การเรียกใช้การอนุมาน และการหยุดแบบจำลอง อย่าลังเลที่จะปรับแต่งรหัสที่สร้างขึ้นตามความต้องการของคุณ

ตามความต้องการของคุณ คุณอาจต้องการปรับแต่งส่วนต่อไปนี้:

  • สิทธิ์ – สำหรับแอปพลิเคชันที่ใช้งานจริง เราขอแนะนำให้จำกัดนโยบายการเข้าถึงเฉพาะสิ่งที่จำเป็นในการเรียกใช้แอปพลิเคชันเท่านั้น สามารถจำกัดสิทธิ์ตามกรณีการใช้งาน เช่น การฝึกอบรมหรือการอนุมาน และชื่อทรัพยากรเฉพาะ เช่น ชื่อเต็ม บริการจัดเก็บข้อมูลอย่างง่ายของ Amazon ชื่อบัคเก็ต (Amazon S3) หรือรูปแบบชื่อบัคเก็ต S3 นอกจากนี้ คุณควรจำกัดการเข้าถึงตัวแยกประเภทแบบกำหนดเองหรือการดำเนินการของ SageMaker เฉพาะที่แอปพลิเคชันของคุณต้องการ
  • ข้อมูลและตำแหน่ง – สมุดบันทึกตัวอย่างให้ข้อมูลตัวอย่างและตำแหน่ง S3 แก่คุณ ตามความต้องการของคุณ คุณอาจใช้ข้อมูลของคุณเองสำหรับการฝึกอบรม การตรวจสอบความถูกต้อง และการทดสอบ และใช้ตำแหน่ง S3 ต่างๆ ได้ตามต้องการ ในทำนองเดียวกัน เมื่อโมเดลถูกสร้างขึ้น คุณสามารถเลือกเก็บโมเดลไว้ในตำแหน่งต่างๆ ได้ เพียงตรวจสอบให้แน่ใจว่าคุณได้ให้สิทธิ์ที่ถูกต้องในการเข้าถึงบัคเก็ต S3
  • ขั้นตอนก่อนการประมวลผล – หากคุณใช้ข้อมูลที่แตกต่างกันสำหรับการฝึกอบรมและการทดสอบ คุณอาจต้องการปรับขั้นตอนก่อนการประมวลผลตามความต้องการของคุณ
  • การทดสอบข้อมูล – คุณสามารถนำข้อมูลอนุมานของคุณเองมาทดสอบได้
  • ทำความสะอาด – ลบทรัพยากรที่เปิดใช้โดยโน้ตบุ๊กเพื่อหลีกเลี่ยงค่าใช้จ่ายที่เกิดซ้ำ

สรุป

ในโพสต์นี้ เราแสดงวิธีใช้ JumpStart เพื่อเรียนรู้และติดตามอย่างรวดเร็วโดยใช้ Amazon Comprehend API โดยทำให้สะดวกต่อการค้นหาและเรียกใช้สมุดบันทึกที่เกี่ยวข้องกับ Amazon Comprehend จาก Studio ในขณะที่มีตัวเลือกในการแก้ไขโค้ดตามต้องการ สมุดบันทึกใช้ชุดข้อมูลตัวอย่างพร้อมประกาศเกี่ยวกับผลิตภัณฑ์ AWS และบทความข่าวตัวอย่าง คุณสามารถใช้สมุดบันทึกนี้เพื่อเรียนรู้วิธีใช้ Amazon Comprehend API ในสมุดบันทึก Python หรือคุณอาจใช้เป็นจุดเริ่มต้นและขยายรหัสเพิ่มเติมสำหรับข้อกำหนดเฉพาะและการปรับใช้การผลิตของคุณ

คุณสามารถเริ่มใช้ JumpStart และใช้ประโยชน์จากโน้ตบุ๊กกว่า 40 รายการในหัวข้อต่างๆ ในทุกภูมิภาคที่มี Studio ให้บริการโดยไม่มีค่าใช้จ่ายเพิ่มเติม


เกี่ยวกับผู้เขียน

ผู้แต่ง - ลาน่า จางลาน่า จาง เป็น Sr. Solutions Architect ที่ทีม AWS WWSO AI Services ซึ่งมีความเชี่ยวชาญด้าน AI และ ML สำหรับการกลั่นกรองเนื้อหาและการจดจำ เธอมีความกระตือรือร้นในการส่งเสริมบริการ AI ของ AWS และช่วยลูกค้าเปลี่ยนโฉมโซลูชันทางธุรกิจของตน

ผู้แต่ง - มีนัคชิสุนดาราม ธันดาวรายันมีนคชีสันดาราม ทันดาวารายัน เป็นผู้เชี่ยวชาญ AI/ML อาวุโสของ AWS เขาช่วยบัญชีเชิงกลยุทธ์ไฮเทคในการเดินทางของ AI และ ML เขาหลงใหลเกี่ยวกับ AI ที่ขับเคลื่อนด้วยข้อมูลเป็นอย่างมาก

ผู้แต่ง - รัชนา ชฎารจนาชาดา เป็น Principal Solution Architect AI/ML ในบัญชีเชิงกลยุทธ์ที่ AWS Rachna เป็นคนมองโลกในแง่ดีที่เชื่อว่าการใช้ AI อย่างมีจริยธรรมและมีความรับผิดชอบสามารถปรับปรุงสังคมในอนาคตและนำความเจริญทางเศรษฐกิจและสังคมมาให้ ในเวลาว่าง รัชนาชอบใช้เวลาอยู่กับครอบครัว เดินป่า และฟังเพลง

ประทับเวลา:

เพิ่มเติมจาก AWS Machine Learning AWS