Amazon Comprehend ประกาศขีดจำกัดของคำอธิบายประกอบที่ต่ำกว่าสำหรับการรู้จำเอนทิตีแบบกำหนดเอง

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

เข้าใจ Amazon เป็นบริการประมวลผลภาษาธรรมชาติ (NLP) ที่คุณสามารถใช้เพื่อแยกเอนทิตี วลีสำคัญ ภาษา ความรู้สึก และข้อมูลเชิงลึกอื่นๆ จากเอกสารได้โดยอัตโนมัติ ตัวอย่างเช่น คุณสามารถเริ่มตรวจจับตัวตน เช่น คน สถานที่ สินค้าเชิงพาณิชย์ วันที่ และปริมาณ ได้ทันทีผ่านทาง คอนโซล Amazon Comprehen, อินเทอร์เฟซบรรทัดคำสั่ง AWS AWS,หรือ Amazon Comprehend API. นอกจากนี้ หากคุณต้องการแยกเอนทิตีที่ไม่ได้เป็นส่วนหนึ่งของ Amazon Comprehend ประเภทเอนทิตีในตัวคุณสามารถสร้างแบบจำลองการรับรู้เอนทิตีแบบกำหนดเองได้ (หรือที่เรียกว่า เอนทิตีที่กำหนดเอง ตัวจำแนกลายมือ) เพื่อแยกคำที่เกี่ยวข้องมากขึ้นสำหรับกรณีการใช้งานเฉพาะของคุณ เช่น ชื่อรายการจากแคตตาล็อกผลิตภัณฑ์ ตัวระบุเฉพาะโดเมน และอื่นๆ การสร้างตัวจำแนกเอนทิตีที่แม่นยำด้วยตัวคุณเองโดยใช้ไลบรารีและเฟรมเวิร์กการเรียนรู้ของเครื่องอาจเป็นกระบวนการที่ซับซ้อนและใช้เวลานาน Amazon Comprehend ช่วยลดความซับซ้อนของงานการฝึกโมเดลของคุณอย่างมาก สิ่งที่คุณต้องทำคือโหลดชุดข้อมูลของเอกสารและคำอธิบายประกอบ และใช้คอนโซล Amazon Comprehend, AWS CLI หรือ API เพื่อสร้างโมเดล

ในการฝึกอบรมตัวรู้จำเอนทิตีแบบกำหนดเอง คุณสามารถให้ข้อมูลการฝึกอบรมแก่ Amazon Comprehend as คำอธิบายประกอบหรือรายการเอนทิตี. ในกรณีแรก คุณจัดเตรียมคอลเลกชันของเอกสารและไฟล์พร้อมคำอธิบายประกอบที่ระบุตำแหน่งที่เอนทิตีเกิดขึ้นภายในชุดของเอกสาร อีกทางหนึ่ง กับรายการเอนทิตี คุณระบุรายการของเอนทิตีที่มีป้ายชื่อประเภทเอนทิตีที่สอดคล้องกัน และชุดเอกสารที่ไม่ได้ใส่คำอธิบายประกอบซึ่งคุณคาดว่าเอนทิตีของคุณจะปรากฏ ทั้งสองวิธีสามารถใช้เพื่อฝึกแบบจำลองการรับรู้เอนทิตีแบบกำหนดเองที่ประสบความสำเร็จ อย่างไรก็ตาม มีบางสถานการณ์ที่วิธีหนึ่งอาจเป็นทางเลือกที่ดีกว่า ตัวอย่างเช่น เมื่อความหมายของเอนทิตีเฉพาะอาจคลุมเครือและขึ้นอยู่กับบริบท ขอแนะนำให้ใส่คำอธิบายประกอบเพราะอาจช่วยให้คุณสร้างแบบจำลอง Amazon Comprehend ที่สามารถใช้บริบทได้ดีขึ้นเมื่อแยกเอนทิตี

การทำหมายเหตุประกอบเอกสารอาจต้องใช้ความพยายามและเวลาค่อนข้างมาก โดยเฉพาะอย่างยิ่งหากคุณพิจารณาว่าทั้งคุณภาพและปริมาณของคำอธิบายประกอบมีผลกระทบต่อรูปแบบการรับรู้เอนทิตีที่เป็นผลลัพธ์ คำอธิบายประกอบที่ไม่ถูกต้องหรือน้อยเกินไปอาจนำไปสู่ผลลัพธ์ที่ไม่ดี เพื่อช่วยคุณตั้งค่ากระบวนการรับคำอธิบายประกอบ เรามีเครื่องมือต่างๆ เช่น ความจริงของ Amazon SageMakerซึ่งคุณสามารถใช้เพื่อใส่คำอธิบายประกอบเอกสารของคุณได้เร็วขึ้นและสร้าง an ไฟล์คำอธิบายประกอบรายการเสริม. อย่างไรก็ตาม แม้ว่าคุณจะใช้ Ground Truth คุณยังต้องแน่ใจว่าชุดข้อมูลการฝึกอบรมของคุณมีขนาดใหญ่พอที่จะสร้างตัวจำแนกเอนทิตีของคุณได้สำเร็จ

จนถึงวันนี้ ในการเริ่มฝึกอบรมตัวรู้จำเอนทิตีแบบกำหนดเองของ Amazon Comprehend คุณต้องจัดเตรียมเอกสารอย่างน้อย 250 รายการและหมายเหตุประกอบขั้นต่ำ 100 รายการต่อประเภทเอนทิตี วันนี้ เราขอประกาศว่า ด้วยการปรับปรุงล่าสุดในโมเดลที่เป็นพื้นฐานของ Amazon Comprehend เราได้ลดข้อกำหนดขั้นต่ำสำหรับการฝึกตัวจำแนกลายมือด้วยไฟล์คำอธิบายประกอบ CSV แบบข้อความธรรมดา ขณะนี้ คุณสามารถสร้างแบบจำลองการรับรู้เอนทิตีแบบกำหนดเองได้โดยใช้เอกสารเพียงสามฉบับและหมายเหตุประกอบ 25 รายการต่อประเภทเอนทิตี คุณสามารถดูรายละเอียดเพิ่มเติมเกี่ยวกับขีดจำกัดบริการใหม่ใน แนวทางและโควต้า.

เพื่อแสดงให้เห็นว่าการลดนี้สามารถช่วยคุณในการเริ่มต้นสร้างตัวจำแนกเอนทิตีแบบกำหนดเองได้อย่างไร เราได้ทำการทดสอบกับชุดข้อมูลโอเพนซอร์สสองสามชุดและเมตริกประสิทธิภาพที่รวบรวมไว้ ในโพสต์นี้ เราจะแนะนำคุณตลอดกระบวนการเปรียบเทียบและผลลัพธ์ที่เราได้รับขณะทำงานกับชุดข้อมูลตัวอย่างย่อย

การเตรียมชุดข้อมูล

ในโพสต์นี้ เราอธิบายวิธีที่เราฝึกอบรมตัวรู้จำเอนทิตีแบบกำหนดเองของ Amazon Comprehend โดยใช้เอกสารที่มีคำอธิบายประกอบ โดยทั่วไป สามารถให้คำอธิบายประกอบเป็น ไฟล์ CSV, ไฟล์รายการเสริมที่สร้างโดย Ground Truthหรือ ไฟล์ PDF. เรามุ่งเน้นที่คำอธิบายประกอบแบบข้อความธรรมดา CSV เนื่องจากเป็นประเภทของคำอธิบายประกอบที่ได้รับผลกระทบจากข้อกำหนดขั้นต่ำใหม่ ไฟล์ CSV ควรมีโครงสร้างดังต่อไปนี้:

File, Line, Begin Offset, End Offset, Type
documents.txt, 0, 0, 13, ENTITY_TYPE_1
documents.txt, 1, 0, 7, ENTITY_TYPE_2

ฟิลด์ที่เกี่ยวข้องมีดังนี้:

เนื้อไม่มีมัน – ชื่อไฟล์ที่มีเอกสาร
Line – จำนวนบรรทัดที่มีเอนทิตี เริ่มต้นด้วยบรรทัด 0
เริ่มต้น สาขา – อักขระออฟเซ็ตในข้อความอินพุต (เทียบกับจุดเริ่มต้นของบรรทัด) ที่แสดงตำแหน่งที่เอนทิตีเริ่มต้น โดยพิจารณาว่าอักขระตัวแรกอยู่ที่ตำแหน่ง 0
ออฟเซ็ตสิ้นสุด – อักขระออฟเซ็ตในข้อความอินพุตที่แสดงว่าเอนทิตีสิ้นสุดที่ใด
ชนิดภาพเขียน – ชื่อของประเภทเอนทิตีที่คุณต้องการกำหนด

นอกจากนี้ เมื่อใช้วิธีนี้ คุณต้องจัดเตรียมชุดเอกสารการฝึกอบรมเป็นไฟล์ .txt โดยมีเอกสารหนึ่งฉบับต่อบรรทัด หรือหนึ่งเอกสารต่อไฟล์

สำหรับการทดสอบของเรา เราใช้ SNIPS Natural Language ทำความเข้าใจเกณฑ์มาตรฐาน, ชุดข้อมูลของคำพูดที่มาจากฝูงชนซึ่งกระจายไปตามความตั้งใจของผู้ใช้ทั้งเจ็ด (AddToPlaylist, BookRestaurant, GetWeather, PlayMusic, RateBook, SearchCreativeWork, SearchScreeningEvent). ชุดข้อมูลถูกเผยแพร่ในปี 2018 ในบริบทของกระดาษ Snips Voice Platform: ระบบการทำความเข้าใจภาษาพูดที่ฝังตัวสำหรับอินเทอร์เฟซเสียงแบบส่วนตัวโดยการออกแบบ โดย Coucke และคณะ

ชุดข้อมูล SNIPS สร้างจากคอลเล็กชันของไฟล์ JSON ที่ย่อทั้งคำอธิบายประกอบและไฟล์ข้อความดิบ ต่อไปนี้เป็นตัวอย่างจากชุดข้อมูล:

{
   "annotations":{
      "named_entity":[
         {
            "start":16,
            "end":36,
            "extent":"within the same area",
            "tag":"spatial_relation"
         },
         {
            "start":40,
            "end":51,
            "extent":"Lawrence St",
            "tag":"poi"
         },
         {
            "start":67,
            "end":70,
            "extent":"one",
            "tag":"party_size_number"
         }
      ],
      "intent":"BookRestaurant"
   },
   "raw_text":"I'd like to eat within the same area of Lawrence St for a party of one"
}

ก่อนสร้างตัวจำแนกเอนทิตีของเรา เราได้แปลงคำอธิบายประกอบ SNIPS และไฟล์ข้อความดิบเป็นไฟล์คำอธิบายประกอบ CSV และไฟล์เอกสาร .txt

ต่อไปนี้เป็นข้อความที่ตัดตอนมาจาก .ของเรา annotations.csv ไฟล์:

File, Line, Begin Offset, End Offset, Type
documents.txt, 0, 16, 36, spatial_relation
documents.txt, 0, 40, 51, poi
documents.txt, 0, 67, 70, party_size_number

ต่อไปนี้เป็นข้อความที่ตัดตอนมาจาก .ของเรา documents.txt ไฟล์:

I'd like to eat within the same area of Lawrence St for a party of one
Please book me a table for three at an american gastropub 
I would like to book a restaurant in Niagara Falls for 8 on June nineteenth
Can you book a table for a party of 6 close to DeKalb Av

การกำหนดค่าการสุ่มตัวอย่างและกระบวนการเปรียบเทียบ

สำหรับการทดลองของเรา เราเน้นไปที่ชุดย่อยของประเภทเอนทิตีจากชุดข้อมูล SNIPS:

ร้านหนังสือ – ประเภทนิติบุคคล: spatial_relation, poi, party_size_number, restaurant_name, city, timeRange, restaurant_type, served_dish, party_size_description, country, facility, state, sort, cuisine
รับสภาพอากาศ – ประเภทนิติบุคคล: condition_temperature, current_location, geographic_poi, timeRange, state, spatial_relation, condition_description, city, country
เล่นเพลง – ประเภทนิติบุคคล: track, artist, music_item, service, genre, sort, playlist, album, year

นอกจากนี้ เรายังสุ่มตัวอย่างชุดข้อมูลแต่ละชุดเพื่อรับการกำหนดค่าที่แตกต่างกันในแง่ของจำนวนเอกสารที่สุ่มตัวอย่างสำหรับการฝึกอบรมและจำนวนคำอธิบายประกอบต่อเอนทิตี (หรือที่เรียกว่า ภาพ). ทำได้โดยใช้สคริปต์แบบกำหนดเองที่ออกแบบมาเพื่อสร้างชุดข้อมูลตัวอย่างย่อย ซึ่งแต่ละประเภทเอนทิตีปรากฏขึ้นอย่างน้อย k ครั้ง ภายในอย่างน้อย n เอกสาร

แต่ละรุ่นได้รับการฝึกอบรมโดยใช้ตัวอย่างย่อยเฉพาะของชุดข้อมูลการฝึกอบรม การกำหนดค่าแบบจำลองเก้าแบบแสดงไว้ในตารางต่อไปนี้

ชื่อชุดข้อมูลย่อย	จำนวนเอกสารตัวอย่างสำหรับการฝึกอบรม	จำนวนเอกสารตัวอย่างสำหรับการทดสอบ	จำนวนคำอธิบายประกอบโดยเฉลี่ยต่อประเภทเอนทิตี (ช็อต)
`snips-BookRestaurant-subsample-A`	132	17	33
`snips-BookRestaurant-subsample-B`	257	33	64
`snips-BookRestaurant-subsample-C`	508	64	128
`snips-GetWeather-subsample-A`	91	12	25
`snips-GetWeather-subsample-B`	185	24	49
`snips-GetWeather-subsample-C`	361	46	95
`snips-PlayMusic-subsample-A`	130	17	30
`snips-PlayMusic-subsample-B`	254	32	60
`snips-PlayMusic-subsample-C`	505	64	119

ในการวัดความถูกต้องของแบบจำลองของเรา เราได้รวบรวมตัววัดการประเมินที่ Amazon Comprehend คำนวณโดยอัตโนมัติเมื่อฝึกอบรมตัวจำแนกเอนทิตี:

ความแม่นยำ – ระบุเศษส่วนของเอนทิตีที่ตรวจพบโดยตัวจำแนกลายมือซึ่งระบุและติดป้ายกำกับอย่างถูกต้อง จากมุมมองที่แตกต่างกัน ความแม่นยำสามารถกำหนดได้เป็น ทีพี / (ทีพี + เอฟพี)ที่นี่มี tp คือจำนวนผลบวกที่แท้จริง (การระบุที่ถูกต้อง) และ fp คือจำนวนผลบวกลวง (การระบุไม่ถูกต้อง)
จำ – ระบุเศษส่วนของเอนทิตีที่มีอยู่ในเอกสารที่ระบุและติดฉลากอย่างถูกต้อง คำนวณเป็น ทีพี / (ทีพี + fn)ที่นี่มี tp คือจำนวนผลบวกที่แท้จริงและ fn คือจำนวนของผลลบปลอม (การระบุที่ไม่ได้รับ)
คะแนน F1 – นี่คือการผสมผสานระหว่างการวัดความแม่นยำและการเรียกคืน ซึ่งวัดความแม่นยำโดยรวมของแบบจำลอง คะแนน F1 เป็นค่าเฉลี่ยฮาร์มอนิกของเมตริกความแม่นยำและการเรียกคืน และคำนวณเป็น 2 * ความแม่นยำ * เรียกคืน / (แม่นยำ + เรียกคืน).

สำหรับการเปรียบเทียบประสิทธิภาพของตัวจำแนกเอนทิตีของเรา เราเน้นที่คะแนน F1

เมื่อพิจารณาจากชุดข้อมูลและขนาดตัวอย่างย่อย (ในแง่ของจำนวนเอกสารและช็อต) คุณสามารถสร้างตัวอย่างย่อยที่แตกต่างกันได้ เราจึงสร้างตัวอย่างย่อย 10 ตัวอย่างสำหรับการกำหนดค่าแต่ละรายการจากทั้งหมด XNUMX รายการ ฝึกอบรมแบบจำลองการรับรู้เอนทิตี เมตริกประสิทธิภาพที่รวบรวม และ หาค่าเฉลี่ยโดยใช้ไมโครเฉลี่ย สิ่งนี้ทำให้เราได้ผลลัพธ์ที่เสถียรยิ่งขึ้น โดยเฉพาะอย่างยิ่งสำหรับตัวอย่างย่อยไม่กี่ช็อต

ผลสอบ

ตารางต่อไปนี้แสดงคะแนน F1 เฉลี่ยไมโครที่คำนวณจากตัววัดประสิทธิภาพที่ส่งคืนโดย Amazon Comprehend หลังจากฝึกอบรมตัวจำแนกเอนทิตีแต่ละรายการ

ชื่อชุดข้อมูลย่อย	คะแนน F1 เฉลี่ยขนาดเล็กของตัวจดจำเอนทิตี (%)
`snips-BookRestaurant-subsample-A`	86.89
`snips-BookRestaurant-subsample-B`	90.18
`snips-BookRestaurant-subsample-C`	92.84
`snips-GetWeather-subsample-A`	84.73
`snips-GetWeather-subsample-B`	93.27
`snips-GetWeather-subsample-C`	93.43
`snips-PlayMusic-subsample-A`	80.61
`snips-PlayMusic-subsample-B`	81.80
`snips-PlayMusic-subsample-C`	85.04

แผนภูมิคอลัมน์ต่อไปนี้แสดงการแจกแจงคะแนน F1 สำหรับการกำหนดค่าเก้าแบบที่เราฝึกตามที่อธิบายไว้ในส่วนก่อนหน้า

เราสามารถสังเกตได้ว่าเราสามารถฝึกแบบจำลองการรับรู้เอนทิตีแบบกำหนดเองได้สำเร็จ แม้ว่าจะมีคำอธิบายประกอบเพียง 25 รายการต่อประเภทเอนทิตี หากเราเน้นที่ชุดข้อมูลตัวอย่างย่อยที่เล็กที่สุดสามชุด (snips-BookRestaurant-subsample-A, snips-GetWeather-subsample-Aและ snips-PlayMusic-subsample-A) เราพบว่าโดยเฉลี่ยแล้ว เราสามารถบรรลุคะแนน F1 ที่ 84% ซึ่งเป็นผลลัพธ์ที่ค่อนข้างดีเมื่อพิจารณาจากจำนวนเอกสารและคำอธิบายประกอบที่จำกัดที่เราใช้ หากเราต้องการปรับปรุงประสิทธิภาพของแบบจำลองของเรา เราสามารถรวบรวมเอกสารและคำอธิบายประกอบเพิ่มเติม และฝึกอบรมแบบจำลองใหม่ด้วยข้อมูลที่มากขึ้น ตัวอย่างเช่น ด้วยตัวอย่างย่อยขนาดกลาง (snips-BookRestaurant-subsample-B, snips-GetWeather-subsample-Bและ snips-PlayMusic-subsample-B) ซึ่งมีเอกสารและคำอธิบายประกอบมากเป็นสองเท่า เราได้รับคะแนน F1 โดยเฉลี่ยที่ 88% (ปรับปรุง 5% เมื่อเทียบกับ subsample-A ชุดข้อมูล) สุดท้าย ชุดข้อมูลตัวอย่างย่อยที่ใหญ่ขึ้น (snips-BookRestaurant-subsample-C, snips-GetWeather-subsample-Cและ snips-PlayMusic-subsample-C) ซึ่งมีข้อมูลที่มีคำอธิบายประกอบมากขึ้น (ประมาณสี่เท่าของจำนวนเอกสารและคำอธิบายประกอบที่ใช้สำหรับ subsample-A ชุดข้อมูล) ให้การปรับปรุงเพิ่มเติม 2% ทำให้คะแนน F1 เฉลี่ยเพิ่มขึ้นเป็น 90%

สรุป

ในโพสต์นี้ เราได้ประกาศการลดข้อกำหนดขั้นต่ำสำหรับการฝึกอบรมตัวรู้จำเอนทิตีแบบกำหนดเองด้วย Amazon Comprehend และรันการวัดประสิทธิภาพบนชุดข้อมูลโอเพนซอร์สเพื่อแสดงให้เห็นว่าการลดนี้สามารถช่วยคุณในการเริ่มต้นได้อย่างไร เริ่มตั้งแต่วันนี้ คุณสามารถสร้างแบบจำลองการรับรู้เอนทิตีโดยมีหมายเหตุประกอบเพียง 25 รายการต่อประเภทเอนทิตี (แทนที่จะเป็น 100 รายการ) และเอกสารอย่างน้อยสามฉบับ (แทนที่จะเป็น 250) ด้วยการประกาศนี้ เรากำลังลดอุปสรรคในการเข้ามาสำหรับผู้ใช้ที่สนใจใช้เทคโนโลยีการรู้จำเอนทิตีแบบกำหนดเองของ Amazon Comprehend ขณะนี้ คุณสามารถเริ่มทำการทดสอบด้วยชุดเอกสารที่มีหมายเหตุประกอบจำนวนไม่มาก วิเคราะห์ผลลัพธ์เบื้องต้น และทำซ้ำโดยใส่คำอธิบายประกอบและเอกสารเพิ่มเติม หากคุณต้องการรูปแบบการรู้จำเอนทิตีที่แม่นยำยิ่งขึ้นสำหรับกรณีการใช้งานของคุณ

หากต้องการเรียนรู้เพิ่มเติมและเริ่มต้นใช้งานตัวจำแนกเอนทิตีแบบกำหนดเอง โปรดดูที่ การรับรู้เอนทิตีแบบกำหนดเอง.

ขอขอบคุณเป็นพิเศษสำหรับเพื่อนร่วมงานของฉัน Jyoti Bansal และ Jie Ma สำหรับความช่วยเหลืออันมีค่าของพวกเขาในการเตรียมข้อมูลและการเปรียบเทียบ

เกี่ยวกับผู้เขียน

ลูก้า กีดา เป็นสถาปนิกโซลูชันที่ AWS; เขาอยู่ในมิลานและสนับสนุน ISV ของอิตาลีในการเดินทางบนคลาวด์ ด้วยพื้นฐานทางวิชาการด้านวิทยาการคอมพิวเตอร์และวิศวกรรม เขาเริ่มพัฒนาความหลงใหลใน AI/ML ที่มหาวิทยาลัย ในฐานะสมาชิกของชุมชนการประมวลผลภาษาธรรมชาติ (NLP) ภายใน AWS Luca ช่วยให้ลูกค้าประสบความสำเร็จในขณะที่ใช้บริการ AI/ML

ประทับเวลา: สิงหาคม 3, 2022สิงหาคม 3, 2022

ประทับเวลา: กรกฎาคม 29, 2022

Amazon Comprehend ประกาศขีดจำกัดคำอธิบายประกอบที่ต่ำกว่าสำหรับการรู้จำเอนทิตีแบบกำหนดเอง

เผยแพร่ซ้ำโดยเพลโต

การเตรียมชุดข้อมูล

การกำหนดค่าการสุ่มตัวอย่างและกระบวนการเปรียบเทียบ

ผลสอบ

สรุป

เกี่ยวกับผู้เขียน

เพิ่มเติมจาก AWS Machine Learning AWS

ขอแนะนำ Amazon Textract Bulk Document Uploader สำหรับการประเมินและวิเคราะห์ขั้นสูง | บริการเว็บอเมซอน

สร้างโซลูชันการตรวจจับการฉ้อโกงแบบเรียลไทม์บน GNN โดยใช้ Amazon SageMaker, Amazon Neptune และ Deep Graph Library

ใช้การค้นหาข้อความและรูปภาพแบบรวมเป็นหนึ่งด้วยโมเดล CLIP โดยใช้ Amazon SageMaker และ Amazon OpenSearch Service

เรียกใช้การอนุมานตามขนาดสำหรับ OpenFold ซึ่งเป็นโมเดล ML แบบพับโปรตีนที่ใช้ PyTorch โดยใช้ Amazon EKS

ระบุภาษาโดยอัตโนมัติในเสียงหลายภาษาโดยใช้ Amazon Transcribe

วิธีที่ Amazon Search บรรลุการอนุมาน T5 ที่มีเวลาแฝงต่ำและมีปริมาณงานสูงด้วย NVIDIA Triton บน AWS

ตรวจจับธุรกรรมที่ฉ้อโกงโดยใช้แมชชีนเลิร์นนิงกับ Amazon SageMaker

ระบุตำแหน่งของความผิดปกติโดยใช้ Amazon Lookout for Vision ที่ Edge โดยไม่ต้องใช้ GPU

เกี่ยวกับเรา

การค้นหาแนวตั้ง & Ai

ระบบปฏิบัติการ

การติดต่อ

ลงชื่อเข้าใช้