ตรวจจับรูปแบบในข้อมูลข้อความด้วย Amazon SageMaker Data Wrangler

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

ในโพสต์นี้ เราแนะนำบทวิเคราะห์ใหม่ใน รายงานคุณภาพข้อมูลและข้อมูลเชิงลึก of Amazon SageMaker ข้อมูล Wrangler. การวิเคราะห์นี้ช่วยคุณในการตรวจสอบความถูกต้องของคุณสมบัติข้อความและค้นหาแถวที่ไม่ถูกต้องสำหรับการซ่อมแซมหรือละเว้น

Data Wrangler ช่วยลดเวลาในการรวบรวมและเตรียมข้อมูลสำหรับการเรียนรู้ของเครื่อง (ML) จากสัปดาห์เหลือเป็นนาที คุณสามารถลดความซับซ้อนของกระบวนการเตรียมข้อมูลและวิศวกรรมคุณลักษณะ และดำเนินการแต่ละขั้นตอนของเวิร์กโฟลว์การเตรียมข้อมูล ซึ่งรวมถึงการเลือกข้อมูล การล้างข้อมูล การสำรวจ และการแสดงภาพ จากอินเทอร์เฟซภาพเดียว

ภาพรวมโซลูชัน

การประมวลผลข้อมูลล่วงหน้ามักเกี่ยวข้องกับการล้างข้อมูลที่เป็นข้อความ เช่น ที่อยู่อีเมล หมายเลขโทรศัพท์ และชื่อผลิตภัณฑ์ ข้อมูลนี้สามารถมีข้อจำกัดด้านความสมบูรณ์ที่อาจอธิบายได้ด้วยนิพจน์ทั่วไป ตัวอย่างเช่น เพื่อให้ถือว่าใช้ได้ หมายเลขโทรศัพท์ท้องถิ่นอาจต้องเป็นไปตามรูปแบบเช่น [1-9][0-9]{2}-[0-9]{4}ซึ่งจะจับคู่กับตัวเลขที่ไม่ใช่ศูนย์ ตามด้วยตัวเลขอีกสองหลัก ตามด้วยขีดกลาง ตามด้วยตัวเลขอีกสี่หลัก

สถานการณ์ทั่วไปที่ทำให้ข้อมูลไม่ถูกต้องอาจรวมถึงการป้อนข้อมูลของมนุษย์ที่ไม่สอดคล้องกัน ตัวอย่างเช่น หมายเลขโทรศัพท์ในรูปแบบต่างๆ (5551234 เทียบกับ 555 1234 เทียบกับ 555-1234) หรือข้อมูลที่ไม่คาดคิด เช่น 0, 911 หรือ 411 สำหรับศูนย์บริการลูกค้า สิ่งสำคัญคือต้องละเว้นตัวเลข เช่น 0, 911 หรือ 411 และตรวจสอบความถูกต้องของรายการ (และอาจถูกต้อง) เช่น 5551234 หรือ 555 1234

น่าเสียดาย แม้ว่าจะมีข้อจำกัดด้านข้อความ แต่ก็อาจไม่ได้รับข้อมูลดังกล่าว ดังนั้นนักวิทยาศาสตร์ข้อมูลที่กำลังเตรียมชุดข้อมูลจึงต้องเปิดเผยข้อจำกัดด้วยตนเองโดยดูจากข้อมูล การดำเนินการนี้อาจเป็นเรื่องน่าเบื่อ เกิดข้อผิดพลาดได้ง่าย และใช้เวลานาน

การเรียนรู้รูปแบบจะวิเคราะห์ข้อมูลของคุณโดยอัตโนมัติและแสดงข้อจำกัดด้านข้อความที่อาจนำไปใช้กับชุดข้อมูลของคุณ ตัวอย่างการใช้หมายเลขโทรศัพท์ การเรียนรู้รูปแบบสามารถวิเคราะห์ข้อมูลและระบุได้ว่าหมายเลขโทรศัพท์ส่วนใหญ่เป็นไปตามข้อจำกัดทางข้อความ [1-9][0-9]{2}-[0-9][4]. นอกจากนี้ยังสามารถเตือนคุณว่ามีตัวอย่างข้อมูลที่ไม่ถูกต้องเพื่อให้คุณสามารถยกเว้นหรือแก้ไขได้

ในส่วนต่อไปนี้ เราสาธิตวิธีใช้การเรียนรู้รูปแบบใน Data Wrangler โดยใช้ชุดข้อมูลหมวดหมู่ผลิตภัณฑ์และรหัส SKU (หน่วยเก็บสต็อค) ที่สมมติขึ้น

ชุดข้อมูลนี้มีคุณลักษณะที่อธิบายผลิตภัณฑ์ตามบริษัท แบรนด์ และการใช้พลังงาน โดยเฉพาะอย่างยิ่ง มันมี SKU ของฟีเจอร์ที่มีรูปแบบไม่ถูกต้อง ข้อมูลทั้งหมดในชุดข้อมูลนี้เป็นข้อมูลสมมติและสร้างขึ้นแบบสุ่มโดยใช้ชื่อแบรนด์และชื่ออุปกรณ์แบบสุ่ม

เบื้องต้น

ก่อนที่คุณจะเริ่มต้นใช้งาน Data Wrangler ดาวน์โหลด ชุดข้อมูลตัวอย่างและอัปโหลดไปยังตำแหน่งใน บริการจัดเก็บข้อมูลอย่างง่ายของ Amazon (อเมซอน เอส3). สำหรับคำแนะนำ โปรดดูที่ กำลังอัพโหลดวัตถุ.

นำเข้าชุดข้อมูลของคุณ

ในการนำเข้าชุดข้อมูลของคุณ ให้ทำตามขั้นตอนต่อไปนี้:

ใน Data Wrangler ให้เลือก นำเข้าและสำรวจข้อมูลสำหรับ ML.
Choose นำเข้า.
สำหรับ นำเข้าข้อมูลเลือก Amazon S3.
ค้นหาไฟล์ใน Amazon S3 แล้วเลือก นำเข้า.

หลังจากนำเข้าแล้ว เราสามารถนำทางไปยังโฟลว์ข้อมูลได้

รับข้อมูลเชิงลึก

ในขั้นตอนนี้ เราสร้างรายงานข้อมูลเชิงลึกที่มีข้อมูลเกี่ยวกับคุณภาพข้อมูล สำหรับข้อมูลเพิ่มเติม โปรดดูที่ รับข้อมูลเชิงลึกเกี่ยวกับข้อมูลและคุณภาพข้อมูล. ทำตามขั้นตอนต่อไปนี้:

เกี่ยวกับ การไหลของข้อมูล แท็บ เลือกเครื่องหมายบวกถัดจาก ประเภทข้อมูล.
Choose รับข้อมูลเชิงลึก.
สำหรับ ประเภทการวิเคราะห์เลือก รายงานคุณภาพข้อมูลและข้อมูลเชิงลึก.
สำหรับโพสต์นี้ทิ้ง คอลัมน์เป้าหมาย และ ประเภทปัญหา ว่างเปล่า หากคุณวางแผนที่จะใช้ชุดข้อมูลของคุณสำหรับงานถดถอยหรือการจัดประเภทด้วยคุณลักษณะเป้าหมาย คุณสามารถเลือกตัวเลือกเหล่านั้นและรายงานจะรวมการวิเคราะห์ว่าคุณลักษณะการป้อนข้อมูลของคุณเกี่ยวข้องกับเป้าหมายของคุณอย่างไร ตัวอย่างเช่น สามารถสร้างรายงานการรั่วไหลของเป้าหมายได้ สำหรับข้อมูลเพิ่มเติม โปรดดูที่ คอลัมน์เป้าหมาย.
Choose สร้างบัญชีตัวแทน.

ขณะนี้เรามีรายงานคุณภาพข้อมูลและข้อมูลเชิงลึกแล้ว ถ้าเราเลื่อนลงไปที่ SKU เราสามารถดูตัวอย่างการเรียนรู้รูปแบบที่อธิบาย SKU ดูเหมือนว่าฟีเจอร์นี้มีข้อมูลที่ไม่ถูกต้อง และต้องมีการแก้ไขที่ดำเนินการได้

ก่อนที่เราจะทำความสะอาดคุณสมบัติ SKU ให้เลื่อนขึ้นไปที่ ยี่ห้อสินค้า ส่วนเพื่อดูข้อมูลเชิงลึกเพิ่มเติม ในที่นี้เราเห็นรูปแบบสองรูปแบบที่ได้รับการเปิดเผย ซึ่งบ่งชี้ว่าชื่อแบรนด์ส่วนใหญ่เป็นคำเดี่ยวที่ประกอบด้วยอักขระคำหรือตัวอักษร อา ตัวอักษรคำ เป็นเครื่องหมายขีดล่างหรืออักขระที่อาจปรากฏในคำในภาษาใดก็ได้ ตัวอย่างเช่น strings Hello_world และ écoute ทั้งสองประกอบด้วยอักขระคำ: H และ é.

สำหรับโพสต์นี้ เราไม่ทำความสะอาดฟีเจอร์นี้

ดูข้อมูลเชิงลึกของการเรียนรู้รูปแบบ

กลับไปที่การทำความสะอาด SKU และซูมเข้าที่รูปแบบและข้อความเตือน

ดังที่แสดงในภาพหน้าจอต่อไปนี้ การเรียนรู้รูปแบบจะแสดงรูปแบบที่มีความแม่นยำสูงซึ่งตรงกับข้อมูล 97.78% นอกจากนี้ยังแสดงตัวอย่างบางส่วนที่ตรงกับรูปแบบและตัวอย่างที่ไม่ตรงกับรูปแบบอีกด้วย ในส่วนที่ไม่ตรงกัน เราเห็น SKU ที่ไม่ถูกต้องบางส่วน

นอกจากรูปแบบที่ปรากฏแล้ว คำเตือนอาจปรากฏขึ้นเพื่อบ่งชี้ถึงการดำเนินการที่เป็นไปได้ในการล้างข้อมูล หากมีรูปแบบที่มีความแม่นยำสูงรวมถึงข้อมูลบางอย่างที่ไม่สอดคล้องกับรูปแบบ

เราสามารถละเว้นข้อมูลที่ไม่ถูกต้อง ถ้าเราเลือก (คลิกขวา) ที่นิพจน์ทั่วไป เราสามารถคัดลอกนิพจน์ [A-Z]{3}-[0-9]{4,5}.

ลบข้อมูลที่ไม่ถูกต้อง

มาสร้างการแปลงเพื่อละเว้นข้อมูลที่ไม่เป็นไปตามรูปแบบที่ไม่ตรงกับรูปแบบนี้

เกี่ยวกับ การไหลของข้อมูล แท็บ เลือกเครื่องหมายบวกถัดจาก ประเภทข้อมูล.
Choose เพิ่มการแปลง.
Choose เพิ่มขั้นตอน.
ค้นหา regex และเลือก ค้นหาและแก้ไข.
สำหรับ แปลงเลือก แปลงไม่ตรงกันเป็นหายไป.
สำหรับ คอลัมน์อินพุตเลือก SKU.
สำหรับ แบบแผนป้อนนิพจน์ทั่วไปของเรา
Choose ดูตัวอย่างแล้วเลือก เพิ่ม.

ตอนนี้ข้อมูลที่ไม่เกี่ยวข้องได้ถูกลบออกจากคุณสมบัติแล้ว
หากต้องการลบแถว ให้เพิ่มขั้นตอน จัดการหาย แล้วเลือกแปลงร่าง หล่นหาย.
Choose SKU เป็นคอลัมน์อินพุต

เรากลับไปที่โฟลว์ข้อมูลของเราโดยลบข้อมูลที่ไม่ถูกต้องออก

สรุป

ในโพสต์นี้ เราแสดงให้คุณเห็นถึงวิธีใช้ฟีเจอร์การเรียนรู้รูปแบบในข้อมูลเชิงลึกเพื่อค้นหาข้อความที่ไม่ถูกต้องในชุดข้อมูลของคุณ รวมถึงวิธีแก้ไขหรือละเว้นข้อมูลนั้น

เมื่อคุณล้างคอลัมน์ข้อความแล้ว คุณสามารถเห็นภาพชุดข้อมูลของคุณโดยใช้เครื่องหมาย การวิเคราะห์ หรือสมัครได้ การเปลี่ยนแปลงในตัว เพื่อประมวลผลข้อมูลของคุณต่อไป เมื่อคุณพอใจกับข้อมูลของคุณแล้ว คุณสามารถ ฝึกโมเดล กับ ระบบนำร่องอัตโนมัติของ Amazon SageMaker,หรือ ส่งออกข้อมูลของคุณ ไปยังแหล่งข้อมูล เช่น Amazon S3

เราขอขอบคุณ Nikita Ivkin สำหรับความคิดเห็นที่รอบคอบของเขา

เกี่ยวกับผู้แต่ง

วิชาล กาปูร์ เป็นนักวิทยาศาสตร์ประยุกต์อาวุโสที่มี AWS AI เขาหลงใหลในการช่วยให้ลูกค้าเข้าใจข้อมูลของพวกเขาใน Data Wrangler ในเวลาว่าง เขาปั่นจักรยานเสือภูเขา เล่นสโนว์บอร์ด และใช้เวลาอยู่กับครอบครัว

โซฮาร์ คาร์นิน เป็นนักวิทยาศาสตร์หลักใน Amazon AI ความสนใจในการวิจัยของเขาอยู่ในพื้นที่ขนาดใหญ่และอัลกอริธึมการเรียนรู้ของเครื่องออนไลน์ เขาพัฒนาอัลกอริธึมแมชชีนเลิร์นนิงที่ปรับขนาดได้ไม่จำกัดสำหรับ Amazon SageMaker

อาจาย ชาร์มา เป็น Principal Product Manager สำหรับ Amazon SageMaker ซึ่งเขาเน้นที่ Data Wrangler ซึ่งเป็นเครื่องมือการเตรียมข้อมูลด้วยภาพสำหรับนักวิทยาศาสตร์ด้านข้อมูล ก่อนหน้าร่วมงานกับ AWS Ajai เป็นผู้เชี่ยวชาญด้าน Data Science Expert ที่ McKinsey and Company ซึ่งเขาเป็นผู้นำการนัดหมายที่เน้น ML ให้กับบริษัทการเงินและประกันภัยชั้นนำทั่วโลก Ajai หลงใหลเกี่ยวกับวิทยาศาสตร์ข้อมูลและชอบที่จะสำรวจอัลกอริธึมล่าสุดและเทคนิคการเรียนรู้ของเครื่อง

ดีเร็ก บารอน เป็นผู้จัดการฝ่ายพัฒนาซอฟต์แวร์สำหรับ Amazon SageMaker Data Wrangler

ประทับเวลา: ตุลาคม 24, 2022ตุลาคม 24, 2022

ประทับเวลา: กันยายน 15, 2022

ตรวจจับรูปแบบในข้อมูลข้อความด้วย Amazon SageMaker Data Wrangler

เผยแพร่ซ้ำโดยเพลโต

ภาพรวมโซลูชัน

เบื้องต้น

นำเข้าชุดข้อมูลของคุณ

รับข้อมูลเชิงลึก

ดูข้อมูลเชิงลึกของการเรียนรู้รูปแบบ

ลบข้อมูลที่ไม่ถูกต้อง

สรุป

เกี่ยวกับผู้แต่ง

เพิ่มเติมจาก AWS Machine Learning AWS

AWS Panorama รองรับ NVIDIA JetPack SDK 4.6.2 . แล้ว

เริ่มต้นใช้งานโมเดลแบบเรียลไทม์บน Amazon SageMaker

ฐานความรู้ใน Amazon Bedrock ช่วยให้การถามคำถามในเอกสารฉบับเดียวง่ายขึ้น | อเมซอนเว็บเซอร์วิส

การคาดการณ์รายสัปดาห์สามารถเริ่มได้ในวันอาทิตย์ด้วย Amazon Forecast

ลดความซับซ้อนในการเรียนรู้อย่างต่อเนื่องของโมเดลแบบกำหนดเองของ Amazon Comprehend โดยใช้ฟลายวีล Comprehend

ค้นหาโปรเจ็กต์ Jira ของคุณอย่างชาญฉลาดด้วยตัวเชื่อมต่อระบบคลาวด์ของ Amazon Kendra Jira

ใช้ Amazon SageMaker Data Wrangler สำหรับการเตรียมข้อมูลและ Studio Labs เพื่อเรียนรู้และทดลองกับ ML

เกี่ยวกับเรา

การค้นหาแนวตั้ง & Ai

ระบบปฏิบัติการ

การติดต่อ

ลงชื่อเข้าใช้