ตรวจจับรูปแบบในข้อมูลข้อความด้วย Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

ตรวจจับรูปแบบในข้อมูลข้อความด้วย Amazon SageMaker Data Wrangler

ในโพสต์นี้ เราแนะนำบทวิเคราะห์ใหม่ใน รายงานคุณภาพข้อมูลและข้อมูลเชิงลึก of Amazon SageMaker ข้อมูล Wrangler. การวิเคราะห์นี้ช่วยคุณในการตรวจสอบความถูกต้องของคุณสมบัติข้อความและค้นหาแถวที่ไม่ถูกต้องสำหรับการซ่อมแซมหรือละเว้น

Data Wrangler ช่วยลดเวลาในการรวบรวมและเตรียมข้อมูลสำหรับการเรียนรู้ของเครื่อง (ML) จากสัปดาห์เหลือเป็นนาที คุณสามารถลดความซับซ้อนของกระบวนการเตรียมข้อมูลและวิศวกรรมคุณลักษณะ และดำเนินการแต่ละขั้นตอนของเวิร์กโฟลว์การเตรียมข้อมูล ซึ่งรวมถึงการเลือกข้อมูล การล้างข้อมูล การสำรวจ และการแสดงภาพ จากอินเทอร์เฟซภาพเดียว

ภาพรวมโซลูชัน

การประมวลผลข้อมูลล่วงหน้ามักเกี่ยวข้องกับการล้างข้อมูลที่เป็นข้อความ เช่น ที่อยู่อีเมล หมายเลขโทรศัพท์ และชื่อผลิตภัณฑ์ ข้อมูลนี้สามารถมีข้อจำกัดด้านความสมบูรณ์ที่อาจอธิบายได้ด้วยนิพจน์ทั่วไป ตัวอย่างเช่น เพื่อให้ถือว่าใช้ได้ หมายเลขโทรศัพท์ท้องถิ่นอาจต้องเป็นไปตามรูปแบบเช่น [1-9][0-9]{2}-[0-9]{4}ซึ่งจะจับคู่กับตัวเลขที่ไม่ใช่ศูนย์ ตามด้วยตัวเลขอีกสองหลัก ตามด้วยขีดกลาง ตามด้วยตัวเลขอีกสี่หลัก

สถานการณ์ทั่วไปที่ทำให้ข้อมูลไม่ถูกต้องอาจรวมถึงการป้อนข้อมูลของมนุษย์ที่ไม่สอดคล้องกัน ตัวอย่างเช่น หมายเลขโทรศัพท์ในรูปแบบต่างๆ (5551234 เทียบกับ 555 1234 เทียบกับ 555-1234) หรือข้อมูลที่ไม่คาดคิด เช่น 0, 911 หรือ 411 สำหรับศูนย์บริการลูกค้า สิ่งสำคัญคือต้องละเว้นตัวเลข เช่น 0, 911 หรือ 411 และตรวจสอบความถูกต้องของรายการ (และอาจถูกต้อง) เช่น 5551234 หรือ 555 1234

น่าเสียดาย แม้ว่าจะมีข้อจำกัดด้านข้อความ แต่ก็อาจไม่ได้รับข้อมูลดังกล่าว ดังนั้นนักวิทยาศาสตร์ข้อมูลที่กำลังเตรียมชุดข้อมูลจึงต้องเปิดเผยข้อจำกัดด้วยตนเองโดยดูจากข้อมูล การดำเนินการนี้อาจเป็นเรื่องน่าเบื่อ เกิดข้อผิดพลาดได้ง่าย และใช้เวลานาน

การเรียนรู้รูปแบบจะวิเคราะห์ข้อมูลของคุณโดยอัตโนมัติและแสดงข้อจำกัดด้านข้อความที่อาจนำไปใช้กับชุดข้อมูลของคุณ ตัวอย่างการใช้หมายเลขโทรศัพท์ การเรียนรู้รูปแบบสามารถวิเคราะห์ข้อมูลและระบุได้ว่าหมายเลขโทรศัพท์ส่วนใหญ่เป็นไปตามข้อจำกัดทางข้อความ [1-9][0-9]{2}-[0-9][4]. นอกจากนี้ยังสามารถเตือนคุณว่ามีตัวอย่างข้อมูลที่ไม่ถูกต้องเพื่อให้คุณสามารถยกเว้นหรือแก้ไขได้

ในส่วนต่อไปนี้ เราสาธิตวิธีใช้การเรียนรู้รูปแบบใน Data Wrangler โดยใช้ชุดข้อมูลหมวดหมู่ผลิตภัณฑ์และรหัส SKU (หน่วยเก็บสต็อค) ที่สมมติขึ้น

ชุดข้อมูลนี้มีคุณลักษณะที่อธิบายผลิตภัณฑ์ตามบริษัท แบรนด์ และการใช้พลังงาน โดยเฉพาะอย่างยิ่ง มันมี SKU ของฟีเจอร์ที่มีรูปแบบไม่ถูกต้อง ข้อมูลทั้งหมดในชุดข้อมูลนี้เป็นข้อมูลสมมติและสร้างขึ้นแบบสุ่มโดยใช้ชื่อแบรนด์และชื่ออุปกรณ์แบบสุ่ม

เบื้องต้น

ก่อนที่คุณจะเริ่มต้นใช้งาน Data Wrangler ดาวน์โหลด ชุดข้อมูลตัวอย่างและอัปโหลดไปยังตำแหน่งใน บริการจัดเก็บข้อมูลอย่างง่ายของ Amazon (อเมซอน เอส3). สำหรับคำแนะนำ โปรดดูที่ กำลังอัพโหลดวัตถุ.

นำเข้าชุดข้อมูลของคุณ

ในการนำเข้าชุดข้อมูลของคุณ ให้ทำตามขั้นตอนต่อไปนี้:

  1. ใน Data Wrangler ให้เลือก นำเข้าและสำรวจข้อมูลสำหรับ ML.
  2. Choose นำเข้า.
    ตรวจจับรูปแบบในข้อมูลข้อความด้วย Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.
  3. สำหรับ นำเข้าข้อมูลเลือก Amazon S3.
    ตรวจจับรูปแบบในข้อมูลข้อความด้วย Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.
  4. ค้นหาไฟล์ใน Amazon S3 แล้วเลือก นำเข้า.
    ตรวจจับรูปแบบในข้อมูลข้อความด้วย Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

หลังจากนำเข้าแล้ว เราสามารถนำทางไปยังโฟลว์ข้อมูลได้

ตรวจจับรูปแบบในข้อมูลข้อความด้วย Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

รับข้อมูลเชิงลึก

ในขั้นตอนนี้ เราสร้างรายงานข้อมูลเชิงลึกที่มีข้อมูลเกี่ยวกับคุณภาพข้อมูล สำหรับข้อมูลเพิ่มเติม โปรดดูที่ รับข้อมูลเชิงลึกเกี่ยวกับข้อมูลและคุณภาพข้อมูล. ทำตามขั้นตอนต่อไปนี้:

  1. เกี่ยวกับ การไหลของข้อมูล แท็บ เลือกเครื่องหมายบวกถัดจาก ประเภทข้อมูล.
  2. Choose รับข้อมูลเชิงลึก.
    ตรวจจับรูปแบบในข้อมูลข้อความด้วย Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.
  3. สำหรับ ประเภทการวิเคราะห์เลือก รายงานคุณภาพข้อมูลและข้อมูลเชิงลึก.
  4. สำหรับโพสต์นี้ทิ้ง คอลัมน์เป้าหมาย และ ประเภทปัญหา ว่างเปล่า หากคุณวางแผนที่จะใช้ชุดข้อมูลของคุณสำหรับงานถดถอยหรือการจัดประเภทด้วยคุณลักษณะเป้าหมาย คุณสามารถเลือกตัวเลือกเหล่านั้นและรายงานจะรวมการวิเคราะห์ว่าคุณลักษณะการป้อนข้อมูลของคุณเกี่ยวข้องกับเป้าหมายของคุณอย่างไร ตัวอย่างเช่น สามารถสร้างรายงานการรั่วไหลของเป้าหมายได้ สำหรับข้อมูลเพิ่มเติม โปรดดูที่ คอลัมน์เป้าหมาย.
  5. Choose สร้างบัญชีตัวแทน.
    ตรวจจับรูปแบบในข้อมูลข้อความด้วย Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

ขณะนี้เรามีรายงานคุณภาพข้อมูลและข้อมูลเชิงลึกแล้ว ถ้าเราเลื่อนลงไปที่ SKU เราสามารถดูตัวอย่างการเรียนรู้รูปแบบที่อธิบาย SKU ดูเหมือนว่าฟีเจอร์นี้มีข้อมูลที่ไม่ถูกต้อง และต้องมีการแก้ไขที่ดำเนินการได้

ตรวจจับรูปแบบในข้อมูลข้อความด้วย Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

ก่อนที่เราจะทำความสะอาดคุณสมบัติ SKU ให้เลื่อนขึ้นไปที่ ยี่ห้อสินค้า ส่วนเพื่อดูข้อมูลเชิงลึกเพิ่มเติม ในที่นี้เราเห็นรูปแบบสองรูปแบบที่ได้รับการเปิดเผย ซึ่งบ่งชี้ว่าชื่อแบรนด์ส่วนใหญ่เป็นคำเดี่ยวที่ประกอบด้วยอักขระคำหรือตัวอักษร อา ตัวอักษรคำ เป็นเครื่องหมายขีดล่างหรืออักขระที่อาจปรากฏในคำในภาษาใดก็ได้ ตัวอย่างเช่น strings Hello_world และ écoute ทั้งสองประกอบด้วยอักขระคำ: H และ é.

สำหรับโพสต์นี้ เราไม่ทำความสะอาดฟีเจอร์นี้

ตรวจจับรูปแบบในข้อมูลข้อความด้วย Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

ดูข้อมูลเชิงลึกของการเรียนรู้รูปแบบ

กลับไปที่การทำความสะอาด SKU และซูมเข้าที่รูปแบบและข้อความเตือน

ดังที่แสดงในภาพหน้าจอต่อไปนี้ การเรียนรู้รูปแบบจะแสดงรูปแบบที่มีความแม่นยำสูงซึ่งตรงกับข้อมูล 97.78% นอกจากนี้ยังแสดงตัวอย่างบางส่วนที่ตรงกับรูปแบบและตัวอย่างที่ไม่ตรงกับรูปแบบอีกด้วย ในส่วนที่ไม่ตรงกัน เราเห็น SKU ที่ไม่ถูกต้องบางส่วน

ตรวจจับรูปแบบในข้อมูลข้อความด้วย Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

นอกจากรูปแบบที่ปรากฏแล้ว คำเตือนอาจปรากฏขึ้นเพื่อบ่งชี้ถึงการดำเนินการที่เป็นไปได้ในการล้างข้อมูล หากมีรูปแบบที่มีความแม่นยำสูงรวมถึงข้อมูลบางอย่างที่ไม่สอดคล้องกับรูปแบบ

ตรวจจับรูปแบบในข้อมูลข้อความด้วย Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

เราสามารถละเว้นข้อมูลที่ไม่ถูกต้อง ถ้าเราเลือก (คลิกขวา) ที่นิพจน์ทั่วไป เราสามารถคัดลอกนิพจน์ [A-Z]{3}-[0-9]{4,5}.

ลบข้อมูลที่ไม่ถูกต้อง

มาสร้างการแปลงเพื่อละเว้นข้อมูลที่ไม่เป็นไปตามรูปแบบที่ไม่ตรงกับรูปแบบนี้

  1. เกี่ยวกับ การไหลของข้อมูล แท็บ เลือกเครื่องหมายบวกถัดจาก ประเภทข้อมูล.
  2. Choose เพิ่มการแปลง.
    ตรวจจับรูปแบบในข้อมูลข้อความด้วย Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.
  3. Choose เพิ่มขั้นตอน.
  4. ค้นหา regex และเลือก ค้นหาและแก้ไข.
    ตรวจจับรูปแบบในข้อมูลข้อความด้วย Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.
  5. สำหรับ แปลงเลือก แปลงไม่ตรงกันเป็นหายไป.
  6. สำหรับ คอลัมน์อินพุตเลือก SKU.
  7. สำหรับ แบบแผนป้อนนิพจน์ทั่วไปของเรา
  8. Choose ดูตัวอย่างแล้วเลือก เพิ่ม.
    ตรวจจับรูปแบบในข้อมูลข้อความด้วย Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.
    ตอนนี้ข้อมูลที่ไม่เกี่ยวข้องได้ถูกลบออกจากคุณสมบัติแล้ว
  9. หากต้องการลบแถว ให้เพิ่มขั้นตอน จัดการหาย แล้วเลือกแปลงร่าง หล่นหาย.
  10. Choose SKU เป็นคอลัมน์อินพุต
    ตรวจจับรูปแบบในข้อมูลข้อความด้วย Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

เรากลับไปที่โฟลว์ข้อมูลของเราโดยลบข้อมูลที่ไม่ถูกต้องออก

ตรวจจับรูปแบบในข้อมูลข้อความด้วย Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

สรุป

ในโพสต์นี้ เราแสดงให้คุณเห็นถึงวิธีใช้ฟีเจอร์การเรียนรู้รูปแบบในข้อมูลเชิงลึกเพื่อค้นหาข้อความที่ไม่ถูกต้องในชุดข้อมูลของคุณ รวมถึงวิธีแก้ไขหรือละเว้นข้อมูลนั้น

เมื่อคุณล้างคอลัมน์ข้อความแล้ว คุณสามารถเห็นภาพชุดข้อมูลของคุณโดยใช้เครื่องหมาย การวิเคราะห์ หรือสมัครได้ การเปลี่ยนแปลงในตัว เพื่อประมวลผลข้อมูลของคุณต่อไป เมื่อคุณพอใจกับข้อมูลของคุณแล้ว คุณสามารถ ฝึกโมเดล กับ ระบบนำร่องอัตโนมัติของ Amazon SageMaker,หรือ ส่งออกข้อมูลของคุณ ไปยังแหล่งข้อมูล เช่น Amazon S3

เราขอขอบคุณ Nikita Ivkin สำหรับความคิดเห็นที่รอบคอบของเขา


เกี่ยวกับผู้แต่ง

ตรวจจับรูปแบบในข้อมูลข้อความด้วย Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.วิชาล กาปูร์ เป็นนักวิทยาศาสตร์ประยุกต์อาวุโสที่มี AWS AI เขาหลงใหลในการช่วยให้ลูกค้าเข้าใจข้อมูลของพวกเขาใน Data Wrangler ในเวลาว่าง เขาปั่นจักรยานเสือภูเขา เล่นสโนว์บอร์ด และใช้เวลาอยู่กับครอบครัว

ตรวจจับรูปแบบในข้อมูลข้อความด้วย Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.โซฮาร์ คาร์นิน เป็นนักวิทยาศาสตร์หลักใน Amazon AI ความสนใจในการวิจัยของเขาอยู่ในพื้นที่ขนาดใหญ่และอัลกอริธึมการเรียนรู้ของเครื่องออนไลน์ เขาพัฒนาอัลกอริธึมแมชชีนเลิร์นนิงที่ปรับขนาดได้ไม่จำกัดสำหรับ Amazon SageMaker

ตรวจจับรูปแบบในข้อมูลข้อความด้วย Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.อาจาย ชาร์มา เป็น Principal Product Manager สำหรับ Amazon SageMaker ซึ่งเขาเน้นที่ Data Wrangler ซึ่งเป็นเครื่องมือการเตรียมข้อมูลด้วยภาพสำหรับนักวิทยาศาสตร์ด้านข้อมูล ก่อนหน้าร่วมงานกับ AWS Ajai เป็นผู้เชี่ยวชาญด้าน Data Science Expert ที่ McKinsey and Company ซึ่งเขาเป็นผู้นำการนัดหมายที่เน้น ML ให้กับบริษัทการเงินและประกันภัยชั้นนำทั่วโลก Ajai หลงใหลเกี่ยวกับวิทยาศาสตร์ข้อมูลและชอบที่จะสำรวจอัลกอริธึมล่าสุดและเทคนิคการเรียนรู้ของเครื่อง

ตรวจจับรูปแบบในข้อมูลข้อความด้วย Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI. ดีเร็ก บารอน เป็นผู้จัดการฝ่ายพัฒนาซอฟต์แวร์สำหรับ Amazon SageMaker Data Wrangler

ประทับเวลา:

เพิ่มเติมจาก AWS Machine Learning AWS