วิธีแยกข้อความหรือข้อมูลจากรูปภาพ

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

การแยกข้อความออกจากรูปภาพอาจเป็นกระบวนการที่ยุ่งยาก คนส่วนใหญ่ป้อนข้อความ/ข้อมูลจากรูปภาพด้วยตนเอง แต่วิธีนี้ใช้เวลานานและไม่มีประสิทธิภาพเมื่อคุณมีรูปภาพจำนวนมากที่ต้องจัดการ

โปรแกรมแปลงรูปภาพเป็นข้อความ เสนอวิธีแยกข้อความออกจากรูปภาพอย่างเรียบร้อย

แม้ว่าเครื่องมือดังกล่าวจะทำงานได้ดี แต่ข้อความ/ข้อมูลที่แยกออกมามักจะถูกนำเสนอในลักษณะที่ไม่มีโครงสร้างซึ่งส่งผลให้มีการประมวลผลภายหลังเป็นจำนวนมาก

An OCR ที่ขับเคลื่อนด้วย AI เช่นเดียวกับ Nanonets สามารถดึงข้อความจากรูปภาพและนำเสนอข้อมูลที่แยกออกมาได้อย่างเป็นระเบียบเรียบร้อยและมีโครงสร้าง

Nanonets ดึงข้อมูลจากภาพอย่างแม่นยำ ในขนาด และหลายภาษา Nanonets เป็น OCR การรู้จำข้อความเพียงตัวเดียวที่นำเสนอข้อความที่แยกออกมาในรูปแบบที่มีโครงสร้างอย่างประณีตซึ่งปรับแต่งได้ทั้งหมด ข้อมูลที่บันทึกไว้สามารถนำเสนอเป็นตาราง รายการโฆษณา หรือรูปแบบอื่นๆ

คลิกเพื่ออัพโหลดภาพของคุณด้านล่าง
OCR ของ Nanonets จะจดจำเนื้อหาในไฟล์ของคุณโดยอัตโนมัติและแปลงเป็นข้อความ
ดาวน์โหลดข้อความที่แยกออกมาเป็นไฟล์ข้อความดิบหรือรวมผ่าน API

สารบัญ

ต่อไปนี้เป็นวิธีการขั้นสูงสามวิธีซึ่งคุณสามารถใช้ Nanonets OCR เพื่อตรวจจับและแยกข้อความจากรูปภาพ สารสกัดจาก PDFs, ดึงข้อมูลจาก PDFหรือ แยกไฟล์ PDF และเอกสารประเภทอื่นๆ:

การแยกข้อความออกจากรูปภาพโดยใช้ Nanonets

ต้องการ OCR ออนไลน์ฟรีสำหรับ รูปภาพเป็นข้อความ, PDF เป็นตาราง, PDF เป็นข้อความ,หรือ การแยกข้อมูล PDF? ตรวจสอบ Nanonets ออนไลน์ OCR API และเริ่มสร้างโมเดล OCR ที่กำหนดเองได้ฟรี!

Nanonets มีโมเดล OCR ที่ฝึกไว้ล่วงหน้าสำหรับประเภทรูปภาพที่ระบุด้านล่าง โมเดล OCR ที่ผ่านการฝึกอบรมล่วงหน้าแต่ละแบบได้รับการฝึกฝนให้เชื่อมโยงข้อความในประเภทรูปภาพกับฟิลด์ที่เหมาะสม เช่น ชื่อ ที่อยู่ วันที่ วันหมดอายุ ฯลฯ และนำเสนอข้อความที่แยกออกมาอย่างเรียบร้อยและเป็นระเบียบ

ใบแจ้งหนี้
รายรับ
ใบขับขี่ (สหรัฐอเมริกา)
หนังสือเดินทาง

นาโนเน็ต OCR & OCR API ออนไลน์ มีความน่าสนใจมากมาย กรณีใช้.

[เนื้อหาฝัง]

นาโนเน็ตดึงข้อความจากภาพใบเสร็จ

ขั้นตอนที่ 1: เลือกรุ่น OCR ที่เหมาะสม

เข้าสู่ระบบ ไปยัง Nanonets และเลือกแบบจำลอง OCR ที่เหมาะสมกับรูปภาพที่คุณต้องการแยกข้อความและข้อมูล หากไม่มีรุ่น OCR ที่ผ่านการฝึกอบรมล่วงหน้าใด ๆ ที่ตรงกับความต้องการของคุณ คุณสามารถข้ามไปข้างหน้าเพื่อดูวิธีสร้างแบบจำลอง OCR แบบกำหนดเองได้

ขั้นตอนที่ 2: เพิ่มไฟล์

เพิ่มไฟล์/รูปภาพที่คุณต้องการแยกข้อความ คุณสามารถเพิ่มรูปภาพได้มากเท่าที่คุณต้องการ

ขั้นตอน 3: ทดสอบ

รอสักครู่เพื่อให้โมเดลเรียกใช้และดึงข้อความออกจากรูปภาพ

ขั้นตอนที่ 4: ตรวจสอบ

ตรวจสอบข้อความที่แยกจากแต่ละไฟล์อย่างรวดเร็ว โดยตรวจสอบมุมมองตารางทางด้านขวา คุณสามารถตรวจสอบซ้ำได้อย่างง่ายดายว่าข้อความได้รับการจดจำและจับคู่อย่างถูกต้องกับฟิลด์หรือแท็กที่เหมาะสมหรือไม่

คุณยังสามารถเลือกที่จะแก้ไข/แก้ไขค่าฟิลด์และป้ายกำกับในขั้นตอนนี้ Nanonets ไม่ถูกผูกมัดโดยเทมเพลตของรูปภาพ

ข้อมูลที่แยกออกมาสามารถแสดงในรูปแบบ “มุมมองรายการ” หรือ “JSON”

วิธีการแยกข้อความหรือข้อมูลจาก Image PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI. — ข้อความที่แยกออกมาแสดงเป็นรายการหรือเอาต์พุต JSON

คุณสามารถทำเครื่องหมายที่ช่องข้างแต่ละค่าหรือฟิลด์ที่คุณตรวจสอบหรือคลิก "ยืนยันข้อมูล" เพื่อดำเนินการทันที

ขั้นตอนที่ 5: ส่งออก

เมื่อไฟล์ทั้งหมดได้รับการยืนยันแล้ว คุณสามารถส่งออกข้อมูลที่จัดอย่างเป็นระเบียบเป็นไฟล์ xml, xlsx หรือ csv

นาโนเน็ตมีความน่าสนใจ กรณีใช้ และไม่ซ้ำกัน เรื่องราวความสำเร็จของลูกค้า. ค้นหาว่า Nanonets สามารถขับเคลื่อนธุรกิจของคุณให้มีประสิทธิผลมากขึ้นได้อย่างไร

การสร้างแบบจำลอง OCR แบบกำหนดเองด้วย Nanonets เป็นเรื่องง่าย โดยทั่วไป คุณสามารถสร้าง ฝึก และทำให้โมเดลใช้งานได้สำหรับรูปภาพหรือเอกสารทุกประเภท ในภาษาใดก็ได้ ทั้งหมดนี้ใช้เวลาไม่เกิน 25 นาที (ขึ้นอยู่กับจำนวนไฟล์ที่ใช้ฝึกโมเดล)

ดูวิดีโอด้านล่างเพื่อทำตาม 4 ขั้นตอนแรกในวิธีนี้:

[เนื้อหาฝัง]

วิธีฝึกโมเดล OCR ของคุณเองด้วย Nanonets

ขั้นตอนที่ 1: สร้างแบบจำลอง OCR ของคุณเอง

เข้าสู่ระบบ ไปที่ Nanonets และคลิกที่ "สร้างแบบจำลอง OCR ของคุณเอง"

ขั้นตอนที่ 2: อัปโหลดไฟล์/รูปภาพการฝึก

อัปโหลดไฟล์ตัวอย่างที่จะใช้ในการฝึกโมเดล OCR ความแม่นยำของโมเดล OCR ที่คุณสร้างจะขึ้นอยู่กับคุณภาพและปริมาณของไฟล์/รูปภาพที่อัปโหลดในขั้นตอนนี้เป็นส่วนใหญ่

ขั้นตอนที่ 3: ใส่คำอธิบายประกอบบนไฟล์/รูปภาพ

ตอนนี้ใส่คำอธิบายประกอบของข้อความหรือข้อมูลแต่ละส่วนด้วยฟิลด์หรือป้ายกำกับที่เหมาะสม ขั้นตอนสำคัญนี้จะสอนโมเดล OCR ของคุณให้แยกข้อความที่เหมาะสมจากรูปภาพและเชื่อมโยงกับฟิลด์ที่กำหนดเองซึ่งเกี่ยวข้องกับความต้องการของคุณ

คุณยังสามารถเพิ่มป้ายกำกับใหม่เพื่อใส่คำอธิบายประกอบให้กับข้อความหรือข้อมูล จำไว้ว่า Nanonets ไม่ได้ถูกผูกมัดโดยเทมเพลตของรูปภาพ!

ขั้นตอนที่ 4: ฝึกโมเดล OCR แบบกำหนดเอง

เมื่อใส่คำอธิบายประกอบสำหรับไฟล์/รูปภาพการฝึกทั้งหมดแล้ว ให้คลิกที่ “Train Model” การฝึกอบรมมักใช้เวลาประมาณ 20 นาที-2 ชั่วโมง ขึ้นอยู่กับจำนวนไฟล์และโมเดลที่เข้าคิวสำหรับการฝึก คุณสามารถ อัพเกรด ไปยังแผนชำระเงินเพื่อให้ได้ผลลัพธ์ที่รวดเร็วยิ่งขึ้นในขั้นตอนนี้ (โดยทั่วไปจะน้อยกว่า 20 นาที)

Nanonets ใช้ประโยชน์จากการเรียนรู้เชิงลึกเพื่อสร้างแบบจำลอง OCR ต่างๆ และทดสอบซึ่งกันและกันเพื่อความถูกต้อง จากนั้น Nanonets จะเลือกโมเดล OCR ที่ดีที่สุด (ตามอินพุตและระดับความแม่นยำของคุณ)

แท็บ "ตัววัดแบบจำลอง" แสดงการวัดต่างๆ และการวิเคราะห์เปรียบเทียบที่ทำให้ Nanonets เลือกแบบจำลอง OCR ที่ดีที่สุดจากทั้งหมดที่สร้างขึ้น คุณสามารถฝึกโมเดลใหม่ได้ (โดยให้รูปภาพการฝึกที่กว้างขึ้นและคำอธิบายประกอบที่ดีขึ้น) เพื่อให้ได้ระดับความแม่นยำที่สูงขึ้น

หรือหากคุณพอใจกับความถูกต้องแล้ว ให้คลิกที่ "ทดสอบ" เพื่อทดสอบและตรวจสอบว่าโมเดล OCR ที่กำหนดเองนี้ทำงานตามที่คาดไว้ในตัวอย่างรูปภาพหรือไฟล์ที่ต้องการแยกข้อความ/ข้อมูลหรือไม่

ขั้นตอนที่ 5: ทดสอบและตรวจสอบข้อมูล

เพิ่มรูปภาพตัวอย่างสองสามภาพเพื่อทดสอบและตรวจสอบโมเดล OCR ที่กำหนดเอง

ทดสอบและตรวจสอบความถูกต้องของข้อความที่แยกออกมา

หากระบบรู้จักข้อความ แตกไฟล์ และนำเสนออย่างเหมาะสม ให้ส่งออกไฟล์ ดังที่คุณเห็นด้านล่าง ข้อมูลที่แยกออกมาได้รับการจัดระเบียบและนำเสนอในรูปแบบที่เรียบร้อย

ขอแสดงความยินดี ตอนนี้คุณได้สร้างและฝึกโมเดล OCR แบบกำหนดเองเพื่อดึงข้อความจากรูปภาพบางประเภท!

ธุรกิจของคุณเกี่ยวข้องกับการจดจำข้อความในเอกสารดิจิทัล รูปภาพ หรือ PDF หรือไม่? คุณเคยสงสัยหรือไม่ว่าวิธีการแยกข้อความออกจากภาพอย่างถูกต้อง?

ฝึกโมเดล OCR ของคุณเองด้วย NanoNets API

ที่นี่ว่า คำแนะนำโดยละเอียดในการฝึกอบรม โมเดล OCR ของคุณเองโดยใช้ นาโนเน็ตส์ API. ใน เอกสารคุณจะพบว่าพร้อมที่จะเริ่มตัวอย่างโค้ดใน Python, Shell, Ruby, Golang, Java และ C# รวมถึงข้อกำหนด API โดยละเอียดสำหรับปลายทางต่างๆ

ต่อไปนี้คือคำแนะนำทีละขั้นตอนในการฝึกโมเดลของคุณเองโดยใช้ Nanonets API:

ขั้นตอนที่ 1: โคลน Repo

git clone https://github.com/NanoNets/nanonets-ocr-sample-python
cd nanonets-ocr-sample-python
sudo pip install requests
sudo pip install tqdm

ขั้นตอนที่ 2: รับรหัส API ฟรีของคุณ

รับคีย์ API ฟรีจาก https://app.nanonets.com/#/keys

ขั้นตอนที่ 3: ตั้งค่าคีย์ API เป็นตัวแปรสภาพแวดล้อม

export NANONETS_API_KEY=YOUR_API_KEY_GOES_HERE

ขั้นตอนที่ 4: สร้างโมเดลใหม่

python ./code/create-model.py

หมายเหตุ: สิ่งนี้จะสร้าง MODEL_ID ที่คุณต้องการสำหรับขั้นตอนต่อไป

ขั้นตอนที่ 5: เพิ่มรหัสรุ่นเป็นตัวแปรสภาพแวดล้อม

export NANONETS_MODEL_ID=YOUR_MODEL_ID

ขั้นตอนที่ 6: อัปโหลดข้อมูลการฝึกอบรม

รวบรวมภาพของวัตถุที่คุณต้องการตรวจจับ เมื่อคุณมีชุดข้อมูลพร้อมในโฟลเดอร์ images (ไฟล์รูปภาพ) เริ่มอัปโหลดชุดข้อมูล

python ./code/upload-training.py

ขั้นตอนที่ 7: โมเดลรถไฟ

เมื่ออัปโหลดรูปภาพแล้ว ให้เริ่มฝึก Model

python ./code/train-model.py

ขั้นตอนที่ 8: รับสถานะโมเดล

โมเดลใช้เวลาฝึกประมาณ 30 นาที คุณจะได้รับอีเมลเมื่อโมเดลได้รับการฝึกอบรม ในระหว่างนี้คุณตรวจสอบสถานะของโมเดล

watch -n 100 python ./code/model-state.py

ขั้นตอนที่ 9: ทำการทำนาย

เมื่อนางแบบได้รับการฝึกฝน คุณสามารถทำนายโดยใช้แบบจำลอง

python ./code/prediction.py PATH_TO_YOUR_IMAGE.jpg

ประโยชน์ของการใช้ Nanonets เหนือ OCR API อื่นๆ มีมากกว่าแค่ความแม่นยำที่ดีขึ้นในแง่ของการแยกข้อความออกจากรูปภาพ ต่อไปนี้คือเหตุผล 7 ประการที่คุณควรพิจารณาใช้ Nanonets OCR สำหรับการจดจำข้อความแทน:

1. การทำงานกับข้อมูลที่กำหนดเอง

ซอฟต์แวร์ OCR ส่วนใหญ่ค่อนข้างเข้มงวดกับประเภทของข้อมูลที่สามารถใช้งานได้ การฝึกอบรมแบบจำลอง OCR สำหรับกรณีการใช้งานต้องการความยืดหยุ่นในระดับสูงตามข้อกำหนดและข้อกำหนด OCR สำหรับการประมวลผลใบแจ้งหนี้จะแตกต่างอย่างมากจาก OCR สำหรับหนังสือเดินทาง! นาโนเน็ตไม่ได้ถูกผูกมัดด้วยข้อจำกัดที่เข้มงวดเช่นนั้น Nanonets ใช้ข้อมูลของคุณเองเพื่อฝึกโมเดล OCR ที่เหมาะสมที่สุดเพื่อตอบสนองความต้องการเฉพาะของธุรกิจของคุณ

2. การทำงานกับที่ไม่ใช่ภาษาอังกฤษหรือหลายภาษา

เนื่องจาก Nanonets มุ่งเน้นการฝึกอบรมด้วยข้อมูลที่กำหนดเอง จึงสร้างแบบจำลอง OCR เดียวที่สามารถดึงข้อความจากรูปภาพในภาษาใดก็ได้หรือหลายภาษาพร้อมกัน

3. ไม่จำเป็นต้องมีการประมวลผลภายหลัง

ข้อความที่ดึงออกมาโดยใช้แบบจำลอง OCR จะต้องมีโครงสร้างที่ชาญฉลาดและนำเสนอในรูปแบบที่เข้าใจได้ มิฉะนั้นเวลาและทรัพยากรจำนวนมากจะเข้าสู่การจัดระเบียบข้อมูลใหม่ให้เป็นข้อมูลที่มีความหมาย ในขณะที่เครื่องมือ OCR ส่วนใหญ่เพียงแค่ดึงและถ่ายโอนข้อมูลจากรูปภาพ Nanonets จะดึงเฉพาะข้อมูลที่เกี่ยวข้องและจัดเรียงข้อมูลเหล่านั้นลงในฟิลด์ที่มีโครงสร้างอย่างชาญฉลาดโดยอัตโนมัติ ทำให้ง่ายต่อการดูและทำความเข้าใจ

4. เรียนรู้อย่างต่อเนื่อง

ธุรกิจมักเผชิญกับความต้องการและความต้องการที่เปลี่ยนแปลงแบบไดนามิก เพื่อเอาชนะอุปสรรคที่อาจเกิดขึ้น Nanonets ช่วยให้คุณสามารถฝึกอบรมแบบจำลองของคุณใหม่ด้วยข้อมูลใหม่ได้อย่างง่ายดาย ซึ่งช่วยให้โมเดล OCR ของคุณปรับให้เข้ากับการเปลี่ยนแปลงที่คาดไม่ถึงได้

5. จัดการกับข้อจำกัดของข้อมูลทั่วไปได้อย่างง่ายดาย

Nanonets ใช้ประโยชน์จากเทคนิค AI, ML และ Deep Learning เพื่อเอาชนะข้อจำกัดของข้อมูลทั่วไปที่ส่งผลกระทบอย่างมากต่อการจดจำและการแยกข้อความ Nanonets OCR สามารถจดจำและจัดการข้อความที่เขียนด้วยลายมือ, รูปภาพของข้อความในหลายภาษาพร้อมกัน, รูปภาพที่มีความละเอียดต่ำ, รูปภาพที่มีแบบอักษรใหม่หรือแบบอักษรหางยาวและขนาดต่างๆ, รูปภาพที่มีข้อความเงา, ข้อความเอียง, ข้อความที่ไม่มีโครงสร้างแบบสุ่ม, สัญญาณรบกวนของภาพ, ภาพเบลอ และอื่น ๆ. OCR API แบบดั้งเดิมนั้นไม่พร้อมสำหรับการทำงานภายใต้ข้อจำกัดดังกล่าว พวกเขาต้องการข้อมูลที่มีความเที่ยงตรงสูงมาก ซึ่งไม่ใช่บรรทัดฐานในสถานการณ์จริง

6. ไม่ต้องมีทีมนักพัฒนาภายใน

ไม่ต้องกังวลกับการจ้างนักพัฒนาและการหาผู้มีความสามารถเพื่อปรับแต่ง Nanonets API ให้เหมาะกับความต้องการทางธุรกิจของคุณ Nanonets สร้างขึ้นเพื่อการบูรณาการที่ไม่ยุ่งยาก คุณยังสามารถรวม Nanonets เข้ากับซอฟต์แวร์ CRM, ERP หรือ RPA ส่วนใหญ่ได้อย่างง่ายดาย

7. ปรับแต่ง ปรับแต่ง ปรับแต่ง

คุณสามารถจับภาพข้อความ/ข้อมูลได้มากเท่าที่คุณต้องการด้วย Nanonets OCR คุณยังสามารถสร้างกฎการตรวจสอบที่กำหนดเองซึ่งใช้ได้กับข้อกำหนดการจดจำข้อความและการแยกข้อความเฉพาะของคุณ Nanonets ไม่ถูกผูกมัดโดยเทมเพลตของเอกสารของคุณเลย คุณสามารถบันทึกข้อมูลในตารางหรือรายการโฆษณาหรือรูปแบบอื่น ๆ ได้!

Nanonets มีหลายกรณีการใช้งานที่สามารถเพิ่มประสิทธิภาพธุรกิจของคุณ ประหยัดค่าใช้จ่าย และเพิ่มการเติบโต ค้นพบ กรณีการใช้งานของ Nanonets สามารถนำไปใช้กับผลิตภัณฑ์ของคุณได้อย่างไร

หรือเช็คเอาท์ นาโนเน็ต OCR API ในการดำเนินการและเริ่มสร้างกำหนดเอง OCR รุ่น ฟรี!

บันทึก กรกฎาคม 2022: โพสต์นี้เผยแพร่ครั้งแรกใน ตุลาคม 2020 และได้รับการปรับปรุงตั้งแต่นั้นเป็นต้นมา สม่ำเสมอ.

นี่คือสไลด์ สรุปผลการวิจัยในบทความนี้ นี่มัน เวอร์ชันอื่น ของโพสต์นี้

ประทับเวลา: กรกฎาคม 17, 2022กรกฎาคม 18, 2022

ประทับเวลา: เมษายน 10, 2023