การแยกข้อความออกจากรูปภาพอาจเป็นกระบวนการที่ยุ่งยาก คนส่วนใหญ่ป้อนข้อความ/ข้อมูลจากรูปภาพด้วยตนเอง แต่วิธีนี้ใช้เวลานานและไม่มีประสิทธิภาพเมื่อคุณมีรูปภาพจำนวนมากที่ต้องจัดการ
โปรแกรมแปลงรูปภาพเป็นข้อความ เสนอวิธีแยกข้อความออกจากรูปภาพอย่างเรียบร้อย
แม้ว่าเครื่องมือดังกล่าวจะทำงานได้ดี แต่ข้อความ/ข้อมูลที่แยกออกมามักจะถูกนำเสนอในลักษณะที่ไม่มีโครงสร้างซึ่งส่งผลให้มีการประมวลผลภายหลังเป็นจำนวนมาก
An OCR ที่ขับเคลื่อนด้วย AI เช่นเดียวกับ Nanonets สามารถดึงข้อความจากรูปภาพและนำเสนอข้อมูลที่แยกออกมาได้อย่างเป็นระเบียบเรียบร้อยและมีโครงสร้าง
Nanonets ดึงข้อมูลจากภาพอย่างแม่นยำ ในขนาด และหลายภาษา Nanonets เป็น OCR การรู้จำข้อความเพียงตัวเดียวที่นำเสนอข้อความที่แยกออกมาในรูปแบบที่มีโครงสร้างอย่างประณีตซึ่งปรับแต่งได้ทั้งหมด ข้อมูลที่บันทึกไว้สามารถนำเสนอเป็นตาราง รายการโฆษณา หรือรูปแบบอื่นๆ
- คลิกเพื่ออัพโหลดภาพของคุณด้านล่าง
- OCR ของ Nanonets จะจดจำเนื้อหาในไฟล์ของคุณโดยอัตโนมัติและแปลงเป็นข้อความ
- ดาวน์โหลดข้อความที่แยกออกมาเป็นไฟล์ข้อความดิบหรือรวมผ่าน API
สารบัญ
ต่อไปนี้เป็นวิธีการขั้นสูงสามวิธีซึ่งคุณสามารถใช้ Nanonets OCR เพื่อตรวจจับและแยกข้อความจากรูปภาพ สารสกัดจาก PDFs, ดึงข้อมูลจาก PDFหรือ แยกไฟล์ PDF และเอกสารประเภทอื่นๆ:
ต้องการ OCR ออนไลน์ฟรีสำหรับ รูปภาพเป็นข้อความ, PDF เป็นตาราง, PDF เป็นข้อความ,หรือ การแยกข้อมูล PDF? ตรวจสอบ Nanonets ออนไลน์ OCR API และเริ่มสร้างโมเดล OCR ที่กำหนดเองได้ฟรี!
Nanonets มีโมเดล OCR ที่ฝึกไว้ล่วงหน้าสำหรับประเภทรูปภาพที่ระบุด้านล่าง โมเดล OCR ที่ผ่านการฝึกอบรมล่วงหน้าแต่ละแบบได้รับการฝึกฝนให้เชื่อมโยงข้อความในประเภทรูปภาพกับฟิลด์ที่เหมาะสม เช่น ชื่อ ที่อยู่ วันที่ วันหมดอายุ ฯลฯ และนำเสนอข้อความที่แยกออกมาอย่างเรียบร้อยและเป็นระเบียบ
- ใบแจ้งหนี้
- รายรับ
- ใบขับขี่ (สหรัฐอเมริกา)
- หนังสือเดินทาง
นาโนเน็ต OCR & OCR API ออนไลน์ มีความน่าสนใจมากมาย กรณีใช้.
ขั้นตอนที่ 1: เลือกรุ่น OCR ที่เหมาะสม
เข้าสู่ระบบ ไปยัง Nanonets และเลือกแบบจำลอง OCR ที่เหมาะสมกับรูปภาพที่คุณต้องการแยกข้อความและข้อมูล หากไม่มีรุ่น OCR ที่ผ่านการฝึกอบรมล่วงหน้าใด ๆ ที่ตรงกับความต้องการของคุณ คุณสามารถข้ามไปข้างหน้าเพื่อดูวิธีสร้างแบบจำลอง OCR แบบกำหนดเองได้
ขั้นตอนที่ 2: เพิ่มไฟล์
เพิ่มไฟล์/รูปภาพที่คุณต้องการแยกข้อความ คุณสามารถเพิ่มรูปภาพได้มากเท่าที่คุณต้องการ
ขั้นตอน 3: ทดสอบ
รอสักครู่เพื่อให้โมเดลเรียกใช้และดึงข้อความออกจากรูปภาพ
ขั้นตอนที่ 4: ตรวจสอบ
ตรวจสอบข้อความที่แยกจากแต่ละไฟล์อย่างรวดเร็ว โดยตรวจสอบมุมมองตารางทางด้านขวา คุณสามารถตรวจสอบซ้ำได้อย่างง่ายดายว่าข้อความได้รับการจดจำและจับคู่อย่างถูกต้องกับฟิลด์หรือแท็กที่เหมาะสมหรือไม่
คุณยังสามารถเลือกที่จะแก้ไข/แก้ไขค่าฟิลด์และป้ายกำกับในขั้นตอนนี้ Nanonets ไม่ถูกผูกมัดโดยเทมเพลตของรูปภาพ
ข้อมูลที่แยกออกมาสามารถแสดงในรูปแบบ “มุมมองรายการ” หรือ “JSON”
คุณสามารถทำเครื่องหมายที่ช่องข้างแต่ละค่าหรือฟิลด์ที่คุณตรวจสอบหรือคลิก "ยืนยันข้อมูล" เพื่อดำเนินการทันที
ขั้นตอนที่ 5: ส่งออก
เมื่อไฟล์ทั้งหมดได้รับการยืนยันแล้ว คุณสามารถส่งออกข้อมูลที่จัดอย่างเป็นระเบียบเป็นไฟล์ xml, xlsx หรือ csv
นาโนเน็ตมีความน่าสนใจ กรณีใช้ และไม่ซ้ำกัน เรื่องราวความสำเร็จของลูกค้า. ค้นหาว่า Nanonets สามารถขับเคลื่อนธุรกิจของคุณให้มีประสิทธิผลมากขึ้นได้อย่างไร
การสร้างแบบจำลอง OCR แบบกำหนดเองด้วย Nanonets เป็นเรื่องง่าย โดยทั่วไป คุณสามารถสร้าง ฝึก และทำให้โมเดลใช้งานได้สำหรับรูปภาพหรือเอกสารทุกประเภท ในภาษาใดก็ได้ ทั้งหมดนี้ใช้เวลาไม่เกิน 25 นาที (ขึ้นอยู่กับจำนวนไฟล์ที่ใช้ฝึกโมเดล)
ดูวิดีโอด้านล่างเพื่อทำตาม 4 ขั้นตอนแรกในวิธีนี้:
ขั้นตอนที่ 1: สร้างแบบจำลอง OCR ของคุณเอง
เข้าสู่ระบบ ไปที่ Nanonets และคลิกที่ "สร้างแบบจำลอง OCR ของคุณเอง"
ขั้นตอนที่ 2: อัปโหลดไฟล์/รูปภาพการฝึก
อัปโหลดไฟล์ตัวอย่างที่จะใช้ในการฝึกโมเดล OCR ความแม่นยำของโมเดล OCR ที่คุณสร้างจะขึ้นอยู่กับคุณภาพและปริมาณของไฟล์/รูปภาพที่อัปโหลดในขั้นตอนนี้เป็นส่วนใหญ่
ขั้นตอนที่ 3: ใส่คำอธิบายประกอบบนไฟล์/รูปภาพ
ตอนนี้ใส่คำอธิบายประกอบของข้อความหรือข้อมูลแต่ละส่วนด้วยฟิลด์หรือป้ายกำกับที่เหมาะสม ขั้นตอนสำคัญนี้จะสอนโมเดล OCR ของคุณให้แยกข้อความที่เหมาะสมจากรูปภาพและเชื่อมโยงกับฟิลด์ที่กำหนดเองซึ่งเกี่ยวข้องกับความต้องการของคุณ
คุณยังสามารถเพิ่มป้ายกำกับใหม่เพื่อใส่คำอธิบายประกอบให้กับข้อความหรือข้อมูล จำไว้ว่า Nanonets ไม่ได้ถูกผูกมัดโดยเทมเพลตของรูปภาพ!
ขั้นตอนที่ 4: ฝึกโมเดล OCR แบบกำหนดเอง
เมื่อใส่คำอธิบายประกอบสำหรับไฟล์/รูปภาพการฝึกทั้งหมดแล้ว ให้คลิกที่ “Train Model” การฝึกอบรมมักใช้เวลาประมาณ 20 นาที-2 ชั่วโมง ขึ้นอยู่กับจำนวนไฟล์และโมเดลที่เข้าคิวสำหรับการฝึก คุณสามารถ อัพเกรด ไปยังแผนชำระเงินเพื่อให้ได้ผลลัพธ์ที่รวดเร็วยิ่งขึ้นในขั้นตอนนี้ (โดยทั่วไปจะน้อยกว่า 20 นาที)
Nanonets ใช้ประโยชน์จากการเรียนรู้เชิงลึกเพื่อสร้างแบบจำลอง OCR ต่างๆ และทดสอบซึ่งกันและกันเพื่อความถูกต้อง จากนั้น Nanonets จะเลือกโมเดล OCR ที่ดีที่สุด (ตามอินพุตและระดับความแม่นยำของคุณ)
แท็บ "ตัววัดแบบจำลอง" แสดงการวัดต่างๆ และการวิเคราะห์เปรียบเทียบที่ทำให้ Nanonets เลือกแบบจำลอง OCR ที่ดีที่สุดจากทั้งหมดที่สร้างขึ้น คุณสามารถฝึกโมเดลใหม่ได้ (โดยให้รูปภาพการฝึกที่กว้างขึ้นและคำอธิบายประกอบที่ดีขึ้น) เพื่อให้ได้ระดับความแม่นยำที่สูงขึ้น
หรือหากคุณพอใจกับความถูกต้องแล้ว ให้คลิกที่ "ทดสอบ" เพื่อทดสอบและตรวจสอบว่าโมเดล OCR ที่กำหนดเองนี้ทำงานตามที่คาดไว้ในตัวอย่างรูปภาพหรือไฟล์ที่ต้องการแยกข้อความ/ข้อมูลหรือไม่
ขั้นตอนที่ 5: ทดสอบและตรวจสอบข้อมูล
เพิ่มรูปภาพตัวอย่างสองสามภาพเพื่อทดสอบและตรวจสอบโมเดล OCR ที่กำหนดเอง
หากระบบรู้จักข้อความ แตกไฟล์ และนำเสนออย่างเหมาะสม ให้ส่งออกไฟล์ ดังที่คุณเห็นด้านล่าง ข้อมูลที่แยกออกมาได้รับการจัดระเบียบและนำเสนอในรูปแบบที่เรียบร้อย
ขอแสดงความยินดี ตอนนี้คุณได้สร้างและฝึกโมเดล OCR แบบกำหนดเองเพื่อดึงข้อความจากรูปภาพบางประเภท!
ธุรกิจของคุณเกี่ยวข้องกับการจดจำข้อความในเอกสารดิจิทัล รูปภาพ หรือ PDF หรือไม่? คุณเคยสงสัยหรือไม่ว่าวิธีการแยกข้อความออกจากภาพอย่างถูกต้อง?
ฝึกโมเดล OCR ของคุณเองด้วย NanoNets API
ที่นี่ว่า คำแนะนำโดยละเอียดในการฝึกอบรม โมเดล OCR ของคุณเองโดยใช้ นาโนเน็ตส์ API. ใน เอกสารคุณจะพบว่าพร้อมที่จะเริ่มตัวอย่างโค้ดใน Python, Shell, Ruby, Golang, Java และ C# รวมถึงข้อกำหนด API โดยละเอียดสำหรับปลายทางต่างๆ
ต่อไปนี้คือคำแนะนำทีละขั้นตอนในการฝึกโมเดลของคุณเองโดยใช้ Nanonets API:
ขั้นตอนที่ 1: โคลน Repo
git clone https://github.com/NanoNets/nanonets-ocr-sample-python
cd nanonets-ocr-sample-python
sudo pip install requests
sudo pip install tqdm
ขั้นตอนที่ 2: รับรหัส API ฟรีของคุณ
รับคีย์ API ฟรีจาก https://app.nanonets.com/#/keys
ขั้นตอนที่ 3: ตั้งค่าคีย์ API เป็นตัวแปรสภาพแวดล้อม
export NANONETS_API_KEY=YOUR_API_KEY_GOES_HERE
ขั้นตอนที่ 4: สร้างโมเดลใหม่
python ./code/create-model.py
หมายเหตุ: สิ่งนี้จะสร้าง MODEL_ID ที่คุณต้องการสำหรับขั้นตอนต่อไป
ขั้นตอนที่ 5: เพิ่มรหัสรุ่นเป็นตัวแปรสภาพแวดล้อม
export NANONETS_MODEL_ID=YOUR_MODEL_ID
ขั้นตอนที่ 6: อัปโหลดข้อมูลการฝึกอบรม
รวบรวมภาพของวัตถุที่คุณต้องการตรวจจับ เมื่อคุณมีชุดข้อมูลพร้อมในโฟลเดอร์ images
(ไฟล์รูปภาพ) เริ่มอัปโหลดชุดข้อมูล
python ./code/upload-training.py
ขั้นตอนที่ 7: โมเดลรถไฟ
เมื่ออัปโหลดรูปภาพแล้ว ให้เริ่มฝึก Model
python ./code/train-model.py
ขั้นตอนที่ 8: รับสถานะโมเดล
โมเดลใช้เวลาฝึกประมาณ 30 นาที คุณจะได้รับอีเมลเมื่อโมเดลได้รับการฝึกอบรม ในระหว่างนี้คุณตรวจสอบสถานะของโมเดล
watch -n 100 python ./code/model-state.py
ขั้นตอนที่ 9: ทำการทำนาย
เมื่อนางแบบได้รับการฝึกฝน คุณสามารถทำนายโดยใช้แบบจำลอง
python ./code/prediction.py PATH_TO_YOUR_IMAGE.jpg
ประโยชน์ของการใช้ Nanonets เหนือ OCR API อื่นๆ มีมากกว่าแค่ความแม่นยำที่ดีขึ้นในแง่ของการแยกข้อความออกจากรูปภาพ ต่อไปนี้คือเหตุผล 7 ประการที่คุณควรพิจารณาใช้ Nanonets OCR สำหรับการจดจำข้อความแทน:
1. การทำงานกับข้อมูลที่กำหนดเอง
ซอฟต์แวร์ OCR ส่วนใหญ่ค่อนข้างเข้มงวดกับประเภทของข้อมูลที่สามารถใช้งานได้ การฝึกอบรมแบบจำลอง OCR สำหรับกรณีการใช้งานต้องการความยืดหยุ่นในระดับสูงตามข้อกำหนดและข้อกำหนด OCR สำหรับการประมวลผลใบแจ้งหนี้จะแตกต่างอย่างมากจาก OCR สำหรับหนังสือเดินทาง! นาโนเน็ตไม่ได้ถูกผูกมัดด้วยข้อจำกัดที่เข้มงวดเช่นนั้น Nanonets ใช้ข้อมูลของคุณเองเพื่อฝึกโมเดล OCR ที่เหมาะสมที่สุดเพื่อตอบสนองความต้องการเฉพาะของธุรกิจของคุณ
2. การทำงานกับที่ไม่ใช่ภาษาอังกฤษหรือหลายภาษา
เนื่องจาก Nanonets มุ่งเน้นการฝึกอบรมด้วยข้อมูลที่กำหนดเอง จึงสร้างแบบจำลอง OCR เดียวที่สามารถดึงข้อความจากรูปภาพในภาษาใดก็ได้หรือหลายภาษาพร้อมกัน
3. ไม่จำเป็นต้องมีการประมวลผลภายหลัง
ข้อความที่ดึงออกมาโดยใช้แบบจำลอง OCR จะต้องมีโครงสร้างที่ชาญฉลาดและนำเสนอในรูปแบบที่เข้าใจได้ มิฉะนั้นเวลาและทรัพยากรจำนวนมากจะเข้าสู่การจัดระเบียบข้อมูลใหม่ให้เป็นข้อมูลที่มีความหมาย ในขณะที่เครื่องมือ OCR ส่วนใหญ่เพียงแค่ดึงและถ่ายโอนข้อมูลจากรูปภาพ Nanonets จะดึงเฉพาะข้อมูลที่เกี่ยวข้องและจัดเรียงข้อมูลเหล่านั้นลงในฟิลด์ที่มีโครงสร้างอย่างชาญฉลาดโดยอัตโนมัติ ทำให้ง่ายต่อการดูและทำความเข้าใจ
4. เรียนรู้อย่างต่อเนื่อง
ธุรกิจมักเผชิญกับความต้องการและความต้องการที่เปลี่ยนแปลงแบบไดนามิก เพื่อเอาชนะอุปสรรคที่อาจเกิดขึ้น Nanonets ช่วยให้คุณสามารถฝึกอบรมแบบจำลองของคุณใหม่ด้วยข้อมูลใหม่ได้อย่างง่ายดาย ซึ่งช่วยให้โมเดล OCR ของคุณปรับให้เข้ากับการเปลี่ยนแปลงที่คาดไม่ถึงได้
5. จัดการกับข้อจำกัดของข้อมูลทั่วไปได้อย่างง่ายดาย
Nanonets ใช้ประโยชน์จากเทคนิค AI, ML และ Deep Learning เพื่อเอาชนะข้อจำกัดของข้อมูลทั่วไปที่ส่งผลกระทบอย่างมากต่อการจดจำและการแยกข้อความ Nanonets OCR สามารถจดจำและจัดการข้อความที่เขียนด้วยลายมือ, รูปภาพของข้อความในหลายภาษาพร้อมกัน, รูปภาพที่มีความละเอียดต่ำ, รูปภาพที่มีแบบอักษรใหม่หรือแบบอักษรหางยาวและขนาดต่างๆ, รูปภาพที่มีข้อความเงา, ข้อความเอียง, ข้อความที่ไม่มีโครงสร้างแบบสุ่ม, สัญญาณรบกวนของภาพ, ภาพเบลอ และอื่น ๆ. OCR API แบบดั้งเดิมนั้นไม่พร้อมสำหรับการทำงานภายใต้ข้อจำกัดดังกล่าว พวกเขาต้องการข้อมูลที่มีความเที่ยงตรงสูงมาก ซึ่งไม่ใช่บรรทัดฐานในสถานการณ์จริง
6. ไม่ต้องมีทีมนักพัฒนาภายใน
ไม่ต้องกังวลกับการจ้างนักพัฒนาและการหาผู้มีความสามารถเพื่อปรับแต่ง Nanonets API ให้เหมาะกับความต้องการทางธุรกิจของคุณ Nanonets สร้างขึ้นเพื่อการบูรณาการที่ไม่ยุ่งยาก คุณยังสามารถรวม Nanonets เข้ากับซอฟต์แวร์ CRM, ERP หรือ RPA ส่วนใหญ่ได้อย่างง่ายดาย
7. ปรับแต่ง ปรับแต่ง ปรับแต่ง
คุณสามารถจับภาพข้อความ/ข้อมูลได้มากเท่าที่คุณต้องการด้วย Nanonets OCR คุณยังสามารถสร้างกฎการตรวจสอบที่กำหนดเองซึ่งใช้ได้กับข้อกำหนดการจดจำข้อความและการแยกข้อความเฉพาะของคุณ Nanonets ไม่ถูกผูกมัดโดยเทมเพลตของเอกสารของคุณเลย คุณสามารถบันทึกข้อมูลในตารางหรือรายการโฆษณาหรือรูปแบบอื่น ๆ ได้!
Nanonets มีหลายกรณีการใช้งานที่สามารถเพิ่มประสิทธิภาพธุรกิจของคุณ ประหยัดค่าใช้จ่าย และเพิ่มการเติบโต ค้นพบ กรณีการใช้งานของ Nanonets สามารถนำไปใช้กับผลิตภัณฑ์ของคุณได้อย่างไร
หรือเช็คเอาท์ นาโนเน็ต OCR API ในการดำเนินการและเริ่มสร้างกำหนดเอง OCR รุ่น ฟรี!
บันทึก กรกฎาคม 2022: โพสต์นี้เผยแพร่ครั้งแรกใน ตุลาคม 2020 และได้รับการปรับปรุงตั้งแต่นั้นเป็นต้นมา สม่ำเสมอ.
นี่คือสไลด์ สรุปผลการวิจัยในบทความนี้ นี่มัน เวอร์ชันอื่น ของโพสต์นี้
- AI
- AI และการเรียนรู้ของเครื่อง
- ไอ อาร์ต
- เครื่องกำเนิดไออาร์ท
- หุ่นยนต์ไอ
- ปัญญาประดิษฐ์
- ใบรับรองปัญญาประดิษฐ์
- ปัญญาประดิษฐ์ในการธนาคาร
- หุ่นยนต์ปัญญาประดิษฐ์
- หุ่นยนต์ปัญญาประดิษฐ์
- ซอฟต์แวร์ปัญญาประดิษฐ์
- blockchain
- การประชุม blockchain ai
- เหรียญอัจฉริยะ
- ปัญญาประดิษฐ์สนทนา
- การประชุม crypto ai
- ดัล-อี
- การเรียนรู้ลึก ๆ
- google ai
- เรียนรู้เครื่อง
- OCR
- เพลโต
- เพลโตไอ
- เพลโตดาต้าอินเทลลิเจนซ์
- เกมเพลโต
- เพลโตดาต้า
- เพลโตเกม
- ขนาดไอ
- วากยสัมพันธ์
- การรับรู้ข้อความ
- ลมทะเล