متن آمازون یک سرویس یادگیری ماشینی (ML) است که به طور خودکار متن، دست خط و داده را از هر سند یا تصویری استخراج می کند. متن آمازون دارای یک ویژگی جداول در داخل است آنالیز سند API که توانایی استخراج خودکار ساختارهای جدولی از هر سند را ارائه می دهد. در این پست به بهبودهای انجام شده در آن می پردازیم جداول ویژگی و چگونگی استخراج اطلاعات در ساختارهای جدولی از طیف گسترده ای از اسناد.
ساختارهای جدولی در اسنادی مانند گزارش های مالی، اسناد پرداخت و فایل های گواهی تجزیه و تحلیل اغلب به گونه ای قالب بندی می شوند که امکان تفسیر آسان اطلاعات را فراهم می کند. آنها اغلب شامل اطلاعاتی مانند عنوان جدول، پاورقی جدول، عنوان بخش و ردیف های خلاصه در ساختار جدول برای خوانایی و سازماندهی بهتر هستند. برای یک سند مشابه قبل از این بهبود، جدولها در داخل هستند AnalyzeDocument
میتوانست آن عناصر را به عنوان سلولها شناسایی کند، و عناوین و پاورقیهایی را که خارج از محدوده جدول وجود دارند استخراج نکرد. در چنین مواردی، منطق پس پردازش سفارشی برای شناسایی چنین اطلاعاتی یا استخراج آن به طور جداگانه از خروجی JSON API ضروری بود. با اعلام پیشرفتهای ویژگی جدول، استخراج جنبههای مختلف دادههای جدولی بسیار سادهتر میشود.
در آوریل 2023، Amazon Textract توانایی تشخیص خودکار عناوین، پاورقی ها، عناوین بخش ها و ردیف های خلاصه موجود در اسناد را از طریق ویژگی جداول معرفی کرد. در این پست، این پیشرفتها را مورد بحث قرار میدهیم و مثالهایی ارائه میدهیم تا به شما در درک و استفاده از آنها در گردشهای کاری پردازش اسنادتان کمک کند. ما نحوه استفاده از این پیشرفتها را از طریق نمونههای کد برای استفاده از API و پردازش پاسخ با آن توضیح میدهیم کتابخانه آمازون متن Textractor.
بررسی اجمالی راه حل
تصویر زیر نشان می دهد که مدل به روز شده نه تنها جدول موجود در سند بلکه تمام سرصفحه ها و پاورقی های جدول مربوطه را شناسایی می کند. این نمونه گزارش مالی شامل عنوان جدول، پاورقی، عنوان بخش و ردیف های خلاصه است.
بهبود ویژگی Tables پشتیبانی از چهار عنصر جدید را در پاسخ API اضافه می کند که به شما امکان می دهد هر یک از این عناصر جدول را به راحتی استخراج کنید و توانایی تشخیص نوع جدول را اضافه می کند.
عناصر جدول
Amazon Textract می تواند چندین جزء از یک جدول مانند سلول های جدول و سلول های ادغام شده را شناسایی کند. این اجزاء معروف به Block
اشیاء، جزئیات مربوط به جزء، مانند هندسه مرزی، روابط، و امتیاز اطمینان را محصور می کند. آ Block
مواردی را نشان می دهد که در یک سند در یک گروه از پیکسل های نزدیک به یکدیگر شناسایی می شوند. موارد زیر جدید هستند بلوک های جدول در این بهبود معرفی شده است:
- عنوان جدول - جدید
Block
نوع نامیده می شودTABLE_TITLE
که به شما امکان می دهد عنوان جدول داده شده را شناسایی کنید. عناوین می توانند یک یا چند خط باشند که معمولاً بالای جدول هستند یا به عنوان سلولی در جدول جاسازی می شوند. - پاورقی میز - جدید
Block
نوع نامیده می شودTABLE_FOOTER
که به شما امکان می دهد پاورقی های مرتبط با یک جدول مشخص را شناسایی کنید. پاورقی ها می توانند یک یا چند خط باشند که معمولاً در زیر جدول هستند یا به عنوان یک سلول در جدول جاسازی می شوند. - عنوان بخش - جدید
Block
نوع نامیده می شودTABLE_SECTION_TITLE
که به شما امکان می دهد تشخیص دهید که سلول شناسایی شده عنوان بخش است یا خیر. - سلول های خلاصه - جدید
Block
نوع نامیده می شودTABLE_SUMMARY
که به شما امکان می دهد تشخیص دهید که آیا سلول یک سلول خلاصه است یا خیر، مانند سلولی برای مجموع در یک پایان.
انواع میز
هنگامی که آمازون متن یک جدول را در یک سند شناسایی می کند، تمام جزئیات جدول را در یک سطح بالا استخراج می کند. Block
نوعی از TABLE
. میزها می توانند در اشکال و اندازه های مختلف باشند. به عنوان مثال، اسناد اغلب حاوی جداولی هستند که ممکن است دارای سرصفحه جدول قابل تشخیص باشند یا نداشته باشند. برای کمک به تشخیص این نوع جداول، دو نوع موجودیت جدید برای a اضافه کردیم TABLE Block
: SEMI_STRUCTURED_TABLE
و STRUCTURED_TABLE
. این انواع موجودیت به شما کمک می کند بین جدول ساختار یافته و نیمه ساختار یافته تمایز قائل شوید.
جداول ساختاریافته جداولی هستند که سربرگ ستون ها به وضوح مشخص شده اند. اما با جداول نیمه ساختاریافته، داده ها ممکن است از ساختار دقیق پیروی نکنند. به عنوان مثال، داده ها ممکن است در ساختار جدولی ظاهر شوند که جدولی با هدرهای تعریف شده نباشد. انواع موجودیت جدید انعطاف پذیری را برای انتخاب جداول حفظ یا حذف در طول پس پردازش ارائه می دهند. تصویر زیر نمونه ای از STRUCTURED_TABLE
و SEMI_STRUCTURED_TABLE
.
تجزیه و تحلیل خروجی API
در این بخش، نحوه استفاده از آن را بررسی می کنیم کتابخانه آمازون متن Textractor برای پس پردازش خروجی API از AnalyzeDocument
با پیشرفت های ویژگی جداول. این به شما امکان می دهد اطلاعات مربوطه را از جداول استخراج کنید.
Textractor یک کتابخانه است که برای کار یکپارچه با آمازون Textract APIها و ابزارهای کاربردی ایجاد شده است تا متعاقباً پاسخهای JSON که توسط APIها برگردانده شدهاند به اشیاء قابل برنامهریزی تبدیل شوند. همچنین میتوانید از آن برای تجسم موجودیتها در سند و صادرات دادهها در قالبهایی مانند فایلهای مقادیر جداشده با کاما (CSV) استفاده کنید. در نظر گرفته شده است که به مشتریان آمازون تکسترکت در راه اندازی خطوط لوله پس از پردازش کمک کند.
در مثالهای خود، از صفحه نمونه زیر از یک سند بایگانی SEC 10-K استفاده میکنیم.
کد زیر را می توان در داخل ما یافت مخزن GitHub. برای پردازش این سند، از کتابخانه Textractor استفاده می کنیم و آن را برای ما وارد می کنیم تا خروجی های API را پس پردازش کنیم و داده ها را تجسم کنیم:
اولین قدم این است که با آمازون تکستکت تماس بگیرید AnalyzeDocument
با ویژگی Tables که با علامت نشان داده شده است features=[TextractFeatures.TABLES]
پارامتر برای استخراج اطلاعات جدول توجه داشته باشید که این روش زمان واقعی (یا همزمان) را فراخوانی می کند. آنالیز سند API که از اسناد تک صفحه ای پشتیبانی می کند. با این حال، شما می توانید استفاده کنید ناهمگام StartDocumentAnalysis
API برای پردازش اسناد چند صفحه ای (با حداکثر 3,000 صفحه).
La document
شی حاوی ابرداده در مورد سند است که قابل بررسی است. توجه داشته باشید که یک جدول در سند را به همراه سایر موجودات در سند می شناسد:
اکنون که خروجی API حاوی اطلاعات جدول است، عناصر مختلف جدول را با استفاده از ساختار پاسخی که قبلاً بحث شد، تجسم می کنیم:
کتابخانه Textractor موجودیت های مختلف در جدول شناسایی شده را با کد رنگ متفاوت برای هر عنصر جدول برجسته می کند. بیایید عمیق تر به چگونگی استخراج هر عنصر بپردازیم. قطعه کد زیر استخراج عنوان جدول را نشان می دهد:
به همین ترتیب می توانیم از کد زیر برای استخراج فوترهای جدول استفاده کنیم. توجه داشته باشید که table_footers یک لیست است، به این معنی که ممکن است یک یا چند پاورقی مرتبط با جدول وجود داشته باشد. میتوانیم روی این لیست تکرار کنیم تا همه پاورقیهای موجود را ببینیم، و همانطور که در قطعه کد زیر نشان داده شده است، خروجی سه پاورقی را نمایش میدهد:
تولید داده برای مصرف پایین دست
کتابخانه Textractor همچنین به شما کمک میکند تا انتقال دادههای جدول را در سیستمهای پایین دست یا سایر گردشهای کاری ساده کنید. به عنوان مثال، می توانید داده های جدول استخراج شده را به یک فایل مایکروسافت اکسل قابل خواندن توسط انسان صادر کنید. در زمان نگارش این مقاله، این تنها قالبی است که از جداول ادغام شده پشتیبانی می کند.
همچنین می توانیم آن را به a تبدیل کنیم Pandas DataFrame. DataFrame یک انتخاب محبوب برای دستکاری، تجزیه و تحلیل و تجسم داده ها در زبان های برنامه نویسی مانند Python و R است.
در پایتون، DataFrame یک ساختار داده اولیه در کتابخانه پانداها است. انعطاف پذیر و قدرتمند است و اغلب اولین انتخاب برای متخصصان تجزیه و تحلیل داده ها برای تجزیه و تحلیل داده های مختلف و وظایف ML است. قطعه کد زیر نحوه تبدیل اطلاعات جدول استخراج شده را با یک خط کد به DataFrame نشان می دهد:
در نهایت، می توانیم داده های جدول را به یک فایل CSV تبدیل کنیم. فایلهای CSV اغلب برای ورود دادهها به پایگاههای داده رابطهای یا انبارهای داده استفاده میشوند. کد زیر را ببینید:
نتیجه
معرفی این بلوک ها و انواع موجودیت های جدید (TABLE_TITLE
, TABLE_FOOTER
, STRUCTURED_TABLE
, SEMI_STRUCTURED_TABLE
, TABLE_SECTION_TITLE
, TABLE_FOOTER
و TABLE_SUMMARY
) پیشرفت قابل توجهی را در استخراج ساختارهای جدولی از اسناد با آمازون تکست نشان می دهد.
این ابزارها رویکردی ظریفتر و منعطفتر را ارائه میکنند و جداول ساختاریافته و نیمهساختار یافته را مورد توجه قرار میدهند و مطمئن میشوند که هیچ داده مهمی صرف نظر از مکان آن در یک سند نادیده گرفته نمیشود.
این بدان معناست که اکنون میتوانیم انواع دادهها و ساختارهای جدولی را با کارایی و دقت بالا مدیریت کنیم. همانطور که ما همچنان به استقبال از قدرت اتوماسیون در گردشهای کاری پردازش اسناد ادامه میدهیم، این پیشرفتها بدون شک راه را برای گردشهای کاری سادهتر، بهرهوری بالاتر و تجزیه و تحلیل دادههای دقیقتر هموار میکنند. برای اطلاعات بیشتر در AnalyzeDocument
و ویژگی جداول رجوع شود آنالیز سند.
درباره نویسندگان
راج پاتاک یک معمار ارشد راه حل و فن متخصص در خدمات مالی (بیمه، بانکداری، بازار سرمایه) و یادگیری ماشین است. او در پردازش زبان طبیعی (NLP)، مدل های زبان بزرگ (LLM) و پروژه های زیرساختی و عملیات یادگیری ماشین (MLOps) تخصص دارد.
انجان بیسواس یک معمار ارشد راه حل های خدمات هوش مصنوعی با تمرکز بر AI/ML و تجزیه و تحلیل داده ها است. Anjan بخشی از تیم خدمات هوش مصنوعی در سراسر جهان است و با مشتریان همکاری می کند تا به آنها کمک کند تا راه حل هایی برای مشکلات تجاری با هوش مصنوعی و ML ایجاد کنند. Anjan بیش از 14 سال تجربه کار با زنجیره تامین، تولید و سازمانهای خردهفروشی جهانی دارد و به طور فعال به مشتریان کمک میکند تا خدمات هوش مصنوعی AWS را شروع کرده و مقیاس کنند.
لالیتا ردی یک مدیر ارشد فنی محصول با تیم آمازون تکست است. او بر ایجاد خدمات مبتنی بر یادگیری ماشین برای مشتریان AWS متمرکز است. لالیتا در اوقات فراغت خود دوست دارد بازی های رومیزی انجام دهد و پیاده روی کند.
- محتوای مبتنی بر SEO و توزیع روابط عمومی. امروز تقویت شوید.
- EVM Finance. رابط یکپارچه برای امور مالی غیرمتمرکز دسترسی به اینجا.
- گروه رسانه ای کوانتومی. IR/PR تقویت شده دسترسی به اینجا.
- PlatoAiStream. Web3 Data Intelligence دانش تقویت شده دسترسی به اینجا.
- منبع: https://aws.amazon.com/blogs/machine-learning/announcing-enhanced-table-extractions-with-amazon-textract/
- : دارد
- :است
- :نه
- $UP
- 000
- 1
- 10
- 100
- 11
- 116
- 14
- ٪۱۰۰
- 16
- 20
- 2021
- 2022
- 2023
- 22
- ٪۱۰۰
- 30
- 31
- 7
- 8
- a
- توانایی
- درباره ما
- بالاتر
- حساب ها
- دقت
- فعالانه
- اضافه
- می افزاید:
- پیشرفت
- نمایندگی
- AI
- خدمات هوش مصنوعی
- AI / ML
- کمک
- معرفی
- اجازه می دهد تا
- در امتداد
- همچنین
- آمازون
- متن آمازون
- آمازون خدمات وب
- مقدار
- an
- تحلیل
- علم تجزیه و تحلیل
- و
- خبر
- اعلام كردن
- هر
- API
- رابط های برنامه کاربردی
- ظاهر شدن
- روش
- تقریبا
- آوریل
- هستند
- AS
- جنبه
- دارایی
- مرتبط است
- At
- بطور خودکار
- اتوماسیون
- AWS
- برج میزان
- ترازنامه ها
- بانکداری
- اساس
- BE
- شود
- در زیر
- بهتر
- میان
- بیلیون
- مسدود کردن
- تخته
- بازی ها و بنگاه
- هر دو
- بنا
- کسب و کار
- اما
- by
- صدا
- نام
- CAN
- سرمایه
- بازارهای سرمایه
- موارد
- پول دادن و سكس - پول دادن و كس كردن
- سلول ها
- معین
- گواهی نامه
- زنجیر
- انتخاب
- را انتخاب کنید
- طبقه بندی کنید
- به وضوح
- مشتری
- نزدیک
- رمز
- وثیقه
- رنگ
- ستون
- بیا
- تعهدات
- جزء
- اجزاء
- اعتماد به نفس
- شامل
- شامل
- ادامه دادن
- تبدیل
- شرکت
- متناظر
- هزینه
- ایجاد شده
- اعتبار
- سفارشی
- مشتریان
- داده ها
- تحلیل داده ها
- تجزیه و تحلیل داده ها
- ساختار داده ها
- پایگاه های داده
- بدهی
- دسامبر
- عمیق تر
- مشخص
- نشان می دهد
- جزئیات
- شناسایی شده
- توسعه
- مختلف
- جهت
- تخفیف
- بحث و تبادل نظر
- بحث کردیم
- صفحه نمایش
- تمیز دادن
- مختلف
- سند
- اسناد و مدارک
- شک
- دو
- در طی
- هر
- سهولت
- آسان تر
- ساده
- بهره وری
- عنصر
- عناصر
- جاسازی شده
- در اغوش گرفتن
- را قادر می سازد
- افزایش
- پیشرفت ها
- اشخاص
- موجودیت
- انصاف
- معادل ها
- املاک
- برآورد
- مثال
- مثال ها
- اکسل
- تجربه
- اکتشاف
- صادرات
- عصاره
- عصاره ها
- منصفانه
- ویژگی
- پرونده
- فایل ها
- بایگانی
- مالی
- گزارش مالی
- خدمات مالی
- نام خانوادگی
- ثابت
- درآمد ثابت
- انعطاف پذیری
- قابل انعطاف
- تمرکز
- متمرکز شده است
- به دنبال
- پیروی
- برای
- خارجی
- قالب
- یافت
- چهار
- از جانب
- بودجه
- افزایش
- عایدات
- بازیها
- دریافت کنید
- GitHub
- دادن
- داده
- جهانی
- Go
- دولت
- درشت
- گروه
- بود
- دسته
- آیا
- he
- هدر
- کمک
- کمک
- کمک می کند
- او
- سلسله مراتب
- بالاتر
- برجسته
- های لایت
- پیاده روی
- دارای
- چگونه
- چگونه
- اما
- HTML
- HTTPS
- انسان
- شناسایی
- شناسایی می کند
- شناسایی
- هویت
- if
- تصویر
- واردات
- مهم
- ارتقاء
- in
- شامل
- درآمد
- اطلاعات
- شالوده
- نصب
- بیمه
- مورد نظر
- تفسیر
- به
- معرفی
- معرفی
- سرمایه گذاری
- فراخوانی میکند
- IT
- اقلام
- ITS
- JPG
- json
- حوزه قضایی
- نگاه داشتن
- شناخته شده
- عدم
- زبان
- زبان ها
- بزرگ
- یادگیری
- کمتر
- سطح
- کتابخانه
- دوست دارد
- لاین
- خطوط
- فهرست
- LLM
- بارهای
- محل
- منطق
- دیگر
- خاموش
- تلفات
- دستگاه
- فراگیری ماشین
- ساخته
- عمده
- ساخت
- باعث می شود
- ساخت
- مدیر
- دست کاری
- تولید
- بازار
- بازارها
- ممکن است..
- به معنی
- متاداده
- روش
- مایکروسافت
- قدرت
- میلیون
- میلیون ها نفر
- ML
- MLO ها
- مدل
- مدل
- تغییر
- پول
- بازار پول
- ماه
- بیش
- بسیار
- طبیعی
- پردازش زبان طبیعی
- لازم
- خالص
- جدید
- nlp
- نه
- اطلاع..
- اکنون
- هدف
- اشیاء
- of
- ارائه
- پیشنهادات
- غالبا
- on
- ONE
- فقط
- عملیات
- or
- کدام سازمان ها
- سازمان های
- دیگر
- در غیر این صورت
- ما
- تولید
- خارج از
- روی
- با ما
- پانداها
- پارامتر
- بخش
- سنگفرش
- افلاطون
- هوش داده افلاطون
- PlatoData
- بازی
- محبوب
- بخشی
- پست
- قدرت
- قوی
- در حال حاضر
- قبلا
- در درجه اول
- اصلی
- چاپ
- قبلا
- مشکلات
- روند
- در حال پردازش
- محصول
- مدیر تولید
- بهره وری
- حرفه ای
- برنامه نويسي
- زبانهای برنامه نویسی
- پروژه ها
- ارائه
- پــایتــون
- Q1
- Q3
- Q3 2021
- q3 2022
- نمایش ها
- واقعی
- املاک و مستغلات
- زمان واقعی
- به رسمیت شناخته شده
- به رسمیت می شناسد
- ثبت
- مکرر
- بدون در نظر گرفتن
- منطقه
- تنظیم کننده
- مربوط
- روابط
- مربوط
- برداشتن
- گزارش
- گزارش ها
- نشان دهنده
- ضروری
- به ترتیب
- پاسخ
- پاسخ
- محدود کردن
- منحصر
- محدودیت های
- نتیجه
- خرده فروشی
- بررسی
- s
- حراجی
- مقیاس
- نمره
- یکپارچه
- SEC
- تأیید SEC
- بخش
- اوراق بهادار
- تیم امنیت لاتاری
- دیدن
- فروشندگان
- ارشد
- سپتامبر
- سرویس
- خدمات
- محیط
- چند
- اشکال
- او
- نشان داده شده
- نشان می دهد
- امضا
- قابل توجه
- مشابه
- ساده کردن
- تنها
- اندازه
- مزایا
- تخصص دارد
- متخصص
- آغاز شده
- گام
- ساده
- سخت
- ساختار
- ساخت یافته
- موضوع
- متعاقبا
- چنین
- خلاصه
- عرضه
- زنجیره تامین
- پشتیبانی
- پشتیبانی از
- سیستم های
- جدول
- وظایف
- تیم
- فنی
- تکنسین
- نسبت به
- که
- La
- شان
- آنها
- آنجا.
- اینها
- آنها
- شخص ثالث
- این
- کسانی که
- سه
- از طریق
- زمان
- عنوان
- عناوین
- به
- ابزار
- سطح عالی
- جمع
- تجارت
- دو
- نوع
- انواع
- به طور معمول
- ما
- دولت ایالات متحده
- فهمیدن
- زیان های تحقق نیافته
- به روز شده
- us
- استفاده کنید
- استفاده
- با استفاده از
- آب و برق
- ارزش
- ارزشها
- تنوع
- مختلف
- در مقابل
- از طريق
- تجسم
- بود
- مسیر..
- we
- وب
- خدمات وب
- که
- وسیع
- اراده
- با
- در داخل
- کلمات
- مهاجرت کاری
- گردش کار
- کارگر
- با این نسخهها کار
- خواهد بود
- نوشته
- سال
- شما
- شما
- زفیرنت