ایمیزون ٹیکسٹ is a machine learning (ML) service that automatically extracts text, handwriting, and data from any document or image. Amazon Textract has a Tables feature within the دستاویز کا تجزیہ کریں۔ API that offers the ability to automatically extract tabular structures from any document. In this post, we discuss the improvements made to the میزیں feature and how it makes it easier to extract information in tabular structures from a wide variety of documents.
Tabular structures in documents such as financial reports, paystubs, and certificate of analysis files are often formatted in a way that enables easy interpretation of information. They often also include information such as table title, table footer, section title, and summary rows within the tabular structure for better readability and organization. For a similar document prior to this enhancement, the Tables feature within AnalyzeDocument
would have identified those elements as cells, and it didn’t extract titles and footers that are present outside the bounds of the table. In such cases, custom postprocessing logic to identify such information or extract it separately from the API’s JSON output was necessary. With this announcement of enhancements to the Table feature, the extraction of various aspects of tabular data becomes much simpler.
In April 2023, Amazon Textract introduced the ability to automatically detect titles, footers, section titles, and summary rows present in documents via the Tables feature. In this post, we discuss these enhancements and give examples to help you understand and use them in your document processing workflows. We walk through how to use these improvements through code examples to use the API and process the response with the Amazon Textract Textractor library.
حل کا جائزہ
The following image shows that the updated model not only identifies the table in the document but all corresponding table headers and footers. This sample financial report document contains table title, footer, section title, and summary rows.
The Tables feature enhancement adds support for four new elements in the API response that allows you to extract each of these table elements with ease, and adds the ability to distinguish the type of table.
Table elements
Amazon Textract can identify several components of a table such as table cells and merged cells. These components, known as Block
objects, encapsulate the details related to the component, such as the bounding geometry, relationships, and confidence score. A Block
represents items that are recognized in a document within a group of pixels close to each other. The following are the new Table Blocks introduced in this enhancement:
- Table title - ایک نیا
Block
type calledTABLE_TITLE
that enables you to identify the title of a given table. Titles can be one or more lines, which are typically above a table or embedded as a cell within the table. - Table footers - ایک نیا
Block
type calledTABLE_FOOTER
that enables you to identify the footers associated with a given table. Footers can be one or more lines that are typically below the table or embedded as a cell within the table. - Section title - ایک نیا
Block
type calledTABLE_SECTION_TITLE
that enables you to identify if the cell detected is a section title. - Summary cells - ایک نیا
Block
type calledTABLE_SUMMARY
that enables you to identify if the cell is a summary cell, such as a cell for totals on a paystub.
Types of tables
When Amazon Textract identifies a table in a document, it extracts all the details of the table into a top-level Block
کی قسم TABLE
. Tables can come in various shapes and sizes. For example, documents often contain tables that may or may not have a discernible table header. To help distinguish these types of tables, we added two new entity types for a TABLE Block
: SEMI_STRUCTURED_TABLE
اور STRUCTURED_TABLE
. These entity types help you distinguish between a structured versus a semistructured table.
Structured tables are tables that have clearly defined column headers. But with semi-structured tables, data might not follow a strict structure. For example, data may appear in tabular structure that isn’t a table with defined headers. The new entity types offer the flexibility to choose which tables to keep or remove during post-processing. The following image shows an example of STRUCTURED_TABLE
اور SEMI_STRUCTURED_TABLE
.
Analyzing the API output
In this section, we explore how you can use the Amazon Textract Textractor library to postprocess the API output of AnalyzeDocument
with the Tables feature enhancements. This allows you to extract relevant information from tables.
Textractor is a library created to work seamlessly with Amazon Textract APIs and utilities to subsequently convert the JSON responses returned by the APIs into programmable objects. You can also use it to visualize entities on the document and export the data in formats such as comma-separated values (CSV) files. It’s intended to aid Amazon Textract customers in setting up their postprocessing pipelines.
In our examples, we use the following sample page from a 10-K SEC filing document.
The following code can be found within our GitHub ذخیرہ. To process this document, we make use of the Textractor library and import it for us to postprocess the API outputs and visualize the data:
The first step is to call Amazon Textract AnalyzeDocument
with Tables feature, denoted by the features=[TextractFeatures.TABLES]
parameter to extract the table information. Note that this method invokes the real-time (or synchronous) دستاویز کا تجزیہ کریں۔ API, which supports single-page documents. However, you can use the الیکشنروس StartDocumentAnalysis
API to process multi-page documents (with up to 3,000 pages).
۔ document
object contains metadata about the document that can be reviewed. Notice that it recognizes one table in the document along with other entities in the document:
Now that we have the API output containing the table information, we visualize the different elements of the table using the response structure discussed previously:
The Textractor library highlights the various entities within the detected table with a different color code for each table element. Let’s dive deeper into how we can extract each element. The following code snippet demonstrates extracting the title of the table:
Similarly, we can use the following code to extract the footers of the table. Notice that table_footers is a list, which means that there can be one or more footers associated with the table. We can iterate over this list to see all the footers present, and as shown in the following code snippet, the output displays three footers:
Generating data for downstream ingestion
The Textractor library also helps you simplify the ingestion of table data into downstream systems or other workflows. For example, you can export the extracted table data into a human readable Microsoft Excel file. At the time of this writing, this is the only format that supports merged tables.
We can also convert it to a پانڈا ڈیٹا فریم. DataFrame is a popular choice for data manipulation, analysis, and visualization in programming languages such as Python and R.
In Python, DataFrame is a primary data structure in the Pandas library. It’s flexible and powerful, and is often the first choice for data analysis professionals for various data analysis and ML tasks. The following code snippet shows how to convert the extracted table information into a DataFrame with a single line of code:
Lastly, we can convert the table data into a CSV file. CSV files are often used to ingest data into relational databases or data warehouses. See the following code:
نتیجہ
The introduction of these new block and entity types (TABLE_TITLE
, TABLE_FOOTER
, STRUCTURED_TABLE
, SEMI_STRUCTURED_TABLE
, TABLE_SECTION_TITLE
, TABLE_FOOTER
، اور TABLE_SUMMARY
) marks a significant advancement in extraction of tabular structures from documents with Amazon Textract.
These tools provide a more nuanced and flexible approach, catering to both structured and semistructured tables and making sure that no important data is overlooked, regardless of its location in a document.
This means we can now handle diverse data types and table structures with enhanced efficiency and accuracy. As we continue to embrace the power of automation in document processing workflows, these enhancements will no doubt pave the way for more streamlined workflows, higher productivity, and more insightful data analysis. For more information on AnalyzeDocument
and the Tables feature, refer to دستاویز کا تجزیہ کریں۔.
مصنفین کے بارے میں
راج پاٹھک فنانشل سروسز (انشورنس، بینکنگ، کیپٹل مارکیٹس) اور مشین لرننگ میں مہارت رکھنے والے ایک سینئر سولیوشن آرکیٹیکٹ اور ٹیکنولوجسٹ ہیں۔ وہ نیچرل لینگویج پروسیسنگ (NLP)، لارج لینگویج ماڈلز (LLM) اور مشین لرننگ انفراسٹرکچر اور آپریشنز پروجیکٹس (MLOps) میں مہارت رکھتا ہے۔
انجان بسواس اے آئی/ایم ایل اور ڈیٹا اینالیٹکس پر توجہ کے ساتھ ایک سینئر AI سروسز سلوشنز آرکیٹیکٹ ہے۔ انجان دنیا بھر میں AI خدمات کی ٹیم کا حصہ ہے اور صارفین کے ساتھ کام کرتا ہے تاکہ وہ AI اور ML کے ساتھ کاروباری مسائل کو سمجھنے، اور ان کا حل تیار کریں۔ انجان کے پاس عالمی سپلائی چین، مینوفیکچرنگ، اور ریٹیل تنظیموں کے ساتھ کام کرنے کا 14 سال سے زیادہ کا تجربہ ہے اور وہ صارفین کو AWS AI خدمات شروع کرنے اور اسکیل کرنے میں فعال طور پر مدد کر رہا ہے۔
Lalita Reddi is a Senior Technical Product Manager with the Amazon Textract team. She is focused on building machine learning-based services for AWS customers. In her spare time, Lalita likes to play board games, and go on hikes.
- SEO سے چلنے والا مواد اور PR کی تقسیم۔ آج ہی بڑھا دیں۔
- ای وی ایم فنانس۔ وکندریقرت مالیات کے لیے متحد انٹرفیس۔ یہاں تک رسائی حاصل کریں۔
- کوانٹم میڈیا گروپ۔ آئی آر/پی آر ایمپلیفائیڈ۔ یہاں تک رسائی حاصل کریں۔
- پلیٹوآئ اسٹریم۔ ویب 3 ڈیٹا انٹیلی جنس۔ علم میں اضافہ۔ یہاں تک رسائی حاصل کریں۔
- ماخذ: https://aws.amazon.com/blogs/machine-learning/announcing-enhanced-table-extractions-with-amazon-textract/
- : ہے
- : ہے
- : نہیں
- $UP
- 000
- 1
- 10
- 100
- 11
- 116
- 14
- 15٪
- 16
- 20
- 2021
- 2022
- 2023
- 22
- 26٪
- 30
- 31
- 7
- 8
- a
- کی صلاحیت
- ہمارے بارے میں
- اوپر
- اکاؤنٹس
- درستگی
- فعال طور پر
- شامل کیا
- جوڑتا ہے
- ترقی
- ایجنسی
- AI
- AI خدمات
- AI / ML
- امداد
- تمام
- کی اجازت دیتا ہے
- ساتھ
- بھی
- ایمیزون
- ایمیزون ٹیکسٹ
- ایمیزون ویب سروسز
- مقدار
- an
- تجزیہ
- تجزیاتی
- اور
- اعلان
- اعلان
- کوئی بھی
- اے پی آئی
- APIs
- ظاہر
- نقطہ نظر
- تقریبا
- اپریل
- کیا
- AS
- پہلوؤں
- اثاثے
- منسلک
- At
- خود کار طریقے سے
- میشن
- AWS
- متوازن
- بیلنس شیٹس
- بینکنگ
- بنیاد
- BE
- ہو جاتا ہے
- نیچے
- بہتر
- کے درمیان
- ارب
- بلاک
- بورڈ
- بورڈ کھیل
- دونوں
- عمارت
- کاروبار
- لیکن
- by
- فون
- کہا جاتا ہے
- کر سکتے ہیں
- دارالحکومت
- کیپٹل مارکیٹس
- مقدمات
- کیش
- خلیات
- کچھ
- سرٹیفکیٹ
- چین
- انتخاب
- میں سے انتخاب کریں
- درجہ بندی کرنا۔
- واضح طور پر
- کلائنٹ
- کلوز
- کوڈ
- خودکش
- رنگ
- کالم
- کس طرح
- وعدوں
- جزو
- اجزاء
- آپکا اعتماد
- پر مشتمل ہے
- پر مشتمل ہے
- جاری
- تبدیل
- کارپوریٹ
- اسی کے مطابق
- قیمت
- بنائی
- کریڈٹ
- اپنی مرضی کے
- گاہکوں
- اعداد و شمار
- ڈیٹا تجزیہ
- ڈیٹا تجزیات
- ڈیٹا کی ساخت
- ڈیٹا بیس
- قرض
- دسمبر
- گہرے
- کی وضاحت
- ثبوت
- تفصیلات
- پتہ چلا
- ترقی
- مختلف
- سمت
- ڈسکاؤنٹ
- بات چیت
- بات چیت
- دکھاتا ہے
- ممتاز
- متنوع
- دستاویز
- دستاویزات
- شک
- دو
- کے دوران
- ہر ایک
- کو کم
- آسان
- آسان
- کارکردگی
- عنصر
- عناصر
- ایمبیڈڈ
- گلے
- کے قابل بناتا ہے
- بہتر
- اضافہ
- اداروں
- ہستی
- ایکوئٹی
- مساوی
- اسٹیٹ
- اندازے کے مطابق
- مثال کے طور پر
- مثال کے طور پر
- ایکسل
- تجربہ
- تلاش
- برآمد
- نکالنے
- نچوڑ۔
- منصفانہ
- نمایاں کریں
- فائل
- فائلوں
- فائلنگ
- مالی
- مالیاتی جائزہ
- مالیاتی خدمات
- پہلا
- مقرر
- مقررہ آمدنی
- لچک
- لچکدار
- توجہ مرکوز
- توجہ مرکوز
- پر عمل کریں
- کے بعد
- کے لئے
- غیر ملکی
- فارمیٹ
- ملا
- چار
- سے
- فنڈز
- حاصل کرنا
- فوائد
- کھیل
- حاصل
- GitHub کے
- دے دو
- دی
- گلوبل
- Go
- حکومت
- مجموعی
- گروپ
- تھا
- ہینڈل
- ہے
- he
- ہیڈر
- مدد
- مدد
- مدد کرتا ہے
- اس کی
- درجہ بندی
- اعلی
- روشنی ڈالی گئی
- پر روشنی ڈالی گئی
- پریشان
- کی ڈگری حاصل کی
- کس طرح
- کیسے
- تاہم
- HTML
- HTTPS
- انسانی
- کی نشاندہی
- شناخت
- شناخت
- شناختی
- if
- تصویر
- درآمد
- اہم
- بہتری
- in
- شامل
- انکم
- معلومات
- انفراسٹرکچر
- انسٹال
- انشورنس
- ارادہ
- تشریح
- میں
- متعارف
- تعارف
- سرمایہ کاری
- پکارتے ہیں۔
- IT
- اشیاء
- میں
- فوٹو
- JSON
- دائرہ کار
- رکھیں
- جانا جاتا ہے
- نہیں
- زبان
- زبانیں
- بڑے
- سیکھنے
- کم
- سطح
- لائبریری
- پسند
- لائن
- لائنوں
- لسٹ
- ایل ایل ایم
- بوجھ
- محل وقوع
- منطق
- اب
- بند
- نقصانات
- مشین
- مشین لرننگ
- بنا
- اہم
- بنا
- بناتا ہے
- بنانا
- مینیجر
- ہیرا پھیری
- مینوفیکچرنگ
- مارکیٹ
- Markets
- مئی..
- کا مطلب ہے کہ
- میٹا ڈیٹا
- طریقہ
- مائیکروسافٹ
- شاید
- دس لاکھ
- لاکھوں
- ML
- ایم ایل اوپس
- ماڈل
- ماڈل
- نظر ثانی کرنے
- قیمت
- کرنسی مارکیٹ
- ماہ
- زیادہ
- بہت
- قدرتی
- قدرتی زبان عملیات
- ضروری
- خالص
- نئی
- ویزا
- نہیں
- نوٹس..
- اب
- اعتراض
- اشیاء
- of
- پیش کرتے ہیں
- تجویز
- اکثر
- on
- ایک
- صرف
- آپریشنز
- or
- تنظیم
- تنظیمیں
- دیگر
- دوسری صورت میں
- ہمارے
- پیداوار
- باہر
- پر
- صفحہ
- pandas
- پیرامیٹر
- حصہ
- ہموار
- پلاٹا
- افلاطون ڈیٹا انٹیلی جنس
- پلیٹو ڈیٹا
- کھیلیں
- مقبول
- حصہ
- پوسٹ
- طاقت
- طاقتور
- حال (-)
- پہلے
- بنیادی طور پر
- پرائمری
- پرنٹ
- پہلے
- مسائل
- عمل
- پروسیسنگ
- مصنوعات
- پروڈکٹ مینیجر
- پیداوری
- پیشہ ور ماہرین
- پروگرامنگ
- پروگرامنگ زبانوں
- منصوبوں
- فراہم
- ازگر
- Q1
- Q3
- Q3 2021
- Q3 2022
- سوالات
- اصلی
- رئیل اسٹیٹ
- اصل وقت
- تسلیم شدہ
- پہچانتا ہے
- درج
- بار بار چلنے والی
- بے شک
- خطے
- ریگولیٹری
- متعلقہ
- تعلقات
- متعلقہ
- ہٹا
- رپورٹ
- رپورٹیں
- کی نمائندگی کرتا ہے
- ضرورت
- بالترتیب
- جواب
- جوابات
- محدود
- محدود
- پابندی
- نتیجے
- خوردہ
- -جائزہ لیا
- s
- فروخت
- پیمانے
- سکور
- بغیر کسی رکاوٹ کے
- SEC
- ایس ای سی فائلنگ۔
- سیکشن
- سیکورٹیز
- سیکورٹی
- دیکھنا
- بیچنے والے
- سینئر
- ستمبر
- سروس
- سروسز
- قائم کرنے
- کئی
- سائز
- وہ
- دکھایا گیا
- شوز
- دستخط
- اہم
- اسی طرح
- آسان بنانے
- ایک
- سائز
- حل
- مہارت دیتا ہے
- مہارت
- شروع
- مرحلہ
- سویوستیت
- سخت
- ساخت
- منظم
- موضوع
- بعد میں
- اس طرح
- خلاصہ
- فراہمی
- فراہمی کا سلسلہ
- حمایت
- کی حمایت کرتا ہے
- سسٹمز
- ٹیبل
- کاموں
- ٹیم
- ٹیکنیکل
- تکنیکی ماہر
- سے
- کہ
- ۔
- ان
- ان
- وہاں.
- یہ
- وہ
- تیسری پارٹی
- اس
- ان
- تین
- کے ذریعے
- وقت
- عنوان
- عنوانات
- کرنے کے لئے
- اوزار
- اوپر کی سطح
- کل
- تجارت
- دو
- قسم
- اقسام
- عام طور پر
- ہمیں
- امریکی حکومت
- سمجھ
- غیر حقیقی نقصانات
- اپ ڈیٹ
- us
- استعمال کی شرائط
- استعمال کیا جاتا ہے
- کا استعمال کرتے ہوئے
- افادیت
- قیمت
- اقدار
- مختلف اقسام کے
- مختلف
- بنام
- کی طرف سے
- تصور
- تھا
- راستہ..
- we
- ویب
- ویب خدمات
- جس
- وسیع
- گے
- ساتھ
- کے اندر
- الفاظ
- کام
- کام کے بہاؤ
- کام کر
- کام کرتا ہے
- گا
- تحریری طور پر
- سال
- تم
- اور
- زیفیرنیٹ