جستجوی بینش در مخزن اسناد متنی آزاد می تواند مانند یافتن سوزنی در انبار کاه باشد. یک رویکرد سنتی ممکن است استفاده از شمارش کلمات یا سایر تحلیلهای اساسی برای تجزیه اسناد باشد، اما با قدرت هوش مصنوعی آمازون و ابزارهای یادگیری ماشینی (ML)، میتوانیم درک عمیقتری از محتوا به دست آوریم.
درک آمازون یک سرویس کاملاً مدیریت شده است که از پردازش زبان طبیعی (NLP) برای استخراج بینش در مورد محتوای اسناد استفاده می کند. Amazon Comprehend با شناسایی موجودیت ها، عبارات کلیدی، احساسات، مضامین و عناصر سفارشی در یک سند، بینش ها را توسعه می دهد. Amazon Comprehend می تواند بینش های جدیدی را بر اساس درک ساختار سند و روابط موجود ایجاد کند. به عنوان مثال، با آمازون Comprehend، می توانید کل مخزن سند را برای عبارات کلیدی اسکن کنید.
Amazon Comprehend به کارشناسان غیر ML اجازه می دهد تا به راحتی کارهایی را انجام دهند که معمولاً ساعت ها زمان می برد. Amazon Comprehend بسیاری از زمان مورد نیاز برای تمیز کردن، ساختن و آموزش مدل خود را حذف می کند. برای ساخت مدل های سفارشی عمیق تر در NLP یا هر دامنه دیگری، آمازون SageMaker شما را قادر می سازد در صورت تمایل مدل هایی را در یک گردش کار بسیار معمولی ML بسازید، آموزش دهید و به کار ببرید.
در این پست، ما از Amazon Comprehend و سایر خدمات AWS برای تجزیه و تحلیل و استخراج بینش های جدید از مخزن اسناد استفاده می کنیم. سپس، استفاده می کنیم آمازون QuickSight برای ایجاد یک تصویر ابری کلمه ساده و در عین حال قدرتمند برای تشخیص آسان مضامین یا روندها.
بررسی اجمالی راه حل
نمودار زیر معماری راه حل را نشان می دهد.
برای شروع، دادههایی را که باید تجزیه و تحلیل شوند جمعآوری میکنیم و آنها را در یک بارگذاری میکنیم سرویس ذخیره سازی ساده آمازون سطل (Amazon S3) در یک حساب AWS. در این مثال از فایل های فرمت متنی استفاده می کنیم. سپس داده ها توسط Amazon Comprehend تجزیه و تحلیل می شود. Amazon Comprehend یک خروجی با فرمت JSON ایجاد می کند که باید با استفاده از آن به قالب پایگاه داده تبدیل و پردازش شود. چسب AWS. ما داده ها را تأیید می کنیم و جداول داده های فرمت شده خاص را با استفاده از آن استخراج می کنیم آمازون آتنا برای تجزیه و تحلیل QuickSight با استفاده از ابر کلمه. برای اطلاعات بیشتر در مورد تجسم ها، مراجعه کنید تجسم داده ها در آمازون QuickSight.
پیش نیازها
برای این راهنما، شما باید پیش نیازهای زیر را داشته باشید:
داده ها را در یک سطل S3 آپلود کنید
اطلاعات خود را در یک سطل S3 آپلود کنید. برای این پست، از متن فرمت شده UTF-8 قانون اساسی ایالات متحده به عنوان فایل ورودی استفاده می کنیم. سپس شما آماده تجزیه و تحلیل داده ها و ایجاد تجسم هستید.
تجزیه و تحلیل داده ها با استفاده از Amazon Comprehend
انواع مختلفی از اطلاعات مبتنی بر متن و تصویر وجود دارد که می توان با استفاده از Amazon Comprehend پردازش کرد. علاوه بر فایل های متنی می توانید استفاده کنید Amazon Comprehend برای طبقه بندی یک مرحله ای و شناسایی موجودیت تا فایل های تصویری، فایل های پی دی اف و فایل های مایکروسافت ورد را به عنوان ورودی بپذیرید که در این پست به آنها پرداخته نشده است.
برای تجزیه و تحلیل داده های خود، مراحل زیر را انجام دهید:
- در کنسول آمازون Comprehend، را انتخاب کنید تحلیل مشاغل در صفحه ناوبری
- را انتخاب کنید ایجاد شغل تجزیه و تحلیل.
- یک نام برای شغل خود وارد کنید.
- برای نوع تحلیل، انتخاب کنید عبارات کلیدی.
- برای زبانانتخاب کنید انگلیسی.
- برای محل داده های ورودی، پوشه ای را که ایجاد کرده اید به عنوان پیش نیاز مشخص کنید.
- برای محل داده خروجی، پوشه ای را که ایجاد کرده اید به عنوان پیش نیاز مشخص کنید.
- را انتخاب کنید یک نقش IAM ایجاد کنید.
- یک پسوند برای نام نقش وارد کنید.
- را انتخاب کنید ایجاد شغل.
کار اجرا می شود و وضعیت روی نشان داده می شود تحلیل مشاغل احتمال برد مراجعه کنید.
منتظر بمانید تا کار آنالیز کامل شود. Amazon Comprehend یک فایل ایجاد می کند و آن را در پوشه داده خروجی که ارائه کرده اید قرار می دهد. فایل با فرمت .gz یا GZIP است.
این فایل باید دانلود و به فرمت غیر فشرده تبدیل شود. می توانید یک شی را از پوشه داده یا سطل S3 با استفاده از کنسول آمازون S3 دانلود کنید.
- در کنسول آمازون S3، شی را انتخاب کنید و انتخاب کنید دانلود. اگر می خواهید شی را در یک پوشه خاص بارگیری کنید، انتخاب کنید دانلود در اعمال منو.
- پس از اینکه فایل را در رایانه محلی خود دانلود کردید، فایل فشرده را باز کنید و آن را به عنوان یک فایل فشرده نشده ذخیره کنید.
قبل از اینکه خزنده AWS Glue بتواند آن را پردازش کند، فایل فشرده نشده باید در پوشه خروجی آپلود شود. برای این مثال، فایل فشرده نشده را در همان پوشه خروجی که در مراحل بعدی استفاده می کنیم، آپلود می کنیم.
- در کنسول آمازون S3، به سطل S3 خود بروید و انتخاب کنید بارگذاری.
- را انتخاب کنید اضافه کردن فایل.
- فایل های فشرده نشده را از رایانه محلی خود انتخاب کنید.
- را انتخاب کنید بارگذاری.
پس از آپلود فایل، فایل فشرده اصلی را حذف کنید.
- در کنسول آمازون S3، سطل را انتخاب کنید و انتخاب کنید حذف.
- با وارد کردن نام فایل در کادر متن، نام فایل را برای حذف دائمی فایل تأیید کنید.
- را انتخاب کنید حذف اشیاء.
با این کار یک فایل در پوشه خروجی باقی می ماند: فایل فشرده نشده.
با استفاده از چسب AWS داده های JSON را به فرمت جدول تبدیل کنید
در این مرحله، خروجی آمازون Comprehend را آماده میکنید تا بهعنوان ورودی آتنا استفاده شود. خروجی آمازون Comprehend با فرمت JSON است. می توانید از چسب AWS برای تبدیل JSON به یک ساختار پایگاه داده استفاده کنید تا در نهایت توسط QuickSight خوانده شود.
- در کنسول AWS Glue، را انتخاب کنید خزنده ها در صفحه ناوبری
- را انتخاب کنید خزنده ایجاد کنید.
- یک نام برای خزنده خود وارد کنید.
- را انتخاب کنید بعدی.
- برای آیا داده های شما قبلاً به جداول چسب نگاشت شده است؟، انتخاب کنید نه هنوز.
- یک منبع داده اضافه کنید.
- برای مسیر S3، محل پوشه داده خروجی Amazon Comprehend را وارد کنید.
حتما دنباله رو اضافه کنید /
به نام مسیر AWS Glue مسیر پوشه را برای همه فایل ها جستجو می کند.
- انتخاب کنید خزیدن همه پوشه های فرعی.
- را انتخاب کنید یک منبع داده S3 اضافه کنید.
- ایجاد یک جدید هویت AWS و مدیریت دسترسی نقش (IAM) برای خزنده.
- یک نام برای نقش IAM وارد کنید.
- را انتخاب کنید نقش انتخاب شده IAM را به روز کنید مطمئن شوید که نقش جدید به خزنده اختصاص داده شده است.
- را انتخاب کنید بعدی برای وارد کردن اطلاعات خروجی (پایگاه داده).
- را انتخاب کنید افزودن پایگاه داده.
- نام پایگاه داده را وارد کنید.
- را انتخاب کنید بعدی.
- را انتخاب کنید خزنده ایجاد کنید.
- را انتخاب کنید خزنده را اجرا کنید برای اجرای خزنده
می توانید وضعیت خزنده را در کنسول AWS Glue نظارت کنید.
از آتنا برای تهیه جداول برای QuickSight استفاده کنید
آتنا دادهها را از جداول پایگاه داده که خزنده چسب AWS ایجاد کرده است استخراج میکند تا قالبی را ارائه کند که QuickSight برای ایجاد کلمه ابری استفاده میکند.
- در کنسول آتنا، انتخاب کنید Query-Editor در صفحه ناوبری
- برای منبع اطلاعات، انتخاب کنید AwsDataCatalog.
- برای پایگاه داده، پایگاه داده ای را که خزنده ایجاد کرده است انتخاب کنید.
برای ایجاد یک جدول سازگار برای QuickSight، داده ها باید از آرایه ها خارج شوند.
- اولین قدم ایجاد یک پایگاه داده موقت با داده های آمازون Comprehend مربوطه است:
- عبارت زیر به عبارات حداقل سه کلمه و گروه بر اساس فراوانی عبارات محدود می شود:
از QuickSight برای تجسم خروجی استفاده کنید
در نهایت، می توانید خروجی بصری را از تجزیه و تحلیل ایجاد کنید.
- در کنسول QuickSight، را انتخاب کنید تجزیه و تحلیل جدید.
- را انتخاب کنید مجموعه داده جدید.
- برای ایجاد یک مجموعه داده، انتخاب کنید از منابع داده جدید.
- را انتخاب کنید الههء عقل و زیبایی به عنوان منبع داده
- یک نام برای منبع داده وارد کنید و انتخاب کنید ایجاد منبع داده.
- را انتخاب کنید تجسم.
اطمینان حاصل کنید که QuickSight به سطل های S3 که جداول آتنا در آن ذخیره می شوند دسترسی دارد.
- در کنسول QuickSight، نماد نمایه کاربر را انتخاب کرده و انتخاب کنید QuickSight را مدیریت کنید.
- را انتخاب کنید امنیت و مجوزها.
- به دنبال بخش باشید دسترسی QuickSight به خدمات AWS.
با پیکربندی دسترسی به سرویسهای AWS، QuickSight میتواند به دادههای آن سرویسها دسترسی داشته باشد. دسترسی کاربران و گروه ها از طریق گزینه ها قابل کنترل است.
- بررسی کنید که به آمازون S3 دسترسی داده شده است.
اکنون می توانید کلمه ابر را ایجاد کنید.
- کلمه ابر را در زیر انتخاب کنید انواع بصری.
- متن را بکشید دسته بندی بر اساس و بشمار تا اندازه.
برای دسترسی به گزینه های ویرایش، منوی گزینه ها (سه نقطه) را در تصویرسازی انتخاب کنید. برای مثال، ممکن است بخواهید عبارت «دیگر» را از نمایشگر پنهان کنید. همچنین می توانید مواردی مانند عنوان و زیرنویس را برای تصویر خود ویرایش کنید. برای دانلود کلمه ابر به صورت PDF انتخاب کنید دانلود در نوار ابزار QuickSight
پاک کردن
برای جلوگیری از تحمیل هزینههای مداوم، دادهها و فرآیندها یا منابع استفادهنشده در کنسول سرویس مربوطه خود را حذف کنید.
نتیجه
Amazon Comprehend از NLP برای استخراج بینش در مورد محتوای اسناد استفاده می کند. با شناسایی موجودیت ها، عبارات کلیدی، زبان، احساسات و سایر عناصر مشترک در یک سند، بینش ها را توسعه می دهد. شما می توانید از Amazon Comprehend برای ایجاد محصولات جدید بر اساس درک ساختار اسناد استفاده کنید. به عنوان مثال، با آمازون Comprehend، می توانید کل مخزن سند را برای عبارات کلیدی اسکن کنید.
این پست مراحل ساخت یک ابر کلمه را برای تجسم تحلیل محتوای متنی از Amazon Comprehend با استفاده از ابزارهای AWS و QuickSight برای تجسم داده ها شرح می دهد.
بیایید از طریق بخش نظرات در ارتباط باشیم!
درباره نویسنده
کریس گدمن رهبر فروش شرق ایالات متحده برای خرده فروشی و CPG در خدمات وب آمازون است. وقتی کار نمی کند، از گذراندن وقت با دوستان و خانواده اش لذت می برد، به خصوص تابستان ها در کیپ کاد. کریس یک نینجا جنگجو است که به طور موقت بازنشسته شده است، اما او عاشق تماشای و مربیگری دو پسرش در حال حاضر است.
کلارک لیفور یک رهبر معمار راه حل ها در خدمات وب آمازون است که از مشتریان سازمانی در منطقه شرق پشتیبانی می کند. کلارک در نیوانگلند مستقر است و از گذراندن زمان برای معماری دستور العمل ها در آشپزخانه لذت می برد.
- محتوای مبتنی بر SEO و توزیع روابط عمومی. امروز تقویت شوید.
- PlatoData.Network Vertical Generative Ai. به خودت قدرت بده دسترسی به اینجا.
- PlatoAiStream. هوش وب 3 دانش تقویت شده دسترسی به اینجا.
- PlatoESG. خودرو / خودروهای الکتریکی، کربن ، CleanTech، انرژی، محیط، خورشیدی، مدیریت پسماند دسترسی به اینجا.
- PlatoHealth. هوش بیوتکنولوژی و آزمایشات بالینی. دسترسی به اینجا.
- ChartPrime. بازی معاملاتی خود را با ChartPrime ارتقا دهید. دسترسی به اینجا.
- BlockOffsets. نوسازی مالکیت افست زیست محیطی. دسترسی به اینجا.
- منبع: https://aws.amazon.com/blogs/machine-learning/visualize-an-amazon-comprehend-analysis-with-a-word-cloud-in-amazon-quicksight/
- : دارد
- :است
- :نه
- :جایی که
- 1
- 10
- 100
- 11
- 12
- 13
- 17
- 23
- 500
- 7
- 8
- 9
- a
- درباره ما
- پذیرفتن
- دسترسی
- حساب
- اضافه کردن
- اضافه
- AI
- معرفی
- قبلا
- همچنین
- آمازون
- درک آمازون
- آمازون QuickSight
- آمازون خدمات وب
- an
- تحلیل
- تحلیل
- تجزیه و تحلیل
- و
- هر
- روش
- معماری
- هستند
- AS
- اختصاص داده
- At
- اجتناب از
- AWS
- چسب AWS
- مستقر
- اساسی
- BE
- قبل از
- شروع
- جعبه
- ساختن
- بنا
- اما
- by
- CAN
- بار
- را انتخاب کنید
- برگزیده
- طبقه بندی
- ابر
- مربیگری
- نظرات
- مشترک
- سازگار
- کامل
- درک
- کامپیوتر
- کنسول
- قانون اساسی
- محتوا
- کنترل
- معمولی
- تبدیل
- مبدل
- با احتساب
- cpg
- خزنده
- ایجاد
- ایجاد شده
- ایجاد
- صلیب
- سفارشی
- مشتریان
- داده ها
- پایگاه داده
- عمیق تر
- گسترش
- شرح داده شده
- مطلوب
- توسعه
- بحث کردیم
- نمایش دادن
- نمایش داده
- do
- سند
- اسناد و مدارک
- دامنه
- دانلود
- به آسانی
- شرق
- عناصر
- حذف می شود
- را قادر می سازد
- انگلستان
- وارد
- وارد شدن
- سرمایه گذاری
- تمام
- اشخاص
- موجودیت
- به خصوص
- مثال
- کارشناسان
- عصاره
- خانواده
- پرونده
- فایل ها
- پیدا کردن
- نام خانوادگی
- پیروی
- برای
- قالب
- فرکانس
- دوستان
- از جانب
- کاملا
- جمع آوری
- تولید می کنند
- اعطا شده
- گروه
- گروه ها
- آیا
- he
- پنهان شدن
- خود را
- ساعت ها
- HTML
- HTTP
- HTTPS
- ICON
- هویت
- if
- نشان می دهد
- تصویر
- in
- اطلاعات
- ورودی
- بینش
- به
- IT
- اقلام
- کار
- پیوستن
- JPG
- json
- کلید
- زبان
- بعد
- رهبر
- یادگیری
- کمترین
- ترک کردن
- اجازه می دهد تا
- پسندیدن
- محدودیت
- بار
- محلی
- محل
- دوست دارد
- دستگاه
- فراگیری ماشین
- اداره می شود
- بسیاری
- فهرست
- مایکروسافت
- قدرت
- ML
- مدل
- مدل
- مانیتور
- بیش
- بسیار
- باید
- نام
- طبیعی
- پردازش زبان طبیعی
- هدایت
- جهت یابی
- ضروری
- نیازهای
- جدید
- محصولات جدید
- نینجا
- nlp
- به طور معمول
- اکنون
- هدف
- of
- on
- ONE
- مداوم
- باز کن
- گزینه
- or
- سفارش
- اصلی
- دیگر
- تولید
- خود
- با ما
- قطعه
- مسیر
- به طور دائم
- عبارات
- محل
- افلاطون
- هوش داده افلاطون
- PlatoData
- پست
- قدرت
- قوی
- آماده
- پیش نیازها
- روند
- فرآوری شده
- فرآیندهای
- در حال پردازش
- محصولات
- مشخصات
- ارائه
- ارائه
- خواندن
- اماده
- شناختن
- مراجعه
- منطقه
- روابط
- مربوط
- باقی مانده
- مخزن
- منابع
- قابل احترام
- خرده فروشی
- نقش
- دویدن
- حراجی
- همان
- ذخیره
- اسکن
- نمره
- جستجو
- بخش
- احساس
- احساسات
- سرویس
- خدمات
- باید
- ساده
- راه حل
- مزایا
- منبع
- خاص
- هزینه
- Spot
- بیانیه
- وضعیت
- ماندن
- گام
- مراحل
- ذخیره سازی
- ذخیره شده
- ساختار
- چنین
- حمایت از
- مطمئن
- جدول
- گرفتن
- وظایف
- موقت
- مدت
- متن
- که
- La
- شان
- تم
- سپس
- این
- کسانی که
- سه
- از طریق
- زمان
- عنوان
- به
- ابزار
- لمس
- سنتی
- عقبی
- قطار
- مبدل
- روند
- دو
- انواع
- در نهایت
- زیر
- درک
- استفاده نشده
- آپلود شده
- us
- استفاده کنید
- استفاده
- کاربر
- کاربران
- استفاده
- با استفاده از
- بررسی
- از طريق
- تجسم
- تجسم
- خرید
- می خواهم
- تماشای
- we
- وب
- خدمات وب
- چه زمانی
- که
- اراده
- با
- کلمه
- کلمات
- گردش کار
- کارگر
- هنوز
- شما
- شما
- زفیرنت