Amazon Comprehend نے اپنی مرضی کے مطابق ہستی کی شناخت پلیٹو بلاکچین ڈیٹا انٹیلی جنس کے لیے کم تشریحی حدود کا اعلان کیا۔ عمودی تلاش۔ عی

Amazon Comprehend نے حسب ضرورت ہستی کی شناخت کے لیے کم تشریحی حدود کا اعلان کیا۔

ایمیزون کی تعریف ایک قدرتی زبان کی پروسیسنگ (NLP) سروس ہے جسے آپ دستاویزات سے خودکار طور پر اداروں، کلیدی جملے، زبان، جذبات اور دیگر بصیرتیں نکالنے کے لیے استعمال کر سکتے ہیں۔ مثال کے طور پر، آپ فوری طور پر لوگوں، مقامات، تجارتی اشیاء، تاریخوں اور مقداروں جیسے اداروں کا پتہ لگانا شروع کر سکتے ہیں۔ ایمیزون کمپریہنڈ کنسول, AWS کمانڈ لائن انٹرفیس، یا Amazon Comprehend APIs. اس کے علاوہ، اگر آپ کو ان اداروں کو نکالنے کی ضرورت ہے جو اس کا حصہ نہیں ہیں۔ ایمیزون کمپریہنڈ بلٹ ان ہستی کی اقسام، آپ ایک حسب ضرورت ہستی کی شناخت کا ماڈل بنا سکتے ہیں (اس کے نام سے بھی جانا جاتا ہے۔ اپنی مرضی کے مطابق ادارہ پہچاننے والا) ایسی اصطلاحات نکالنے کے لیے جو آپ کے مخصوص استعمال کے معاملے کے لیے زیادہ متعلقہ ہوں، جیسے مصنوعات کے کیٹلاگ سے آئٹمز کے نام، ڈومین کے لیے مخصوص شناخت کنندگان وغیرہ۔ مشین لرننگ لائبریریوں اور فریم ورکس کا استعمال کرتے ہوئے اپنے طور پر ایک درست ہستی شناخت کنندہ بنانا ایک پیچیدہ اور وقت طلب عمل ہوسکتا ہے۔ Amazon Comprehend آپ کے ماڈل ٹریننگ کے کام کو نمایاں طور پر آسان بناتا ہے۔ آپ کو بس اپنے دستاویزات اور تشریحات کے ڈیٹاسیٹ کو لوڈ کرنے کی ضرورت ہے، اور ماڈل بنانے کے لیے Amazon Comprehend کنسول، AWS CLI، یا APIs کا استعمال کریں۔

اپنی مرضی کے مطابق ہستی کو پہچاننے والے کو تربیت دینے کے لیے، آپ Amazon Comprehend کو تربیتی ڈیٹا فراہم کر سکتے ہیں۔ تشریحات یا ہستی کی فہرستیں۔. پہلی صورت میں، آپ دستاویزات کا ایک مجموعہ اور تشریحات کے ساتھ ایک فائل فراہم کرتے ہیں جو اس مقام کی وضاحت کرتی ہے جہاں دستاویزات کے سیٹ میں ہستی واقع ہوتی ہے۔ متبادل طور پر، ہستی کی فہرستوں کے ساتھ، آپ اداروں کی ایک فہرست فراہم کرتے ہیں جس میں ان کے متعلقہ ہستی کی قسم کا لیبل ہوتا ہے، اور غیر تشریح شدہ دستاویزات کا ایک سیٹ جس میں آپ اپنے اداروں کے موجود ہونے کی توقع کرتے ہیں۔ دونوں طریقوں کو ایک کامیاب کسٹم ہستی کی شناخت کے ماڈل کو تربیت دینے کے لیے استعمال کیا جا سکتا ہے۔ تاہم، ایسے حالات ہیں جن میں ایک طریقہ بہتر انتخاب ہو سکتا ہے۔ مثال کے طور پر، جب مخصوص ہستیوں کا مطلب مبہم اور سیاق و سباق پر منحصر ہو سکتا ہے، تو تشریحات فراہم کرنے کی سفارش کی جاتی ہے کیونکہ اس سے آپ کو Amazon Comprehend ماڈل بنانے میں مدد مل سکتی ہے جو ہستیوں کو نکالتے وقت سیاق و سباق کو بہتر طریقے سے استعمال کرنے کے قابل ہو۔

دستاویزات کی تشریح میں کافی محنت اور وقت درکار ہوتا ہے، خاص طور پر اگر آپ غور کریں کہ تشریحات کے معیار اور مقدار دونوں کا اثر ہستی کی شناخت کے نتیجے میں آنے والے ماڈل پر پڑتا ہے۔ غلط یا بہت کم تشریحات خراب نتائج کا باعث بن سکتی ہیں۔ تشریحات حاصل کرنے کے عمل کو ترتیب دینے میں آپ کی مدد کرنے کے لیے، ہم ٹولز فراہم کرتے ہیں جیسے ایمیزون سیج میکر گراؤنڈ ٹروتھ، جسے آپ اپنی دستاویزات کو زیادہ تیزی سے تشریح کرنے اور ایک بنانے کے لیے استعمال کر سکتے ہیں۔ Augmented manifest annotations file. تاہم، یہاں تک کہ اگر آپ گراؤنڈ ٹروتھ استعمال کرتے ہیں، تب بھی آپ کو یہ یقینی بنانا ہوگا کہ آپ کا ٹریننگ ڈیٹاسیٹ اتنا بڑا ہے کہ آپ کے ہستی کے شناخت کنندہ کو کامیابی کے ساتھ بنایا جا سکے۔

آج تک، ایک Amazon Comprehend کسٹم ہستی شناخت کنندہ کو تربیت دینا شروع کرنے کے لیے، آپ کو کم از کم 250 دستاویزات کا مجموعہ اور فی ہستی کی قسم کے لیے کم از کم 100 تشریحات فراہم کرنی پڑتی تھیں۔ آج، ہم اعلان کر رہے ہیں کہ، Amazon Comprehend کے تحت ماڈلز میں حالیہ بہتری کی بدولت، ہم نے سادہ متن CSV تشریح فائلوں کے ساتھ شناخت کنندہ کی تربیت کے لیے کم از کم تقاضوں کو کم کر دیا ہے۔ اب آپ کم از کم تین دستاویزات اور 25 تشریحات فی ہستی کی قسم کے ساتھ ایک حسب ضرورت ہستی کی شناخت کا ماڈل بنا سکتے ہیں۔ آپ نئی سروس کی حدود کے بارے میں مزید تفصیلات اس میں حاصل کر سکتے ہیں۔ رہنما خطوط اور کوٹہ.

یہ ظاہر کرنے کے لیے کہ کس طرح یہ کمی آپ کو ایک حسب ضرورت ہستی شناخت کنندہ کی تخلیق کے ساتھ شروع کرنے میں مدد دے سکتی ہے، ہم نے چند اوپن سورس ڈیٹاسیٹس پر کچھ ٹیسٹ کیے اور کارکردگی کی پیمائشیں جمع کیں۔ اس پوسٹ میں، ہم آپ کو بینچ مارکنگ کے عمل اور ذیلی نمونے والے ڈیٹاسیٹس پر کام کرتے ہوئے حاصل کیے گئے نتائج کے بارے میں بتاتے ہیں۔

ڈیٹا سیٹ کی تیاری

اس پوسٹ میں، ہم وضاحت کرتے ہیں کہ ہم نے تشریح شدہ دستاویزات کا استعمال کرتے ہوئے ایک Amazon Comprehend کسٹم ہستی کی شناخت کنندہ کو کس طرح تربیت دی۔ عام طور پر، تشریحات بطور فراہم کی جا سکتی ہیں۔ CSV فائل۔ایک Augmented manifest فائل جو زمینی سچائی سے تیار کی گئی ہے۔، یا ایک PDF فائل. ہماری توجہ CSV سادہ متن کی تشریحات پر ہے، کیونکہ یہ تشریح کی وہ قسم ہے جو نئے کم از کم تقاضوں سے متاثر ہوتی ہے۔ CSV فائلوں میں درج ذیل ڈھانچہ ہونا چاہیے:

File, Line, Begin Offset, End Offset, Type
documents.txt, 0, 0, 13, ENTITY_TYPE_1
documents.txt, 1, 0, 7, ENTITY_TYPE_2

متعلقہ فیلڈز درج ذیل ہیں:

  • فائل - دستاویزات پر مشتمل فائل کا نام
  • لائن - ہستی پر مشتمل لائن کی تعداد، لائن 0 سے شروع ہوتی ہے۔
  • شروع آفسٹ - ان پٹ ٹیکسٹ میں کریکٹر آفسیٹ (لائن کے آغاز کے نسبت) جو ظاہر کرتا ہے کہ ہستی کہاں سے شروع ہوتی ہے، اس بات پر غور کرتے ہوئے کہ پہلا کریکٹر 0 پوزیشن پر ہے۔
  • آفسیٹ ختم کریں۔ - ان پٹ ٹیکسٹ میں موجود کریکٹر آف سیٹ جو ظاہر کرتا ہے کہ ہستی کہاں ختم ہوتی ہے۔
  • قسم - ہستی کی قسم کا نام جس کی آپ وضاحت کرنا چاہتے ہیں۔

مزید برآں، اس طریقہ کار کو استعمال کرتے وقت، آپ کو تربیتی دستاویزات کا ایک مجموعہ فراہم کرنا پڑتا ہے۔

اپنے ٹیسٹوں کے لیے، ہم نے استعمال کیا۔ SNIPS قدرتی زبان کو سمجھنے کا بینچ مارک, سات صارف کے ارادوں میں تقسیم کراؤڈ سورسڈ کلمات کا ڈیٹا سیٹ (AddToPlaylist, BookRestaurant, GetWeather, PlayMusic, RateBook, SearchCreativeWork, SearchScreeningEvent)۔ ڈیٹاسیٹ کاغذ کے تناظر میں 2018 میں شائع کیا گیا تھا۔ سنیپس وائس پلیٹ فارم: نجی بہ ڈیزائن صوتی انٹرفیس کے لیے ایک ایمبیڈڈ بولی جانے والی زبان کو سمجھنے کا نظام Coucke، et al کی طرف سے.

SNIPS ڈیٹاسیٹ JSON فائلوں کے مجموعے سے بنا ہے جو تشریحات اور خام ٹیکسٹ فائلوں دونوں کو کم کرتی ہے۔ درج ذیل ڈیٹاسیٹ سے ایک ٹکڑا ہے:

{
   "annotations":{
      "named_entity":[
         {
            "start":16,
            "end":36,
            "extent":"within the same area",
            "tag":"spatial_relation"
         },
         {
            "start":40,
            "end":51,
            "extent":"Lawrence St",
            "tag":"poi"
         },
         {
            "start":67,
            "end":70,
            "extent":"one",
            "tag":"party_size_number"
         }
      ],
      "intent":"BookRestaurant"
   },
   "raw_text":"I'd like to eat within the same area of Lawrence St for a party of one"
}

اپنا ہستی شناخت کنندہ بنانے سے پہلے، ہم نے SNIPS تشریحات اور خام ٹیکسٹ فائلوں کو CSV تشریحات کی فائل اور .txt دستاویزات کی فائل میں تبدیل کر دیا۔

ذیل میں ہماری طرف سے ایک اقتباس ہے۔ annotations.csv فائل:

File, Line, Begin Offset, End Offset, Type
documents.txt, 0, 16, 36, spatial_relation
documents.txt, 0, 40, 51, poi
documents.txt, 0, 67, 70, party_size_number

ذیل میں ہماری طرف سے ایک اقتباس ہے۔ documents.txt فائل:

I'd like to eat within the same area of Lawrence St for a party of one
Please book me a table for three at an american gastropub 
I would like to book a restaurant in Niagara Falls for 8 on June nineteenth
Can you book a table for a party of 6 close to DeKalb Av

نمونے کی ترتیب اور بینچ مارکنگ کا عمل

اپنے تجربات کے لیے، ہم نے SNIPS ڈیٹاسیٹ سے ہستی کی اقسام کے ذیلی سیٹ پر توجہ مرکوز کی:

  • بک ریسٹورنٹ - ہستی کی اقسام: spatial_relation, poi, party_size_number, restaurant_name, city, timeRange, restaurant_type, served_dish, party_size_description, country, facility, state, sort, cuisine
  • گیٹ ویدر - ہستی کی اقسام: condition_temperature, current_location, geographic_poi, timeRange, state, spatial_relation, condition_description, city, country
  • موسیقی بجاؤ - ہستی کی اقسام: track, artist, music_item, service, genre, sort, playlist, album, year

مزید یہ کہ، ہم نے تربیت کے لیے نمونے لیے گئے دستاویزات کی تعداد اور فی ادارہ تشریحات کی تعداد کے لحاظ سے مختلف کنفیگریشنز حاصل کرنے کے لیے ہر ڈیٹاسیٹ کا نمونہ لیا شاٹس)۔ یہ ایک حسب ضرورت اسکرپٹ کا استعمال کرتے ہوئے کیا گیا تھا جسے ذیلی نمونے والے ڈیٹاسیٹس بنانے کے لیے ڈیزائن کیا گیا تھا جس میں ہر ہستی کی قسم کم از کم ظاہر ہوتی ہے۔ k اوقات، کم از کم کے اندر n دستاویزات

ہر ماڈل کو تربیتی ڈیٹاسیٹس کے مخصوص ذیلی نمونے کا استعمال کرتے ہوئے تربیت دی گئی تھی۔ نو ماڈل کنفیگریشنز کو مندرجہ ذیل جدول میں دکھایا گیا ہے۔

ذیلی نمونہ دار ڈیٹا سیٹ کا نام تربیت کے لیے نمونے لیے گئے دستاویزات کی تعداد جانچ کے لیے نمونے لیے گئے دستاویزات کی تعداد فی ہستی کی قسم کی تشریحات کی اوسط تعداد (شاٹس)
snips-BookRestaurant-subsample-A 132 17 33
snips-BookRestaurant-subsample-B 257 33 64
snips-BookRestaurant-subsample-C 508 64 128
snips-GetWeather-subsample-A 91 12 25
snips-GetWeather-subsample-B 185 24 49
snips-GetWeather-subsample-C 361 46 95
snips-PlayMusic-subsample-A 130 17 30
snips-PlayMusic-subsample-B 254 32 60
snips-PlayMusic-subsample-C 505 64 119

اپنے ماڈلز کی درستگی کی پیمائش کرنے کے لیے، ہم نے تشخیصی میٹرکس اکٹھے کیے جن کا Amazon Comprehend کسی ہستی کے شناخت کنندہ کو تربیت دیتے وقت خود بخود حساب کرتا ہے:

  • صحت سے متعلق - یہ شناخت کنندہ کے ذریعہ پتہ چلنے والے اداروں کے حصے کی نشاندہی کرتا ہے جن کی صحیح شناخت اور لیبل لگا ہوا ہے۔ ایک مختلف نقطہ نظر سے، صحت سے متعلق کے طور پر بیان کیا جا سکتا ہے tp / (tp + fp)، کہاں tp حقیقی مثبت کی تعداد ہے (صحیح شناخت) اور fp جھوٹے مثبت (غلط شناخت) کی تعداد ہے۔
  • یاد رکھیں - یہ دستاویزات میں موجود اداروں کے حصے کی نشاندہی کرتا ہے جن کی صحیح شناخت اور لیبل لگا ہوا ہے۔ اس کا حساب لگایا جاتا ہے۔ tp / (tp + fn)، کہاں tp حقیقی مثبت کی تعداد ہے اور fn جھوٹے منفی کی تعداد ہے (چھوٹی ہوئی شناخت)۔
  • F1 سکور - یہ درستگی اور یاد کرنے والے میٹرکس کا مجموعہ ہے، جو ماڈل کی مجموعی درستگی کی پیمائش کرتا ہے۔ F1 سکور درستگی اور یاد کرنے والے میٹرکس کا ہارمونک مطلب ہے، اور اس کا حساب کیا جاتا ہے 2 * درستگی * یاد کرنا / (پریسیژن + یاد کرنا).

اپنے ہستی کو پہچاننے والوں کی کارکردگی کا موازنہ کرنے کے لیے، ہم F1 سکور پر توجہ مرکوز کرتے ہیں۔

اس پر غور کرتے ہوئے، ایک ڈیٹاسیٹ اور ذیلی نمونے کے سائز (دستاویزات اور شاٹس کی تعداد کے لحاظ سے)، آپ مختلف ذیلی نمونے تیار کر سکتے ہیں، ہم نے نو کنفیگریشنز میں سے ہر ایک کے لیے 10 ذیلی نمونے بنائے، ہستی کی شناخت کے ماڈلز کو تربیت دی، کارکردگی کی پیمائشیں جمع کیں، اور مائیکرو ایوریجنگ کا استعمال کرتے ہوئے ان کا اوسط لگایا۔ اس نے ہمیں زیادہ مستحکم نتائج حاصل کرنے کی اجازت دی، خاص طور پر چند شاٹ ذیلی نمونوں کے لیے۔

نتائج کی نمائش

مندرجہ ذیل جدول مائیکرو ایوریجڈ F1 اسکورز دکھاتا ہے جو ہر ایک ہستی کے شناخت کنندہ کو تربیت دینے کے بعد Amazon Comprehend کی طرف سے واپس کیے گئے کارکردگی کے میٹرکس پر حساب کیا گیا ہے۔

ذیلی نمونہ دار ڈیٹا سیٹ کا نام ہستی کی شناخت کنندہ مائیکرو ایوریجڈ F1 سکور (%)
snips-BookRestaurant-subsample-A 86.89
snips-BookRestaurant-subsample-B 90.18
snips-BookRestaurant-subsample-C 92.84
snips-GetWeather-subsample-A 84.73
snips-GetWeather-subsample-B 93.27
snips-GetWeather-subsample-C 93.43
snips-PlayMusic-subsample-A 80.61
snips-PlayMusic-subsample-B 81.80
snips-PlayMusic-subsample-C 85.04

مندرجہ ذیل کالم چارٹ ان نو کنفیگریشنز کے لیے F1 سکور کی تقسیم دکھاتا ہے جنہیں ہم نے تربیت دی جیسا کہ پچھلے حصے میں بیان کیا گیا ہے۔

ہم مشاہدہ کر سکتے ہیں کہ ہم اپنی مرضی کے مطابق ہستی کی شناخت کے ماڈلز کو کامیابی کے ساتھ تربیت دینے میں کامیاب ہو گئے ہیں یہاں تک کہ فی ہستی کی قسم میں 25 تشریحات کے ساتھ۔ اگر ہم تین سب سے چھوٹے نمونے والے ڈیٹاسیٹس پر توجہ مرکوز کرتے ہیں (snips-BookRestaurant-subsample-A, snips-GetWeather-subsample-A، اور snips-PlayMusic-subsample-A)، ہم دیکھتے ہیں کہ، اوسطاً، ہم 1% کا F84 سکور حاصل کرنے میں کامیاب ہوئے، جو کہ ہمارے استعمال کردہ دستاویزات اور تشریحات کی محدود تعداد پر غور کرتے ہوئے ایک بہت اچھا نتیجہ ہے۔ اگر ہم اپنے ماڈل کی کارکردگی کو بہتر بنانا چاہتے ہیں، تو ہم اضافی دستاویزات اور تشریحات جمع کر سکتے ہیں اور مزید ڈیٹا کے ساتھ ایک نئے ماڈل کو تربیت دے سکتے ہیں۔ مثال کے طور پر، درمیانے درجے کے ذیلی نمونوں کے ساتھ (snips-BookRestaurant-subsample-B, snips-GetWeather-subsample-B، اور snips-PlayMusic-subsample-B)، جس میں دو گنا زیادہ دستاویزات اور تشریحات شامل ہیں، ہم نے اوسطاً 1% کا F88 سکور حاصل کیا (5% بہتری subsample-A ڈیٹاسیٹس)۔ آخر میں، بڑے ذیلی نمونے والے ڈیٹاسیٹس (snips-BookRestaurant-subsample-C, snips-GetWeather-subsample-C، اور snips-PlayMusic-subsample-C)، جس میں اور بھی زیادہ تشریح شدہ ڈیٹا ہوتا ہے (دستاویزات اور تشریحات کی تعداد سے تقریباً چار گنا subsample-A ڈیٹاسیٹس) نے مزید 2% بہتری فراہم کی، اوسط F1 سکور کو 90% تک بڑھا دیا۔

نتیجہ

اس پوسٹ میں، ہم نے Amazon Comprehend کے ساتھ ایک حسب ضرورت ہستی پہچاننے والے کو تربیت دینے کے لیے کم از کم تقاضوں میں کمی کا اعلان کیا، اور اوپن سورس ڈیٹاسیٹس پر کچھ بینچ مارکس چلائے تاکہ یہ ظاہر کیا جا سکے کہ یہ کمی آپ کو شروع کرنے میں کس طرح مدد کر سکتی ہے۔ آج سے، آپ ایک ہستی کی شناخت کا ماڈل بنا سکتے ہیں جس میں فی ہستی کی قسم (25 کی بجائے) اور کم از کم تین دستاویزات (100 کی بجائے) کے ساتھ کم از کم 250 تشریحات ہوں۔ اس اعلان کے ساتھ، ہم Amazon Comprehend کسٹم ہستی کی شناخت کی ٹیکنالوجی استعمال کرنے میں دلچسپی رکھنے والے صارفین کے داخلے کی راہ میں حائل رکاوٹ کو کم کر رہے ہیں۔ اب آپ تشریح شدہ دستاویزات کے ایک بہت چھوٹے مجموعے کے ساتھ اپنے تجربات کو چلانا شروع کر سکتے ہیں، ابتدائی نتائج کا تجزیہ کر سکتے ہیں، اور اگر آپ کو اپنے استعمال کے معاملے کے لیے زیادہ درست ہستی کی شناخت کے ماڈل کی ضرورت ہو تو اضافی تشریحات اور دستاویزات شامل کر کے اعادہ کر سکتے ہیں۔

مزید جاننے اور حسب ضرورت ہستی شناخت کنندہ کے ساتھ شروع کرنے کے لیے، حوالہ دیں۔ اپنی مرضی کے مطابق ہستی کی شناخت.

ڈیٹا کی تیاری اور بینچ مارکنگ میں قیمتی مدد کے لیے میرے ساتھیوں جیوتی بنسل اور جی ما کا خصوصی شکریہ۔


مصنف کے بارے میں

Amazon Comprehend نے اپنی مرضی کے مطابق ہستی کی شناخت پلیٹو بلاکچین ڈیٹا انٹیلی جنس کے لیے کم تشریحی حدود کا اعلان کیا۔ عمودی تلاش۔ عیلوکا گائیڈا۔ AWS میں ایک حل آرکیٹیکٹ ہے؛ وہ میلان میں مقیم ہے اور اپنے کلاؤڈ سفر میں اطالوی ISVs کی حمایت کرتا ہے۔ کمپیوٹر سائنس اور انجینئرنگ میں تعلیمی پس منظر کے ساتھ، اس نے یونیورسٹی میں اپنا AI/ML جذبہ پیدا کرنا شروع کیا۔ AWS کے اندر نیچرل لینگویج پروسیسنگ (NLP) کمیونٹی کے رکن کے طور پر، Luca AI/ML سروسز کو اپناتے ہوئے صارفین کو کامیاب ہونے میں مدد کرتا ہے۔

ٹائم اسٹیمپ:

سے زیادہ AWS مشین لرننگ