Тонко налаштуйте трансформаторні мовні моделі для лінгвістичного розмаїття за допомогою Hugging Face на Amazon SageMaker PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Точна настройка мовних моделей трансформаторів для мовного розмаїття за допомогою Hugging Face на Amazon SageMaker

Сьогодні використовується приблизно 7,000 мов. Незважаючи на спроби наприкінці 19 століття винайти штучні мови, такі як волапюк або есперанто, немає жодних ознак уніфікації. Люди все ще обирають створювати нові мови (подумайте про свого улюбленого героя фільму, який розмовляє клінгонською, дотракійською чи ельфійською).

Сьогодні в прикладах обробки природної мови (NLP) домінує англійська мова, рідна мова лише для 5% населення, а нею розмовляють лише 17%.

Команда цифровий розрив визначається як розрив між тими, хто має доступ до цифрових технологій, і тими, хто не може. Відсутність доступу до знань або освіти через мовні бар’єри також сприяє цифровому розриву не лише між людьми, які не розмовляють англійською мовою, але й для англомовних людей, які не мають доступу до неанглійського контенту, який зменшує різноманітність думок і знань. Взаємно можна багато чому навчитися.

У цій публікації ми підсумовуємо проблеми мов із низьким ресурсом і експериментуємо з різними підходами до вирішення, які охоплюють понад 100 мов за допомогою трансформаторів Hugging Face на Amazon SageMaker.

Ми точно налаштовуємо різні попередньо підготовлені мовні моделі на основі трансформатора для завдання запитання та відповіді. У нашому прикладі ми використовуємо турецьку мову, але ви можете застосувати цей підхід до іншої підтримуваної мови. Ми зосереджені на варіантах BERT [1]., оскільки чудовою особливістю BERT є його уніфікована архітектура для різних завдань.

Ми демонструємо кілька переваг використання трансформерів Hugging Face Amazon SageMaker, як-от навчання та експериментування в масштабі, а також підвищення продуктивності та економічності.

Огляд НЛП

З 2017 року в НЛП відбулося кілька важливих подій. Поява архітектур глибокого навчання, таких як трансформатори [2], методи неконтрольованого навчання для навчання таких моделей на надзвичайно великих наборах даних, а також трансфер навчання значно покращили стан мистецтво в розумінні природної мови. Поява попередньо навчених модельних центрів ще більше демократизувала доступ до колективних знань НЛП-спільноти, усунувши необхідність починати з нуля.

Мовна модель — це модель НЛП, яка вчиться передбачати наступне слово (або будь-яке замасковане слово) у послідовності. Справжня краса мовних моделей як відправної точки полягає в трьох аспектах: по-перше, дослідження показали, що мовні моделі, навчені на великих текстових даних, вивчають складніші значення слів, ніж попередні методи. Наприклад, щоб мати можливість передбачити наступне слово в реченні, мовна модель має добре розуміти контекст, семантику, а також граматику. По-друге, для навчання мовної моделі під час попереднього навчання не потрібні дані з мітками, які є дефіцитними та дорогими. Це важливо, оскільки величезна кількість немаркованих текстових даних є загальнодоступною в Інтернеті багатьма мовами. По-третє, було продемонстровано, що як тільки мовна модель стає достатньо розумною, щоб передбачити наступне слово для будь-якого даного речення, відносно легко виконувати інші завдання НЛП, такі як аналіз настроїв або відповіді на питання, з дуже невеликою кількістю позначених даних, оскільки точне налаштування повторного використання представлення з попередньо навченої моделі мови [3].

Повністю керовані послуги НЛП також прискорили впровадження НЛП. «Амазонка» – це повністю керована служба, яка дає змогу аналітиці тексту отримувати інформацію з вмісту документів і підтримує різноманітні мови. Amazon Comprehend підтримує користувальницьку класифікацію та розпізнавання особливих об’єктів, а також дає змогу створювати власні моделі NLP, які відповідають вашим вимогам, без жодних знань у ML.

Проблеми та рішення для мов із низьким ресурсом

Основна проблема для великої кількості мов полягає в тому, що вони мають відносно менше даних для навчання. Такі називаються мови з низьким ресурсом. У статтях m-BERT [4] і XLM-R [7] урду та суахілі називають мовами з низьким ресурсом.

На наступному малюнку вказано коди ISO понад 80 мов і різницю в розмірі (в логарифмічному масштабі) між двома основними попередніми підготовками [7]. У Вікіпедії (помаранчевий) є лише 18 мов з понад 1 мільйоном статей і 52 мови з понад 1,000 статей, але 164 мови лише з 1–10,000 9 статей [XNUMX]. Корпус CommonCrawl (синій) збільшує обсяг даних для мов із низьким ресурсом на два порядки. Тим не менш, вони все ще відносно малі порівняно з мовами з великим ресурсом, такими як англійська, російська чи німецька.

Тонко налаштуйте трансформаторні мовні моделі для лінгвістичного розмаїття за допомогою Hugging Face на Amazon SageMaker PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

З точки зору кількості статей у Вікіпедії, турецька є іншою мовою в тій самій групі з понад 100,000 28 статей (54), разом з урду (XNUMX). Порівняно з урду, турецька буде розглядатися як мова середнього ресурсу. Турецька мова має деякі цікаві характеристики, які можуть зробити мовні моделі більш потужними, створивши певні проблеми в лінгвістиці та токенізації. Це аглютинативна мова. Він має дуже вільний порядок слів, складну морфологію або часи без англійських еквівалентів. Фрази, утворені з кількох слів у таких мовах, як англійська, можна виразити однією словоформою, як показано в наступному прикладі.

турецька англійська
кіт Кішка
кітЛер Кішкаs
кітГілЛер Сім'я с коти
Кедігіллердень Приналежність до сімейство котів
кітleştirebileceklerimizdenmişçesineyken Коли здається, що це те, що ми можемо зробити як

Два основних підходи до вирішення – це мовні моделі або багатомовні моделі (з або без міжмовного контролю):

  • Одномовні мовні моделі – Перший підхід полягає у застосуванні варіанту BERT до конкретної цільової мови. Чим більше навчальних даних, тим краща продуктивність моделі.
  • Багатомовні масковані мовні моделі – Інший підхід полягає у попередньому навчанні моделей великих трансформаторів багатьма мовами. Багатомовне мовне моделювання має на меті вирішити проблему нестачі даних для мов із низьким ресурсом шляхом попереднього навчання на великій кількості мов, щоб завдання НЛП, вивчені з однієї мови, можна було перенести на інші мови. Багатомовні масковані мовні моделі (MLM) підштовхнули сучасний рівень до завдань міжмовного розуміння. Ось два приклади:
    • Багатомовний BERT – Багатомовну модель BERT було навчено 104 різними мовами за допомогою корпусу Вікіпедії. Однак було показано, що він добре узагальнює лише подібні мовні структури та типологічні особливості (наприклад, мови з подібним порядком слів). Його багатомовність зменшується особливо для мов з різними порядками слів (наприклад, підмет/об’єкт/дієслово) [4].
    • XLM-R – Міжмовні мовні моделі (XLM) навчаються з міжмовною метою за допомогою паралельних наборів даних (однаковий текст двома різними мовами) або без міжмовної цілі за допомогою одномовних наборів даних [6]. Дослідження показують, що мови з низьким ресурсом виграють від масштабування до більшої кількості мов. XLM-RoBERTa — це трансформаторна модель, натхненна RoBERTa [5], і її відправною точкою є припущення, що багатомовні BERT і XLM недостатньо налаштовані. Він навчається на 100 мовах за допомогою корпусу Вікіпедії та CommonCrawl, тому кількість навчальних даних для мов із низьким ресурсом приблизно на два порядки більша порівняно з m-BERT [7].

Іншою проблемою багатомовних мовних моделей для мов із низьким ресурсом є розмір словникового запасу та токенізація. Оскільки всі мови використовують той самий спільний словник у багатомовних мовних моделях, існує компроміс між збільшенням розміру словника (що збільшує вимоги до обчислення) та його зменшенням (слова, яких немає у словнику, позначатимуться як невідомі або використовуватимуть символи замість слів як токенів ігнорував би будь-яку структуру). Алгоритм токенізації word-piece поєднує в собі переваги обох підходів. Наприклад, він ефективно обробляє слова поза словниковим запасом, розділяючи слово на підслова, поки воно не буде присутнім у словнику або поки не буде досягнуто окремий символ. Токенізація на основі символів не дуже корисна, за винятком деяких мов, наприклад китайської. Існують методи вирішення проблем для мов з низьким ресурсом, такі як вибірка з певними розподілами [6].

У наведеній нижче таблиці показано, як поводяться три різні токенізери для слова «kedileri» (що означає «його кішки»). Для певних мов і завдань НЛП це мало б значення. Наприклад, для завдання відповіді на запитання модель повертає діапазон індексу початкового маркера та кінцевого індексу маркера; повернення «kediler» («кішки») або «kedileri» («його коти») втратить певний контекст і призведе до різних результатів оцінки для певних показників.

Попередньо підготовлена ​​модель Розмір словникового запасу Токенізація для «Kedileri»*
dbmdz/bert-base-turkish-uncased 32,000 Жетони [CLS] кішки ##і [ВЕРЕСЕНЬ]
Введіть ідентифікатори 2 23714 1023 3
bert-base-multilingual-uncased 105,879 Жетони [CLS] кед ##ілер ##і [ВЕРЕСЕНЬ]
Введіть ідентифікатори 101 30210 33719 10116 102
deepset/xlm-roberta-base-squad2 250,002 Жетони Ке di s
Введіть ідентифікатори 0 1345 428 1341 .
* Англійською мовою: (Its) cats

Таким чином, незважаючи на те, що мови з низьким ресурсом виграють від багатомовних мовних моделей, виконання токенізації спільного словника може ігнорувати деякі лінгвістичні особливості для певних мов.

У наступному розділі ми порівняємо три підходи, налаштувавши їх для завдання відповідей на питання, використовуючи набір даних QA для турецької мови: BERTurk [8], багатомовний BERT [4] і XLM-R [7].

Огляд рішення

Наш робочий процес виглядає наступним чином:

  1. Підготуйте набір даних в Студія Amazon SageMaker середовище блокнота та завантажте його Служба простого зберігання Amazon (Amazon S3).
  2. Запускайте паралельні навчальні завдання на SageMaker для навчання контейнерів глибокого навчання, надаючи сценарій тонкого налаштування.
  3. Збирайте метадані з кожного експерименту.
  4. Порівняйте результати та визначте найбільш підходящу модель.

Наступна діаграма ілюструє архітектуру рішення.

Тонко налаштуйте трансформаторні мовні моделі для лінгвістичного розмаїття за допомогою Hugging Face на Amazon SageMaker PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Додаткову інформацію про ноутбуки Studio див Пориньте глибоко в архітектуру Amazon SageMaker Studio Notebooks. Додаткову інформацію про інтеграцію Hugging Face із SageMaker див AWS і Hugging Face співпрацюють, щоб спростити та прискорити впровадження моделей обробки природної мови.

Підготуйте набір даних

Бібліотека наборів даних Hugging Face надає потужні методи обробки даних, щоб швидко підготувати набір даних для навчання в моделі глибокого навчання. Наступний код завантажує турецький набір даних QA та досліджує, що всередині:

data_files = {}
data_files["train"] = 'data/train.json'
data_files["validation"] = 'data/val.json' ds = load_dataset("json", data_files=data_files) print("Number of features in dataset: n Train = {}, n Validation = {}".format(len(ds['train']), len(ds['validation'])))

Є близько 9,000 тисяч зразків.

Тонко налаштуйте трансформаторні мовні моделі для лінгвістичного розмаїття за допомогою Hugging Face на Amazon SageMaker PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Вхідний набір даних дещо трансформується у формат, очікуваний попередньо навченими моделями, і містить такі стовпці:

df = pd.DataFrame(ds['train'])
df.sample(1)

Тонко налаштуйте трансформаторні мовні моделі для лінгвістичного розмаїття за допомогою Hugging Face на Amazon SageMaker PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.
Англійський переклад результату виглядає наступним чином:

  • контекст – Ресіт Емре Конгар (нар. 13, Стамбул), турецький соціолог, професор.
  • питання – Яке вчене звання має Емре Конгар?
  • відповідь – професор

Сценарій тонкого налаштування

Бібліотека Hugging Face Transformers надає приклад коду для точного налаштування моделі для завдання відповіді на питання, що називається run_qa.py. Наступний код ініціалізує тренер:

 # Initialize our Trainer trainer = QuestionAnsweringTrainer( model=model, args=training_args, train_dataset=train_dataset, eval_dataset=eval_dataset, eval_examples=eval_examples, tokenizer=tokenizer, data_collator=data_collator, post_process_function=post_processing_function, compute_metrics=compute_metrics, )

Давайте розглянемо будівельні блоки на високому рівні.

Токенізатор

Сценарій завантажує токенізатор за допомогою AutoTokenizer клас. AutoTokenizer клас піклується про повернення правильного токенізера, який відповідає моделі:

tokenizer = AutoTokenizer.from_pretrained( model_args.model_name_or_path, cache_dir=model_args.cache_dir, use_fast=True, revision=model_args.model_revision, use_auth_token=None, )

Нижче наведено приклад роботи токенизатора:

from transformers import AutoTokenizer tokenizer = AutoTokenizer.from_pretrained("deepset/xlm-roberta-base-squad2") input_ids = tokenizer.encode('İstanbulun en popüler hayvanı hangisidir? Kedileri', return_tensors="pt")
tokens = tokenizer('İstanbulun en popüler hayvanı hangisidir? Kedileri').tokens()

Тонко налаштуйте трансформаторні мовні моделі для лінгвістичного розмаїття за допомогою Hugging Face на Amazon SageMaker PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Model

Скрипт завантажує модель. AutoModel класи (наприклад, AutoModelForQuestionAnswering) безпосередньо створити клас із ваговими коефіцієнтами, конфігурацією та словником відповідної архітектури з назвою та шляхом до попередньо навченої моделі. Завдяки абстракції від Hugging Face ви можете легко переключитися на іншу модель, використовуючи той самий код, просто вказавши назву моделі. Перегляньте наступний приклад коду:

 model = AutoModelForQuestionAnswering.from_pretrained( model_args.model_name_or_path, config=config, cache_dir=model_args.cache_dir, revision=model_args.model_revision, )

Попередня обробка та навчання

Команда prepare_train_features() та prepare_validation_features() методи попередньої обробки набору даних навчання та наборів даних перевірки відповідно. Код повторює вхідний набір даних і створює послідовність із контексту та поточного запитання з правильними ідентифікаторами типу токенів для конкретної моделі (числовими представленнями токенів) і масками уваги. Потім послідовність пропускається через модель. Це виводить діапазон балів як для початкової, так і для кінцевої позицій, як показано в наступній таблиці.

Поля набору вхідних даних Попередньо оброблені поля набору даних навчання для QuestionAnsweringTrainer
id input_ids
назву маска_уваги
контекст стартові_позиції
питання кінцеві_позиції
Відповіді { answer_start, answer_text } .

Оцінка

Команда compute_metrics() метод піклується про обчислення показників. Ми використовуємо такі популярні показники для завдань із відповідями на питання:

  • Точна відповідність – Вимірює відсоток прогнозів, які точно збігаються з будь-якою основною відповіддю.
  • F1 бал – Вимірює середнє збіг між прогнозом і основною відповіддю. Оцінка F1 є середнім гармонійним значенням точності та запам’ятовування:
    • Точність – Відношення кількості спільних слів до загальної кількості слів у передбаченні.
    • Згадувати – Відношення кількості спільних слів до загальної кількості слів у базовій правді.

Кероване навчання SageMaker

Налаштування та керування спеціальними середовищами машинного навчання (ML) може бути трудомістким і громіздким. с Контейнер глибокого навчання AWS (DLC) для бібліотек Hugging Face Transformers ми маємо доступ до готових і оптимізованих структур глибокого навчання, що дозволяє легко запускати наш сценарій у кількох навчальних завданнях з мінімальним додатковим кодом.

Нам просто потрібно використовувати Обіймає Face Estimator доступний у SageMaker Python SDK із такими вхідними даними:

# Trial configuration
config['model'] = 'deepset/xlm-roberta-base-squad2'
config['instance_type'] = 'ml.p3.16xlarge'
config['instance_count'] = 2 # Define the distribution parameters in the HuggingFace Estimator config['distribution'] = {'smdistributed':{'dataparallel':{ 'enabled': True }}}
trial_configs.append(config) # We can specify a training script that is stored in a GitHub repository as the entry point for our Estimator, # so we don’t have to download the scripts locally.
git_config = {'repo': 'https://github.com/huggingface/transformers.git'} hyperparameters_qa={ 'model_name_or_path': config['model'], 'train_file': '/opt/ml/input/data/train/train.json', 'validation_file': '/opt/ml/input/data/val/val.json', 'do_train': True, 'do_eval': True, 'fp16': True, 'per_device_train_batch_size': 16, 'per_device_eval_batch_size': 16, 'num_train_epochs': 2, 'max_seq_length': 384, 'pad_to_max_length': True, 'doc_stride': 128, 'output_dir': '/opt/ml/model' } huggingface_estimator = HuggingFace(entry_point='run_qa.py', source_dir='./examples/pytorch/question-answering', git_config=git_config, instance_type=config['instance_type'], instance_count=config['instance_count'], role=role, transformers_version='4.12.3', pytorch_version='1.9.1', py_version='py38', distribution=config['distribution'], hyperparameters=hyperparameters_qa, metric_definitions=metric_definitions, enable_sagemaker_metrics=True,) nlp_training_job_name = f"NLPjob-{model}-{instance}-{int(time.time())}" training_input_path = f's3://{sagemaker_session_bucket}/{s3_prefix_qa}/' test_input_path = f's3://{sagemaker_session_bucket}/{s3_prefix_qa}/' huggingface_estimator.fit( inputs={'train': training_input_path, 'val': test_input_path}, job_name=nlp_training_job_name, experiment_config={ "ExperimentName": nlp_experiment.experiment_name, "TrialName": nlp_trial.trial_name, "TrialComponentDisplayName": nlp_trial.trial_name,}, wait=False, )

Оцініть результати

Після завершення роботи з тонкого налаштування завдання відповіді на турецьке запитання ми порівнюємо ефективність моделі трьох підходів:

  • Одномовна модель мови – Викликається попередньо навчена модель, налаштована на текст відповіді на турецьке запитання bert-base-turkish-uncased [8]. Він досягає оцінки F1 75.63 і оцінки точної відповідності 56.17 лише за дві епохи та з 9,000 позначених елементів. Однак цей підхід не підходить для мови з низьким ресурсом, коли попередньо навчена модель мови не існує або є мало даних для навчання з нуля.
  • Багатомовна модель мови з багатомовним BERT – Попередньо навчена модель називається bert-base-multilingual-uncased. Багатомовна стаття BERT [4] показала, що вона добре узагальнюється для різних мов. Порівняно з одномовною моделлю, вона працює гірше (оцінка F1 71.73, точна відповідність 50:45), але зауважте, що ця модель обробляє понад 100 інших мов, залишаючи менше місця для представлення турецької мови.
  • Багатомовна модель мови з XLM-R – Попередньо навчена модель називається xlm-roberta-base-squad2. Документ XLM-R показує, що можна мати одну велику модель для понад 100 мов без шкоди для продуктивності кожної мови [7]. Для турецького завдання відповіді на питання він перевершує багатомовний BERT та одномовний BERT F1 на 5% і 2% відповідно (оцінка F1 77.14, точна відповідність 56.39).

Тонко налаштуйте трансформаторні мовні моделі для лінгвістичного розмаїття за допомогою Hugging Face на Amazon SageMaker PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Наше порівняння не враховує інші відмінності між моделями, як-от ємність моделі, використані навчальні набори даних, завдання NLP, які були попередньо навчені, розмір словникового запасу або токенізація.

Додаткові експерименти

Наданий зошит містить додаткові приклади дослідів.

SageMaker надає широкий спектр типів навчальних екземплярів. Ми налаштували модель XLM-R на p3.2xlarge (графічний процесор: графічний процесор Nvidia V100, архітектура графічного процесора: Volta (2017)), p3.16xlarge (графічний процесор: 8 графічних процесорів Nvidia V100) і g4dn.xlarge (графічний процесор: Nvidia T4). графічний процесор, архітектура графічного процесора: Turing (2018)), і помітив наступне:

  • Тривалість навчання – Згідно з нашим експериментом, моделі XLM-R потрібно було приблизно 24 хвилини для навчання на p3.2xlarge і 30 хвилин на g4dn.xlarge (приблизно на 23% довше). Ми також виконали розподілене тонке налаштування на двох примірниках p3.16xlarge, і час навчання скоротився до 10 хвилин. Для отримання додаткової інформації про розподілене навчання трансформаторної моделі на SageMaker див Розподілене тонке налаштування моделі BERT Large для завдання на запитання-відповідь за допомогою трансформаторів Hugging Face Transformers на Amazon SageMaker.
  • Витрати на навчання – Ми використовували AWS Pricing API, щоб отримати ціни SageMaker за запитом і розрахувати їх на льоту. Згідно з нашим експериментом, навчання коштувало приблизно $1.58 на p3.2xlarge і приблизно в чотири рази менше на g4dn.xlarge ($0.37). Розподілене навчання на двох екземплярах p3.16xlarge з використанням 16 графічних процесорів коштує 9.68 доларів США.

Підводячи підсумок, хоча g4dn.xlarge був найдешевшим комп’ютером, його навчання також тривало приблизно втричі довше, ніж найпотужніший тип екземплярів, з яким ми експериментували (два p3.16xlarge). Залежно від пріоритетів вашого проекту, ви можете вибрати з широкого спектру типів навчальних екземплярів SageMaker.

Висновок

У цій публікації ми досліджували тонке налаштування попередньо підготовлених мовних моделей на основі трансформатора для завдання відповіді на запитання для мови середнього ресурсу (у цьому випадку турецької). Ви можете застосувати цей підхід до понад 100 інших мов, використовуючи одну модель. На момент написання статті розширення моделі для охоплення всіх 7,000 мов світу все ще є непомірним, але сфера НЛП дає можливість розширити наші горизонти.

Мова є основним методом людського спілкування, а також засобом передачі цінностей і поширення краси культурної спадщини. Мовне розмаїття зміцнює міжкультурний діалог і будує інклюзивні суспільства.

ML — це дуже ітеративний процес; протягом одного проекту спеціалісти з обробки даних тренують сотні різних моделей, наборів даних і параметрів у пошуках максимальної точності. SageMaker пропонує найповніший набір інструментів для використання потужності машинного навчання та глибокого навчання. Це дозволяє організовувати, відстежувати, порівнювати та оцінювати масштабні експерименти МЛ.

Hugging Face інтегровано з SageMaker, щоб допомогти науковцям швидше та легше розробляти, тренувати та налаштовувати найсучасніші моделі NLP. Ми продемонстрували кілька переваг використання трансформаторів Hugging Face на Amazon SageMaker, як-от навчання та експерименти в масштабі, а також підвищення продуктивності та економічності.

Ви можете експериментувати із завданнями NLP на вашій улюбленій мові в SageMaker у всіх регіонах AWS, де доступний SageMaker. Приклад коду блокнота доступний у GitHub.

Щоб дізнатися, як Amazon SageMaker Training Compiler може прискорити навчання моделей глибокого навчання на 50%, див. Нове – представлення навчального компілятора SageMaker.

Автори хочуть висловити свою глибоку вдячність Маріано Кампу та Емілі Веббер за рецензування чернеток і надання порад.

посилання

  1. Дж. Девлін та ін., «BERT: Попереднє навчання глибоких двонаправлених трансформаторів для розуміння мови», (2018).
  2. А. Васвані та ін., «Увага — це все, що вам потрібно», (2017).
  3. Дж. Ховард і С. Рудер, «Тонке налаштування моделі універсальної мови для класифікації тексту», (2018).
  4. Т. Пірес та ін., «Наскільки багатомовним є Multilingual BERT?», (2019).
  5. Ю. Лю та ін., «RoBERTa: надійно оптимізований підхід до підготовки BERT», (2019).
  6. Г. Лемпл та А. Конно, «Попереднє навчання моделі міжмовної мови», (2019).
  7. A. Conneau та ін., «Масштабне навчання міжмовного представлення без нагляду», (2019).
  8. Штефан Шветер. BERTurk – моделі BERT для Туреччини (2020).
  9. Статистика багатомовної Вікі https://en.wikipedia.org/wiki/Wikipedia:Multilingual_statistics

Про авторів

Тонко налаштуйте трансформаторні мовні моделі для лінгвістичного розмаїття за допомогою Hugging Face на Amazon SageMaker PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.Арнав Харе є головним архітектором рішень для глобальних фінансових послуг в AWS. Його основна увага — допомога установам фінансових послуг у створенні та розробці програм аналітики та машинного навчання в хмарі. Арнав отримав ступінь магістра зі штучного інтелекту в Единбурзькому університеті та має 18-річний досвід роботи в галузі, починаючи від невеликих стартапів, які він заснував, і закінчуючи великими підприємствами, такими як Nokia та Bank of America. Поза роботою Арнав любить проводити час зі своїми двома дочками, шукати нові незалежні кав’ярні, читати та подорожувати. Ви можете знайти мене на LinkedIn і в Сурреї, Великобританія, в реальному житті.

Тонко налаштуйте трансформаторні мовні моделі для лінгвістичного розмаїття за допомогою Hugging Face на Amazon SageMaker PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.Хасан-Басрі АКІРМАК (бакалавр і магістр комп’ютерної інженерії та Executive MBA у Вищій школі бізнесу) є старшим архітектором рішень у Amazon Web Services. Він бізнес-технолог, консультує клієнтів корпоративного сегменту. Його спеціалізується на розробці архітектур і бізнес-кейсів для великомасштабних систем обробки даних і рішень машинного навчання. Хасан займався розвитком бізнесу, системною інтеграцією, управлінням програмами для клієнтів у Європі, на Близькому Сході та в Африці. З 2016 року він наставництво сотень підприємців у програмах інкубації стартапів pro bono.

Тонко налаштуйте трансформаторні мовні моделі для лінгвістичного розмаїття за допомогою Hugging Face на Amazon SageMaker PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.Хайко Хоц є старшим архітектором рішень для AI та машинного навчання та очолює спільноту обробки природних мов (NLP) у AWS. До цієї посади він обіймав посаду керівника відділу науки про дані служби підтримки клієнтів Amazon в ЄС. Heiko допомагає нашим клієнтам досягти успіху в їхньому шляху AI/ML на AWS і співпрацює з організаціями в багатьох галузях, включаючи страхування, фінансові послуги, медіа та розваги, охорону здоров’я, комунальні послуги та виробництво. У вільний час Хайко подорожує якомога більше.

Часова мітка:

Більше від AWS Машинне навчання