Точная настройка языковых моделей Transformer для языкового разнообразия с помощью Hugging Face на Amazon SageMaker

Переиздано Платоном

Читают: 0

Сегодня используется около 7,000 языков. Несмотря на попытки в конце 19 века изобрести искусственные языки, такие как волапюк или эсперанто, признаков унификации нет. Люди по-прежнему предпочитают создавать новые языки (подумайте о своем любимом киногерое, говорящем на клингонском, дотракийском или эльфийском).

Сегодня в примерах обработки естественного языка (НЛП) преобладает английский язык, родной язык только для 5% населения, на котором говорят только 17%.

Ассоциация цифровой разрыв определяется как разрыв между теми, кто может получить доступ к цифровым технологиям, и теми, кто не может. Отсутствие доступа к знаниям или образованию из-за языковых барьеров также способствует цифровому разрыву не только между людьми, не говорящими по-английски, но и между англоговорящими людьми, у которых нет доступа к неанглоязычному контенту, что уменьшает разнообразие мыслей и знаний. Есть так много, чтобы узнать взаимно.

В этом посте мы обобщаем проблемы языков с низким уровнем ресурсов и экспериментируем с различными подходами к решению, охватывающими более 100 языков, с использованием преобразователей Hugging Face в Amazon SageMaker.

Мы тонко настраиваем различные предварительно обученные языковые модели на основе преобразователя для задачи вопроса и ответа. В нашем примере мы используем турецкий язык, но вы можете применить этот подход и к другому поддерживаемому языку. Наше внимание сосредоточено на вариантах BERT [1], потому что замечательной особенностью BERT является его унифицированная архитектура для различных задач.

Мы демонстрируем несколько преимуществ использования трансформеров Hugging Face на Создатель мудреца Амазонки, такие как обучение и эксперименты в масштабе, а также повышение производительности и экономической эффективности.

Обзор НЛП

С 2017 года в НЛП произошло несколько крупных изменений. Появление архитектур глубокого обучения, таких как преобразователи [2], методы неконтролируемого обучения для обучения таких моделей на чрезвычайно больших наборах данных и трансферное обучение значительно улучшили состояние искусство в понимании естественного языка. Появление концентраторов предварительно обученных моделей еще больше демократизировало доступ к коллективным знаниям сообщества НЛП, устранив необходимость начинать с нуля.

Языковая модель — это модель НЛП, которая учится предсказывать следующее слово (или любое замаскированное слово) в последовательности. Подлинная красота языковых моделей в качестве отправной точки заключается в трех аспектах: во-первых, исследования показали, что языковые модели, обученные на больших текстовых данных, изучают более сложные значения слов, чем предыдущие методы. Например, чтобы иметь возможность предсказать следующее слово в предложении, языковая модель должна хорошо понимать контекст, семантику, а также грамматику. Во-вторых, для обучения языковой модели во время предварительного обучения не требуются помеченные данные, которых мало и они дороги. Это важно, потому что огромное количество неразмеченных текстовых данных находится в открытом доступе в Интернете на многих языках. В-третьих, было продемонстрировано, что, как только языковая модель достаточно умна, чтобы предсказать следующее слово для любого заданного предложения, относительно легко выполнять другие задачи НЛП, такие как анализ настроений или ответы на вопросы, с очень небольшим количеством помеченных данных, потому что точная настройка повторно использует представления из предварительно обученной языковой модели [3].

Полностью управляемые услуги НЛП также ускорили внедрение НЛП. Amazon Comprehend — это полностью управляемая служба, которая позволяет анализу текста извлекать ценную информацию из содержимого документов и поддерживает различные языки. Amazon Comprehend поддерживает настраиваемую классификацию и распознавание сущностей, а также позволяет создавать собственные модели НЛП, соответствующие вашим требованиям, без каких-либо знаний в области машинного обучения.

Проблемы и решения для малоресурсных языков

Основная проблема для большого количества языков заключается в том, что они имеют относительно меньше данных для обучения. Это называется малоресурсные языки. В документе m-BERT [4] и документе XLM-R [7] урду и суахили упоминаются как языки с низким уровнем ресурсов.

На следующем рисунке указаны коды ISO для более чем 80 языков и разница в размере (в логарифмическом масштабе) между двумя основными предварительными тренировками [7]. В Википедии (оранжевая) есть только 18 языков с более чем 1 миллионом статей и 52 языка с более чем 1,000 статей, но 164 языка только с 1–10,000 9 статей [XNUMX]. Корпус CommonCrawl (синий) увеличивает объем данных для языков с низким уровнем ресурсов на два порядка. Тем не менее, они по-прежнему относительно малы по сравнению с высокоресурсными языками, такими как английский, русский или немецкий.

Что касается количества статей в Википедии, турецкий язык является еще одним языком в той же группе из более чем 100,000 28 статей (54-е место) вместе с урду (XNUMX-е место). По сравнению с урду, турецкий считается языком со средними ресурсами. Турецкий язык имеет некоторые интересные особенности, которые могут сделать языковые модели более мощными, создав определенные проблемы в лингвистике и токенизации. Это агглютинативный язык. В нем очень свободный порядок слов, сложная морфология или времена без английских эквивалентов. Фразы, состоящие из нескольких слов в таких языках, как английский, могут быть выражены одной словоформой, как показано в следующем примере.

Турецкий	Английский
кот	Кошка
котЛер	Кошкаs
котГилЛер	Семья из cats
Кедигиллердень	Принадлежность к семейство кошек
котleştirebileceklerimizdenmişçesineyken	Когда кажется, что это один из тех, кого мы можем сделать кошка

Двумя основными подходами к решению являются языковые модели или многоязычные модели (с межъязыковым контролем или без него):

Одноязычные языковые модели – Первый подход заключается в применении варианта BERT к конкретному целевому языку. Чем больше обучающих данных, тем лучше производительность модели.
Многоязычные маскированные языковые модели – Другой подход заключается в предварительном обучении больших моделей трансформеров на многих языках. Многоязычное языковое моделирование направлено на решение проблемы нехватки данных для языков с низким уровнем ресурсов путем предварительной подготовки на большом количестве языков, чтобы задачи НЛП, изученные на одном языке, можно было перенести на другие языки. Многоязычные маскированные языковые модели (MLM) вывели на передний план задачи межъязыкового понимания. Два примера:
- Многоязычный БЕРТ – Многоязычная модель BERT была обучена 104 различным языкам с использованием корпуса Википедии. Однако было показано, что он хорошо обобщается только для схожих языковых структур и типологических особенностей (например, для языков с похожим порядком слов). Его многоязычность снижается, особенно для языков с разным порядком слов (например, подлежащее/дополнение/глагол) [4].
- XLM-R – Межъязыковые языковые модели (XLM) обучаются с межъязыковой целью с использованием параллельных наборов данных (один и тот же текст на двух разных языках) или без межъязыковой цели с использованием одноязычных наборов данных [6]. Исследования показывают, что языки с низким уровнем ресурсов выигрывают от масштабирования на большее количество языков. XLM-RoBERTa представляет собой модель на основе преобразователя, вдохновленную RoBERTa [5], и ее отправной точкой является предположение о том, что многоязычные BERT и XLM недостаточно настроены. Он обучен на 100 языках с использованием Википедии и корпуса CommonCrawl, поэтому количество обучающих данных для языков с низким уровнем ресурсов примерно на два порядка больше по сравнению с m-BERT [7].

Еще одной проблемой многоязычных языковых моделей для языков с низким уровнем ресурсов является размер словарного запаса и токенизация. Поскольку все языки используют один и тот же общий словарь в многоязычных языковых моделях, существует компромисс между увеличением размера словаря (что увеличивает требования к вычислительным ресурсам) и его уменьшением (слова, отсутствующие в словаре, будут помечены как неизвестные или с использованием символов). вместо слов, поскольку токены будут игнорировать любую структуру). Алгоритм токенизации слов сочетает в себе преимущества обоих подходов. Например, он эффективно обрабатывает слова, не входящие в словарь, разбивая слово на подслова до тех пор, пока оно не появится в словаре или пока не будет достигнут отдельный символ. Токенизация на основе символов не очень полезна, за исключением некоторых языков, таких как китайский. Существуют методы для решения проблем для языков с низким уровнем ресурсов, таких как выборка с определенными распределениями [6].

В следующей таблице показано, как три разных токенизатора ведут себя для слова «kedileri» (что означает «его кошки»). Для определенных языков и задач НЛП это будет иметь значение. Например, для задачи ответа на вопрос модель возвращает диапазон индекса начального маркера и индекса конечного маркера; возвращение «kediler» («кошки») или «kedileri» («его кошки») потеряло бы некоторый контекст и привело бы к различным результатам оценки для определенных показателей.

Предварительно обученная модель	Размер словарного запаса	Токенизация для «Кедилери»*
dbmdz/bert-base-турецкий-без корпуса	32,000	Лексемы	[КЛС]	коты	##я	[СЕН]
dbmdz/bert-base-турецкий-без корпуса	32,000	Входные идентификаторы	2	23714	1023	3
bert-base-multilingual-uncase	105,879	Лексемы	[КЛС]	КЕД	##илер	##я	[СЕН]
bert-base-multilingual-uncase	105,879	Входные идентификаторы	101	30210	33719	10116	102
Deepset/xlm-Roberta-base-squad2	250,002	Лексемы		Ке	di	Лери
Deepset/xlm-Roberta-base-squad2	250,002	Входные идентификаторы	0	1345	428	1341	.
*На английском языке: (Его) кошки

Поэтому, хотя языки с низким уровнем ресурсов выигрывают от многоязычных языковых моделей, выполнение токенизации общего словаря может игнорировать некоторые лингвистические особенности для определенных языков.

В следующем разделе мы сравним три подхода, настроив их для задачи ответа на вопрос, используя набор данных QA для турецкого языка: BERTurk [8], многоязычный BERT [4] и XLM-R [7].

Обзор решения

Наш рабочий процесс выглядит следующим образом:

Подготовьте набор данных в Студия Amazon SageMaker среду ноутбука и загрузите его в Простой сервис хранения Amazon (Amazon S3).
Запустите параллельные обучающие задания в обучающих контейнерах глубокого обучения SageMaker, предоставив сценарий тонкой настройки.
Соберите метаданные из каждого эксперимента.
Сравните результаты и выберите наиболее подходящую модель.

Следующая диаграмма иллюстрирует архитектуру решения.

Дополнительные сведения о ноутбуках Studio см. Подробное изучение архитектуры ноутбуков Amazon SageMaker Studio.. Для получения дополнительной информации о том, как Hugging Face интегрируется с SageMaker, см. AWS и Hugging Face сотрудничают, чтобы упростить и ускорить внедрение моделей обработки естественного языка..

Подготовьте набор данных

Библиотека Hugging Face Datasets предоставляет мощные методы обработки данных, позволяющие быстро подготовить набор данных для обучения модели глубокого обучения. Следующий код загружает турецкий набор данных QA и исследует, что внутри:

data_files = {}
data_files["train"] = 'data/train.json'
data_files["validation"] = 'data/val.json' ds = load_dataset("json", data_files=data_files) print("Number of features in dataset: n Train = {}, n Validation = {}".format(len(ds['train']), len(ds['validation'])))

Всего около 9,000 образцов.

Входной набор данных немного преобразован в формат, ожидаемый предварительно обученными моделями, и содержит следующие столбцы:

df = pd.DataFrame(ds['train'])
df.sample(1)

Английский перевод вывода выглядит следующим образом:

контекст – Решит Эмре Конгар (род. 13 октября 1941, Стамбул), турецкий социолог, профессор.
вопрос – Какое ученое звание у Эмре Конгара?
ответ - профессор

Скрипт тонкой настройки

Библиотека Hugging Face Transformers предоставляет пример кода для точной настройки модели для задачи ответа на вопрос, которая называется run_qa.py. Следующий код инициализирует тренер:

 # Initialize our Trainer trainer = QuestionAnsweringTrainer( model=model, args=training_args, train_dataset=train_dataset, eval_dataset=eval_dataset, eval_examples=eval_examples, tokenizer=tokenizer, data_collator=data_collator, post_process_function=post_processing_function, compute_metrics=compute_metrics, )

Давайте рассмотрим строительные блоки на высоком уровне.

Токенизатор

Скрипт загружает токенизатор, используя AutoTokenizer класс. В AutoTokenizer class заботится о возврате правильного токенизатора, соответствующего модели:

tokenizer = AutoTokenizer.from_pretrained( model_args.model_name_or_path, cache_dir=model_args.cache_dir, use_fast=True, revision=model_args.model_revision, use_auth_token=None, )

Ниже приведен пример работы токенизатора:

from transformers import AutoTokenizer tokenizer = AutoTokenizer.from_pretrained("deepset/xlm-roberta-base-squad2") input_ids = tokenizer.encode('İstanbulun en popüler hayvanı hangisidir? Kedileri', return_tensors="pt")
tokens = tokenizer('İstanbulun en popüler hayvanı hangisidir? Kedileri').tokens()

Модель

Скрипт загружает модель. AutoModel классы (например, AutoModelForQuestionAnswering) напрямую создать класс с весами, конфигурацией и словарем соответствующей архитектуры, учитывая имя и путь к предварительно обученной модели. Благодаря абстракции Hugging Face вы можете легко переключиться на другую модель, используя тот же код, просто указав имя модели. См. следующий пример кода:

 model = AutoModelForQuestionAnswering.from_pretrained( model_args.model_name_or_path, config=config, cache_dir=model_args.cache_dir, revision=model_args.model_revision, )

Предварительная обработка и обучение

Ассоциация prepare_train_features() и prepare_validation_features() методы предварительно обрабатывают обучающий набор данных и наборы данных проверки соответственно. Код выполняет итерацию по входному набору данных и строит последовательность из контекста и текущего вопроса с правильными идентификаторами типов токенов для конкретной модели (числовыми представлениями токенов) и масками внимания. Затем последовательность передается через модель. Это выводит диапазон оценок как для начальной, так и для конечной позиции, как показано в следующей таблице.

Входные поля набора данных	Предварительно обработанные поля набора обучающих данных для QuestionAnsweringTrainer
id	input_ids
название	маска_внимания
контекст	начальные_позиции
вопрос	конечные_позиции
Ответы { answer_start, answer_text }	.

Оценка

Ассоциация compute_metrics() Метод заботится о расчете метрик. Мы используем следующие популярные метрики для заданий на ответы на вопросы:

Точное совпадение – Измеряет процент прогнозов, которые точно соответствуют любому из основных ответов.
Счет F1 – Измеряет среднее перекрытие между прогнозом и ответом на основании истины. Оценка F1 представляет собой гармоническое среднее точности и отзыва:
- Точность – Отношение количества общих слов к общему количеству слов в предсказании.
- Вспоминать – Отношение количества общих слов к общему количеству слов в основной истине.

Управляемое обучение по SageMaker

Настройка пользовательских сред машинного обучения (ML) и управление ими может занимать много времени и быть громоздкой задачей. С Контейнер глубокого обучения AWS (DLC) для библиотек Hugging Face Transformers, у нас есть доступ к предварительно упакованным и оптимизированным средам глубокого обучения, что позволяет легко запускать наш сценарий в нескольких учебных заданиях с минимальным дополнительным кодом.

Нам просто нужно использовать Оценщик объятий лица доступен в SageMaker Python SDK со следующими входными данными:

# Trial configuration
config['model'] = 'deepset/xlm-roberta-base-squad2'
config['instance_type'] = 'ml.p3.16xlarge'
config['instance_count'] = 2 # Define the distribution parameters in the HuggingFace Estimator config['distribution'] = {'smdistributed':{'dataparallel':{ 'enabled': True }}}
trial_configs.append(config) # We can specify a training script that is stored in a GitHub repository as the entry point for our Estimator, # so we don’t have to download the scripts locally.
git_config = {'repo': 'https://github.com/huggingface/transformers.git'} hyperparameters_qa={ 'model_name_or_path': config['model'], 'train_file': '/opt/ml/input/data/train/train.json', 'validation_file': '/opt/ml/input/data/val/val.json', 'do_train': True, 'do_eval': True, 'fp16': True, 'per_device_train_batch_size': 16, 'per_device_eval_batch_size': 16, 'num_train_epochs': 2, 'max_seq_length': 384, 'pad_to_max_length': True, 'doc_stride': 128, 'output_dir': '/opt/ml/model' } huggingface_estimator = HuggingFace(entry_point='run_qa.py', source_dir='./examples/pytorch/question-answering', git_config=git_config, instance_type=config['instance_type'], instance_count=config['instance_count'], role=role, transformers_version='4.12.3', pytorch_version='1.9.1', py_version='py38', distribution=config['distribution'], hyperparameters=hyperparameters_qa, metric_definitions=metric_definitions, enable_sagemaker_metrics=True,) nlp_training_job_name = f"NLPjob-{model}-{instance}-{int(time.time())}" training_input_path = f's3://{sagemaker_session_bucket}/{s3_prefix_qa}/' test_input_path = f's3://{sagemaker_session_bucket}/{s3_prefix_qa}/' huggingface_estimator.fit( inputs={'train': training_input_path, 'val': test_input_path}, job_name=nlp_training_job_name, experiment_config={ "ExperimentName": nlp_experiment.experiment_name, "TrialName": nlp_trial.trial_name, "TrialComponentDisplayName": nlp_trial.trial_name,}, wait=False, )

Оцените результаты

Когда работа по тонкой настройке для задачи ответа на турецкий вопрос завершена, мы сравниваем производительность модели трех подходов:

Одноязычная языковая модель – Предварительно обученная модель, настроенная на текст ответа на турецкий вопрос, называется bert-base-turkish-без кожуха [8]. Он получает оценку F1 75.63 и оценку точного совпадения 56.17 только за две эпохи и с 9,000 помеченными элементами. Однако этот подход не подходит для языка с низким уровнем ресурсов, когда не существует предварительно обученной языковой модели или имеется мало данных для обучения с нуля.
Многоязычная модель с многоязычным BERT – Предварительно обученная модель называется bert-base-multilingual-uncase. Многоязычная статья BERT [4] показала, что она хорошо обобщается для разных языков. По сравнению с одноязычной моделью она работает хуже (оценка F1 71.73, точное совпадение 50:45), но обратите внимание, что эта модель поддерживает более 100 других языков, оставляя меньше места для представления турецкого языка.
Многоязычная модель с XLM-R – Предварительно обученная модель называется xlm-Роберта-база-squad2. Документ XLM-R показывает, что можно иметь единую большую модель для более чем 100 языков без ущерба для производительности для каждого языка [7]. Для задачи ответа на турецкий вопрос он превосходит многоязычный BERT и одноязычный BERT F1 на 5% и 2% соответственно (оценка F1 77.14, точное совпадение 56.39).

В нашем сравнении не учитываются другие различия между моделями, такие как емкость модели, используемые обучающие наборы данных, предварительно обученные задачи НЛП, размер словаря или токенизация.

Дополнительные эксперименты

Прилагаемый блокнот содержит дополнительные примеры экспериментов.

SageMaker предоставляет широкий спектр типов обучающих экземпляров. Мы точно настроили модель XLM-R на p3.2xlarge (графический процессор: графический процессор Nvidia V100, архитектура графического процессора: Volta (2017 г.)), p3.16xlarge (графический процессор: 8 графических процессоров Nvidia V100) и g4dn.xlarge (графический процессор: Nvidia T4). GPU, Архитектура GPU: Turing (2018)), и заметил следующее:

Продолжительность обучения — Согласно нашему эксперименту, модели XLM-R потребовалось примерно 24 минуты для обучения на p3.2xlarge и 30 минут на g4dn.xlarge (примерно на 23% больше). Мы также выполнили распределенную точную настройку на двух инстансах p3.16xlarge, и время обучения сократилось до 10 минут. Дополнительные сведения о распределенном обучении модели на основе преобразователя в SageMaker см. Распределенная точная настройка модели BERT Large для задачи «Ответы на вопросы» с использованием трансформеров Hugging Face Transformers в Amazon SageMaker..
Расходы на обучение – Мы использовали AWS Pricing API для получения цен SageMaker по требованию, чтобы рассчитать их на лету. Согласно нашему эксперименту, обучение стоило примерно 1.58 доллара на p3.2xlarge и примерно в четыре раза меньше на g4dn.xlarge (0.37 доллара). Распределенное обучение на двух инстансах p3.16xlarge с использованием 16 графических процессоров стоит 9.68 долларов США.

Подводя итог, можно сказать, что, хотя машина g4dn.xlarge была самой дешевой, ее обучение также занимало примерно в три раза больше времени, чем самый мощный тип инстанса, с которым мы экспериментировали (два p3.16xlarge). В зависимости от приоритетов вашего проекта вы можете выбирать из множества типов обучающих инстансов SageMaker.

Заключение

В этом посте мы рассмотрели точную настройку предварительно обученных языковых моделей на основе преобразователя для задачи ответа на вопрос для языка со средними ресурсами (в данном случае турецкого). Вы можете применить этот подход к более чем 100 другим языкам, используя одну модель. На момент написания статьи масштабирование модели для охвата всех 7,000 языков мира по-прежнему было непозволительно, но область НЛП дает возможность расширить наши горизонты.

Язык является основным методом человеческого общения и средством передачи ценностей и разделения красоты культурного наследия. Языковое разнообразие укрепляет межкультурный диалог и строит инклюзивные общества.

ML — очень итеративный процесс; в ходе одного проекта специалисты по данным обучают сотни различных моделей, наборов данных и параметров в поисках максимальной точности. SageMaker предлагает наиболее полный набор инструментов для использования возможностей машинного обучения и глубокого обучения. Он позволяет организовывать, отслеживать, сравнивать и оценивать эксперименты машинного обучения в любом масштабе.

Hugging Face интегрирован с SageMaker, чтобы помочь специалистам по данным разрабатывать, обучать и настраивать современные модели НЛП быстрее и проще. Мы продемонстрировали несколько преимуществ использования трансформеров Hugging Face в Amazon SageMaker, таких как масштабное обучение и экспериментирование, а также повышение производительности и экономической эффективности.

Вы можете экспериментировать с задачами NLP на предпочитаемом вами языке в SageMaker во всех регионах AWS, где доступен SageMaker. Пример кода записной книжки доступен в GitHub.

Чтобы узнать, как Amazon SageMaker Training Compiler может ускорить обучение моделей глубокого обучения до 50 %, см. Новинка — представляем обучающий компилятор SageMaker.

Авторы хотели бы выразить свою глубочайшую признательность Мариано Кампу и Эмили Уэббер за рецензирование черновиков и предоставление рекомендаций.