Amazon SageMaker PlatoBlockchain Data Intelligence の Hugging Face を使用して、言語の多様性に合わせてトランスフォーマー言語モデルを微調整します。垂直検索。あい。

AmazonSageMakerのHuggingFaceを使用して、言語の多様性のためにトランスフォーマー言語モデルを微調整します

現在、約 7,000 の言語が使用されています。 19 世紀後半にヴォラピュク語やエスペラント語などの造語を発明する試みがあったにもかかわらず、統一の兆しはありません。 人々は今でも新しい言語を作成することを選択しています(クリンゴン語、ドスラク語、またはエルフ語を話すあなたのお気に入りの映画の登場人物を思い浮かべてください)。

現在、自然言語処理 (NLP) の例は英語が大半を占めていますが、英語は人口のわずか 5% の母国語であり、話者は 17% にすぎません。

  デジタルデバイド デジタルテクノロジーにアクセスできる人とアクセスできない人の間のギャップとして定義されます。 言語の壁による知識や教育へのアクセスの欠如も、英語を話さない人々の間だけでなく、英語以外のコンテンツにアクセスできない英語を話す人々の間でもデジタル格差の一因となります。思考や知識の多様性が減少します。 お互いに学ぶべきことがたくさんあります。

この投稿では、低リソース言語の課題を要約し、Amazon SageMaker の Hugging Face トランスフォーマーを使用して 100 以上の言語をカバーするさまざまなソリューション アプローチを実験します。

質疑応答タスク用に、事前トレーニングされたトランスフォーマーベースのさまざまな言語モデルを微調整します。 この例ではトルコ語を使用していますが、このアプローチを他のサポートされている言語に適用することもできます。 私たちは BERT [1] の亜種に焦点を当てています, BERT の優れた特徴は、さまざまなタスクにわたって統合されたアーキテクチャであるためです。

Hugging Face トランスフォーマーを使用することのいくつかの利点を示します。 アマゾンセージメーカー、大規模なトレーニングと実験、生産性とコスト効率の向上など。

NLPの概要

2017 年以来、NLP ではいくつかの大きな開発が行われています。トランスフォーマー [2] などの深層学習アーキテクチャ、非常に大規模なデータセットでそのようなモデルをトレーニングするための教師なし学習手法、および転移学習の出現により、最新の状態が大幅に改善されました。自然言語理解の芸術。 事前トレーニングされたモデル ハブの登場により、NLP コミュニティの集合知識へのアクセスがさらに民主化され、ゼロから始める必要がなくなりました。

言語モデルは、シーケンス内の次の単語 (またはマスクされた単語) を予測する方法を学習する NLP モデルです。 開始点としての言語モデルの真の美しさは 3 つあります。 まず、大規模なテキスト コーパス データでトレーニングされた言語モデルは、以前の方法よりも複雑な単語の意味を学習することが研究によって示されています。 たとえば、文内の次の単語を予測できるようにするには、言語モデルが文脈、意味論、さらには文法をよく理解する必要があります。 第 XNUMX に、言語モデルをトレーニングするために、事前トレーニング中に、希少で高価なラベル付きデータは必要ありません。 膨大な量のラベルのないテキスト データが多くの言語で Web 上で公開されているため、これは重要です。 第三に、言語モデルが任意の文の次の単語を予測できるほど賢くなれば、微調整により再利用が行われるため、感情分析や質問応答などの他の NLP タスクをごくわずかなラベル付きデータで実行するのが比較的簡単になることが実証されています。事前にトレーニングされた言語モデルからの表現 [XNUMX]。

フルマネージド NLP サービスも NLP の導入を加速させています。 Amazon Comprehend は、テキスト分析でドキュメントの内容から洞察を抽出できるようにするフルマネージド サービスで、さまざまな言語をサポートしています。 Amazon Comprehend はカスタム分類とカスタムエンティティ認識をサポートしており、ML の専門知識を必要とせずに要件に固有のカスタム NLP モデルを構築できます。

低リソース言語の課題と解決策

多くの言語にとっての主な課題は、トレーニングに利用できるデータが比較的少ないことです。 これらはと呼ばれます リソースの少ない言語。 m-BERT 論文 [4] および XLM-R 論文 [7] では、ウルドゥー語とスワヒリ語を低リソース言語として言及しています。

次の図は、80 を超える言語の ISO コードと、7 つの主要な事前トレーニング間のサイズの違い (対数スケール) を示しています [18]。 Wikipedia (オレンジ色) では、1 万件を超える記事がある言語は 52 言語、1,000 件以上の記事がある言語は 164 言語のみですが、記事が 1 ~ 10,000 件しかない言語は 9 言語あります [XNUMX]。 CommonCrawl コーパス (青) は、低リソース言語のデータ量を XNUMX 桁増加させます。 それでもなお、英語、ロシア語、ドイツ語などの高リソース言語と比較すると、まだ比較的小規模です。

Amazon SageMaker PlatoBlockchain Data Intelligence の Hugging Face を使用して、言語の多様性に合わせてトランスフォーマー言語モデルを微調整します。垂直検索。あい。

ウィキペディアの記事数の観点から見ると、トルコ語はウルドゥー語 (100,000 位) とともに 28 件を超える記事の同じグループ (54 位) に含まれる言語です。 ウルドゥー語と比較すると、トルコ語は中程度のリソース言語とみなされます。 トルコ語にはいくつかの興味深い特徴があり、言語学とトークン化において特定の課題を生み出すことで、言語モデルをより強力にする可能性があります。 膠着語です。 非常に自由な語順、複雑な形態、または英語に相当するものがない時制があります。 英語などの言語では、複数の単語で構成されるフレーズを、次の例に示すように XNUMX つの単語形式で表現できます。

トルコ語 英語
ネコ
LER ネコs
ジルLER の家族
ケディギラー に属する 猫の家族
leştirebileceklerrimizdenmişçesineyken それが私たちにできるものだと思われるとき cat

XNUMX つの主なソリューション アプローチは、言語固有のモデルまたは多言語モデル (言語間監視の有無にかかわらず) です。

  • 単一言語言語モデル – 最初のアプローチは、BERT バリアントを特定のターゲット言語に適用することです。 トレーニング データが多いほど、モデルのパフォーマンスは向上します。
  • 多言語のマスクされた言語モデル – もう XNUMX つのアプローチは、多くの言語で大規模なトランスフォーマー モデルを事前トレーニングすることです。 多言語言語モデリングは、ある言語から学習した NLP タスクを他の言語に転送できるように、多数の言語で事前トレーニングすることで、低リソース言語のデータ不足の課題を解決することを目的としています。 多言語マスク言語モデル (MLM) は、言語を越えた理解タスクにおける最先端の技術を推進しました。 XNUMX つの例は次のとおりです。
    • 多言語BERT – 多言語 BERT モデルは、Wikipedia コーパスを使用して 104 の異なる言語でトレーニングされました。 ただし、類似した言語構造と類型的特徴 (たとえば、語順が類似した言語) にわたってのみよく一般化できることが示されています。 特に語順が異なる言語 (主語/目的語/動詞など) では多言語性が低下します [4]。
    • XLM-R – クロスリンガル言語モデル (XLM) は、並列データセット (6 つの異なる言語の同じテキスト) を使用してクロスリンガルの目的でトレーニングされるか、またはモノリンガル データセットを使用してクロスリンガルの目的なしでトレーニングされます [5]。 調査によると、リソースの少ない言語は、より多くの言語に拡張することでメリットが得られます。 XLM-RoBERTa は、RoBERTa [100] からインスピレーションを得たトランスベースのモデルであり、その出発点は、多言語 BERT と XLM が十分に調整されていないという命題です。 Wikipedia と CommonCrawl コーパスの両方を使用して 7 の言語でトレーニングされているため、低リソース言語のトレーニング データの量は m-BERT [XNUMX] と比較して約 XNUMX 桁多くなります。

低リソース言語の多言語言語モデルのもう 6 つの課題は、語彙サイズとトークン化です。 多言語言語モデルではすべての言語が同じ共有語彙を使用するため、語彙サイズを増やす (計算要件が増加する) か、語彙サイズを減らす (語彙に存在しない単語は不明としてマークされるか、文字を使用する) の間にトレードオフがあります。単語の代わりにトークンとして使用すると、構造が無視されます)。 ワードピースのトークン化アルゴリズムは、両方のアプローチの利点を組み合わせたものです。 たとえば、語彙内に存在するまで、または個々の文字に到達するまで、単語をサブワードに分割することで、語彙外の単語を効果的に処理します。 文字ベースのトークン化は、中国語などの特定の言語を除いてあまり役に立ちません。 特定の分布を使用したサンプリングなど、低リソース言語の課題に対処するための手法が存在します [XNUMX]。

次の表は、XNUMX つの異なるトークナイザーが単語「kedileri」(「その猫」を意味する)に対してどのように動作するかを示しています。 特定の言語や NLP タスクでは、これにより違いが生じます。 たとえば、質問応答タスクの場合、モデルは開始トークン インデックスと終了トークン インデックスのスパンを返します。 「kediler」(「猫」)または「kedileri」(「その猫」)を返すと、一部のコンテキストが失われ、特定の指標について異なる評価結果が得られます。

事前訓練されたモデル 語彙のサイズ 「Kedileri」のトークン化*
dbmdz/bert-base-turkish-uncased 32,000 トークン 【CLS】 ##私 [XNUMX月]
IDの入力 2 23714 1023 3
bert-base-multilingual-uncased 105,879 トークン 【CLS】 ケード ##アイラー ##私 [XNUMX月]
IDの入力 101 30210 33719 10116 102
ディープセット/xlm-roberta-base-squad2 250,002 トークン di S
IDの入力 0 1345 428 1341 .
*英語: (Its) 猫

したがって、リソースの少ない言語は多言語言語モデルの恩恵を受けますが、共有語彙全体でトークン化を実行すると、特定の言語の一部の言語特徴が無視される可能性があります。

次のセクションでは、トルコ語の QA データセット、BERTurk [8]、多言語 BERT [4]、および XLM-R [7] を使用して質問応答タスク用に微調整することで XNUMX つのアプローチを比較します。

ソリューションの概要

私たちのワークフローは次のとおりです。

  1. データセットを準備します Amazon SageMakerスタジオ ノートブック環境にアップロードします Amazon シンプル ストレージ サービス (Amazon S3)。
  2. 微調整スクリプトを提供することで、SageMaker トレーニング ディープ ラーニング コンテナ上で並列トレーニング ジョブを起動します。
  3. 各実験からメタデータを収集します。
  4. 結果を比較し、最も適切なモデルを特定します。

次の図は、ソリューションのアーキテクチャを示しています。

Amazon SageMaker PlatoBlockchain Data Intelligence の Hugging Face を使用して、言語の多様性に合わせてトランスフォーマー言語モデルを微調整します。垂直検索。あい。

Studio ノートブックの詳細については、以下を参照してください。 Amazon SageMakerStudioNotebooksアーキテクチャを深く掘り下げる。 Hugging Face が SageMaker とどのように統合されるかについて詳しくは、以下を参照してください。 AWSとHuggingFaceが協力して、自然言語処理モデルの採用を簡素化および加速します.

データセットを準備する

Hugging Face Datasets ライブラリは、ディープ ラーニング モデルでのトレーニングに備えてデータセットを迅速に準備するための強力なデータ処理メソッドを提供します。 次のコードは、トルコ語 QA データセットを読み込み、その内容を調べます。

data_files = {}
data_files["train"] = 'data/train.json'
data_files["validation"] = 'data/val.json' ds = load_dataset("json", data_files=data_files) print("Number of features in dataset: n Train = {}, n Validation = {}".format(len(ds['train']), len(ds['validation'])))

サンプル数は約9,000点。

Amazon SageMaker PlatoBlockchain Data Intelligence の Hugging Face を使用して、言語の多様性に合わせてトランスフォーマー言語モデルを微調整します。垂直検索。あい。

入力データセットは、事前トレーニングされたモデルで予期される形式にわずかに変換され、次の列が含まれます。

df = pd.DataFrame(ds['train'])
df.sample(1)

Amazon SageMaker PlatoBlockchain Data Intelligence の Hugging Face を使用して、言語の多様性に合わせてトランスフォーマー言語モデルを微調整します。垂直検索。あい。
出力の英語訳は次のとおりです。

  • コンテキスト – レシット・エムレ・コンガル(13年1941月XNUMX日、イスタンブール生まれ)、トルコの社会学者、教授。
  • 質問 – エムレ・コンガルの学名は何ですか?
  • 回答 - 教授

スクリプトの微調整

Hugging Face Transformers ライブラリには、質問応答タスク用にモデルを微調整するためのコード例が用意されています。 run_qa.py。 次のコードはトレーナーを初期化します。

 # Initialize our Trainer trainer = QuestionAnsweringTrainer( model=model, args=training_args, train_dataset=train_dataset, eval_dataset=eval_dataset, eval_examples=eval_examples, tokenizer=tokenizer, data_collator=data_collator, post_process_function=post_processing_function, compute_metrics=compute_metrics, )

構成要素を高いレベルで確認してみましょう。

トークナイザー

スクリプトは、 AutoTokenizer クラス。 ザ・ AutoTokenizer クラスは、モデルに対応する正しいトークナイザーを返す処理を行います。

tokenizer = AutoTokenizer.from_pretrained( model_args.model_name_or_path, cache_dir=model_args.cache_dir, use_fast=True, revision=model_args.model_revision, use_auth_token=None, )

以下は、トークナイザーがどのように動作するかの例です。

from transformers import AutoTokenizer tokenizer = AutoTokenizer.from_pretrained("deepset/xlm-roberta-base-squad2") input_ids = tokenizer.encode('İstanbulun en popüler hayvanı hangisidir? Kedileri', return_tensors="pt")
tokens = tokenizer('İstanbulun en popüler hayvanı hangisidir? Kedileri').tokens()

Amazon SageMaker PlatoBlockchain Data Intelligence の Hugging Face を使用して、言語の多様性に合わせてトランスフォーマー言語モデルを微調整します。垂直検索。あい。

モデル

スクリプトはモデルをロードします。 AutoModel クラス (たとえば、 AutoModelForQuestionAnswering) 事前トレーニング済みモデルへの名前とパスを指定して、関連するアーキテクチャの重み、構成、語彙を含むクラスを直接作成します。 Hugging Face による抽象化のおかげで、モデルの名前を指定するだけで、同じコードを使用して別のモデルに簡単に切り替えることができます。 次のコード例を参照してください。

 model = AutoModelForQuestionAnswering.from_pretrained( model_args.model_name_or_path, config=config, cache_dir=model_args.cache_dir, revision=model_args.model_revision, )

前処理とトレーニング

  prepare_train_features() および prepare_validation_features() メソッドはそれぞれトレーニング データセットと検証データセットを前処理します。 コードは入力データセットを反復し、正しいモデル固有のトークン タイプ ID (トークンの数値表現) とアテンション マスクを使用して、コンテキストと現在の質問からシーケンスを構築します。 次に、シーケンスがモデルに渡されます。 これにより、次の表に示すように、開始位置と終了位置の両方についてスコアの範囲が出力されます。

入力データセットのフィールド QuestionAnsweringTrainer の前処理済みトレーニング データセット フィールド
id 入力 ID
タイトル 注意マスク
コンテキスト 開始位置
質問 終了位置
回答 {answer_start、answer_text } .

評価

  compute_metrics() メソッドはメトリクスの計算を処理します。 質問応答タスクでは、次の一般的な指標を使用します。

  • 完全に一致 – グラウンド トゥルースの回答のいずれか XNUMX つに正確に一致する予測の割合を測定します。
  • F1スコア – 予測と真実の答えの間の平均的な重複を測定します。 F1 スコアは、精度と再現率の調和平均です。
    • 精度 – 予測内の総単語数に対する共有単語数の比率。
    • リコール – グラウンド トゥルースの総単語数に対する共有単語数の比率。

SageMaker での管理されたトレーニング

カスタム機械学習 (ML) 環境のセットアップと管理は、時間がかかり面倒な場合があります。 と AWSディープラーニングコンテナ Hugging Face Transformers ライブラリの (DLC) では、事前にパッケージ化され最適化された深層学習フレームワークにアクセスできるため、最小限の追加コードで複数のトレーニング ジョブにわたってスクリプトを簡単に実行できます。

使用する必要があるのは、 ハグ顔推定器 以下の入力を使用して SageMaker Python SDK で利用できます。

# Trial configuration
config['model'] = 'deepset/xlm-roberta-base-squad2'
config['instance_type'] = 'ml.p3.16xlarge'
config['instance_count'] = 2 # Define the distribution parameters in the HuggingFace Estimator config['distribution'] = {'smdistributed':{'dataparallel':{ 'enabled': True }}}
trial_configs.append(config) # We can specify a training script that is stored in a GitHub repository as the entry point for our Estimator, # so we don’t have to download the scripts locally.
git_config = {'repo': 'https://github.com/huggingface/transformers.git'} hyperparameters_qa={ 'model_name_or_path': config['model'], 'train_file': '/opt/ml/input/data/train/train.json', 'validation_file': '/opt/ml/input/data/val/val.json', 'do_train': True, 'do_eval': True, 'fp16': True, 'per_device_train_batch_size': 16, 'per_device_eval_batch_size': 16, 'num_train_epochs': 2, 'max_seq_length': 384, 'pad_to_max_length': True, 'doc_stride': 128, 'output_dir': '/opt/ml/model' } huggingface_estimator = HuggingFace(entry_point='run_qa.py', source_dir='./examples/pytorch/question-answering', git_config=git_config, instance_type=config['instance_type'], instance_count=config['instance_count'], role=role, transformers_version='4.12.3', pytorch_version='1.9.1', py_version='py38', distribution=config['distribution'], hyperparameters=hyperparameters_qa, metric_definitions=metric_definitions, enable_sagemaker_metrics=True,) nlp_training_job_name = f"NLPjob-{model}-{instance}-{int(time.time())}" training_input_path = f's3://{sagemaker_session_bucket}/{s3_prefix_qa}/' test_input_path = f's3://{sagemaker_session_bucket}/{s3_prefix_qa}/' huggingface_estimator.fit( inputs={'train': training_input_path, 'val': test_input_path}, job_name=nlp_training_job_name, experiment_config={ "ExperimentName": nlp_experiment.experiment_name, "TrialName": nlp_trial.trial_name, "TrialComponentDisplayName": nlp_trial.trial_name,}, wait=False, )

結果を評価する

トルコ語の質問応答タスクの微調整ジョブが完了したら、XNUMX つのアプローチのモデルのパフォーマンスを比較します。

  • 単一言語言語モデル – トルコ語の質問応答テキストに基づいて微調整された事前トレーニング済みモデルは次のように呼ばれます。 bert-base-トルコ語-ケースなし [8]。 わずか 1 エポックで 75.63 個のラベル付きアイテムを使用して、F56.17 スコア 9,000 と完全一致スコア XNUMX を達成しました。 ただし、このアプローチは、事前トレーニングされた言語モデルが存在しない場合、または最初からトレーニングに使用できるデータがほとんどない場合、低リソース言語には適していません。
  • 多言語 BERT を使用した多言語言語モデル – 事前トレーニングされたモデルは次のように呼ばれます。 bert-base-multilingual-uncased。 多言語 BERT 論文 [4] は、BERT が言語間でよく一般化することを示しています。 単一言語モデルと比較すると、パフォーマンスは悪くなりますが (F1 スコア 71.73、完全一致 50:45)、このモデルは 100 以上の他の言語を処理し、トルコ語を表現する余地が少ないことに注意してください。
  • XLM-R による多言語言語モデル – 事前トレーニングされたモデルは次のように呼ばれます。 xlm-ロバータ-ベース-スクワッド2。 XLM-R の論文は、言語ごとのパフォーマンスを犠牲にすることなく、100 以上の言語に対応する単一の大規模モデルが可能であることを示しています [7]。 トルコ語の質問応答タスクでは、多言語 BERT と単言語 BERT の F1 スコアをそれぞれ 5% と 2% 上回っています (F1 スコア 77.14、完全一致 56.39)。

Amazon SageMaker PlatoBlockchain Data Intelligence の Hugging Face を使用して、言語の多様性に合わせてトランスフォーマー言語モデルを微調整します。垂直検索。あい。

私たちの比較では、モデルの容量、使用されるトレーニング データセット、事前トレーニングされた NLP タスク、語彙サイズ、トークン化などのモデル間のその他の違いは考慮されていません。

追加の実験

付属のノートブックには追加の実験例が含まれています。

SageMaker は、幅広いトレーニング インスタンス タイプを提供します。 p3.2xlarge (GPU: Nvidia V100 GPU、GPU アーキテクチャ: Volta (2017))、p3.16xlarge (GPU: 8 Nvidia V100 GPU)、および g4dn.xlarge (GPU: Nvidia T4) で XLM-R モデルを微調整しました。 GPU、GPU アーキテクチャ: Turing (2018))、次のことが観察されました。

  • トレーニング期間 – 私たちの実験によると、XLM-R モデルのトレーニングには、p24xlarge では約 3.2 分、g30dn.xlarge では 4 分かかりました (約 23% 長くなりました)。 また、3.16 つの p10xlarge インスタンスで分散微調整を実行したところ、トレーニング時間は XNUMX 分に短縮されました。 SageMaker でのトランスフォーマーベースのモデルの分散トレーニングの詳細については、以下を参照してください。 AmazonSageMakerでHuggingFaceTransformersを使用した質問応答タスク用のBERTラージモデルの分散微調整.
  • トレーニング費用 – AWS Pricing API を使用して SageMaker のオンデマンド価格を取得し、その場で計算しました。 私たちの実験によると、トレーニングのコストは p1.58xlarge では約 3.2 ドルですが、g4dn.xlarge (0.37 ドル) では約 3.16 分の 16 です。 9.68 個の GPU を使用する XNUMX つの pXNUMXxlarge インスタンスでの分散トレーニングの料金は XNUMX ドルです。

要約すると、g4dn.xlarge は最も安価なマシンでしたが、実験した最も強力なインスタンス タイプ (3.16 つの pXNUMXxlarge) よりもトレーニングに約 XNUMX 倍の時間がかかりました。 プロジェクトの優先順位に応じて、さまざまな SageMaker トレーニング インスタンス タイプから選択できます。

まとめ

この投稿では、中間リソース言語 (この場合はトルコ語) の質問応答タスク用に、事前トレーニング済みのトランスフォーマー ベースの言語モデルを微調整する方法を検討しました。 単一のモデルを使用して、このアプローチを 100 以上の他の言語に適用できます。 これを書いている時点では、世界の 7,000 の言語すべてをカバーするようにモデルをスケールアップすることはまだ法外な作業ですが、NLP の分野は視野を広げる機会を提供します。

言語は人間のコミュニケーションの主要な方法であり、価値観を伝え、文化遺産の美しさを共有する手段です。 言語の多様性は異文化間の対話を強化し、包摂的な社会を構築します。

ML は非常に反復的なプロセスです。 データ サイエンティストは、単一のプロジェクトを通じて、最大の精度を求めて何百もの異なるモデル、データセット、パラメーターをトレーニングします。 SageMaker は、ML とディープ ラーニングの力を活用するための最も完全なツール セットを提供します。 これにより、ML 実験を大規模に整理、追跡、比較、評価できます。

Hugging Face は SageMaker と統合されており、データ サイエンティストが最先端の NLP モデルをより迅速かつ簡単に開発、トレーニング、調整できるように支援します。 Amazon SageMaker で Hugging Face トランスフォーマーを使用することのいくつかの利点 (大規模なトレーニングと実験、生産性とコスト効率の向上など) を実証しました。

SageMaker が利用可能なすべての AWS リージョンで、SageMaker の好みの言語で NLP タスクを実験できます。 ノートブック コードの例は、次の場所にあります。 GitHubの.

Amazon SageMaker Training Compiler が深層学習モデルのトレーニングを最大 50% 高速化する方法については、以下を参照してください。 新機能 – SageMaker トレーニング コンパイラーの紹介.

著者らは、草稿をレビューし、アドバイスを提供してくれた Mariano Kamp と Emily Webber に深く感謝の意を表したいと思います。

参考文献

  1. J. Devlin 他、「BERT: 言語理解のためのディープ双方向トランスフォーマーの事前トレーニング」(2018)。
  2. A. Vaswani et al.、「Attending Is All You Need」、(2017)。
  3. J. Howard および S. Ruder、「テキスト分類のためのユニバーサル言語モデルの微調整」、(2018 年)。
  4. T. Pires 他、「多言語 BERT はどの程度多言語ですか?」(2019)。
  5. Y. Liu 他、「RoBERTa: A Robustly Optimized BERT Pretraining Approach」(2019)。
  6. G. Lample、A. Conneau、「クロスリンガル言語モデルの事前トレーニング」(2019)。
  7. A. Conneau 他、「大規模な教師なしクロス言語表現学習」(2019)。
  8. ステファン・シュヴェーター。 BERTurk – トルコ語用 BERT モデル (2020)。
  9. 多言語 Wiki 統計 https://en.wikipedia.org/wiki/Wikipedia:Multilingual_statistics

著者について

Amazon SageMaker PlatoBlockchain Data Intelligence の Hugging Face を使用して、言語の多様性に合わせてトランスフォーマー言語モデルを微調整します。垂直検索。あい。アルナフ・カレ AWS のグローバル金融サービスのプリンシパル ソリューション アーキテクトです。 彼の主な焦点は、金融サービス機関がクラウドで分析および機械学習アプリケーションを構築および設計できるよう支援することです。 Arnav はエディンバラ大学で人工知能の修士号を取得しており、自身が設立した小規模なスタートアップ企業から Nokia や Bank of America などの大企業に至るまで、18 年間の業界経験を持っています。 仕事以外では、アルナブは XNUMX 人の娘と時間を過ごしたり、新しい独立系コーヒー ショップを見つけたり、読書したり、旅行したりすることが大好きです。 あなたは私を見つけることができます LinkedIn そして実生活ではイギリスのサリー州で。

Amazon SageMaker PlatoBlockchain Data Intelligence の Hugging Face を使用して、言語の多様性に合わせてトランスフォーマー言語モデルを微調整します。垂直検索。あい。ハサン・バスリ・アキルマック (コンピューター エンジニアリングの理学士および修士号、ビジネス大学院でエグゼクティブ MBA を取得) は、アマゾン ウェブ サービスのシニア ソリューション アーキテクトです。 彼は企業セグメントの顧客にアドバイスを行うビジネステクノロジストです。 彼の専門分野は、大規模なデータ処理システムと機械学習ソリューションのアーキテクチャとビジネス ケースを設計することです。 ハサンは、ヨーロッパ、中東、アフリカのクライアントにビジネス開発、システム統合、プログラム管理を提供してきました。 2016 年以来、スタートアップ インキュベーション プログラムで何百人もの起業家を無償で指導してきました。

Amazon SageMaker PlatoBlockchain Data Intelligence の Hugging Face を使用して、言語の多様性に合わせてトランスフォーマー言語モデルを微調整します。垂直検索。あい。ヘイコ・ホッツ AIと機械学習のシニアソリューションアーキテクトであり、AWS内の自然言語処理(NLP)コミュニティをリードしています。 この役職に就く前は、AmazonのEUカスタマーサービスのデータサイエンス責任者を務めていました。 Heikoは、お客様がAWSでAI / MLの旅を成功させるのを支援し、保険、金融サービス、メディアとエンターテインメント、ヘルスケア、公益事業、製造業など、多くの業界の組織と協力してきました。 余暇には、平子は可能な限り旅をします。

タイムスタンプ:

より多くの AWS機械学習