Gemma が Amazon SageMaker JumpStart で利用可能になりました |アマゾンウェブサービス

プラトン再発行

フォロワー： 0

本日は、ジェマを使用している顧客がモデルを利用できるようになりました。 Amazon SageMaker ジャンプスタート。ジェマは家族です 言語モデル Google の Gemini モデルに基づいており、最大 6 兆のテキストトークンでトレーニングされています。 Gemma ファミリは、7 億パラメータモデルと 2 億パラメータモデルの 2 つのサイズで構成されます。今後は、Gemma 7B および Gemma XNUMXB の事前トレーニングおよび命令調整されたモデルを内で使用できるようになりました。 SageMaker ジャンプスタート. JumpStart は SageMaker の機械学習 (ML) ハブであり、組み込みアルゴリズムとエンドツーエンドのソリューションテンプレートに加えて基盤モデルへのアクセスを提供し、ML をすばやく開始するのに役立ちます。

この投稿では、SageMaker JumpStart で Gemma モデルをデプロイし、ユースケースに合わせて微調整する方法を説明します。完全なノートブックは次のサイトから入手できます。 GitHubの.

ジェマモデル

ジェマ軽量で最先端の製品群ですモデルの作成に使用されたのと同じ研究とテクノロジーから構築されています。双子座モデル。 Gemma は、Google DeepMind と Google 全体の他のチームによって開発され、Gemini からインスピレーションを受けています。 Gemma は、テキスト領域における強力なジェネラリスト能力と、大規模な最先端の理解および推論スキルを示します。質問応答、常識的推論、数学と科学、コーディングなどのさまざまな領域にわたって、同様またはより大規模な他の公開モデルと比較して、より優れたパフォーマンスを実現します。 Gemma は、Gemma モデルを使用した開発者のイノベーションをサポートするために、モデルの重みをリリースしました。 Gemma は新しい機能とともに発売されました責任ある生成 AI ツールキット Gemma を使用してより安全な AI アプリケーションを作成するためのガイダンスと重要なツールを提供します。

SageMaker の基盤モデル

JumpStart は、Hugging Face、PyTorch Hub、TensorFlow Hub などの一般的なモデルハブからのさまざまなモデルへのアクセスを提供し、SageMaker の ML 開発ワークフロー内で使用できます。 ML の最近の進歩により、次のモデルとして知られる新しいクラスのモデルが生まれました。 基礎モデル、通常は数十億のパラメーターでトレーニングされており、テキストの要約、デジタルアートの生成、言語翻訳など、幅広いカテゴリのユースケースに適応できます。これらのモデルはトレーニングに費用がかかるため、顧客は、これらのモデルを自分でトレーニングするのではなく、既存の事前トレーニング済みの基盤モデルを使用し、必要に応じて微調整することを望んでいます。 SageMaker は、SageMaker コンソールで選択できる厳選されたモデルのリストを提供します。

JumpStart 内でさまざまなモデルプロバイダーの基礎モデルを検索できるようになり、基礎モデルをすぐに開始できるようになりました。さまざまなタスクまたはモデルプロバイダーに基づいて基礎モデルを検索し、モデルの特性と使用条件を確認できます。テスト UI ウィジェットを使用してこれらのモデルを試すこともできます。基礎モデルを大規模に使用したい場合は、モデルプロバイダーから事前に構築されたノートブックを使用することで、SageMaker を離れることなく使用できます。モデルは AWS でホストおよびデプロイされるため、モデルの評価に使用される場合でも、大規模な使用に使用される場合でも、データが第三者と共有されることはありません。

JumpStart で Llama Guard モデルを使用する方法を見てみましょう。

Jumpstart で Gemma モデルを探索する

Gemma 基盤モデルには、SageMaker Studio UI の SageMaker JumpStart および SageMaker Python SDK を通じてアクセスできます。このセクションでは、SageMaker Studio でモデルを検出する方法について説明します。

SageMaker Studio は、単一の Web ベースのビジュアルインターフェイスを提供する統合開発環境 (IDE) であり、専用ツールにアクセスして、データの準備から ML モデルの構築、トレーニング、デプロイまで、すべての ML 開発ステップを実行できます。 SageMaker Studio の開始方法とセットアップ方法の詳細については、次を参照してください。 Amazon SageMakerスタジオ.

SageMaker Studio の AWS マネジメントコンソールで、以下の SageMaker JumpStart に移動します。 事前に構築された自動化されたソリューション。 Jumpstart には、事前トレーニングされたモデル、ノートブック、事前構築されたソリューションが含まれています。

Gemma が Amazon SageMaker JumpStart | で利用できるようになりました。アマゾンウェブサービス PlatoBlockchain データインテリジェンス。垂直検索。あい。

SageMaker JumpStart ランディングページで、Gemma を検索すると、Gemma モデルを見つけることができます。

その後、Gemma 2B、Gemma 7B、Gemma 2B 命令、Gemma 7B 命令などのさまざまな Gemma モデルバリアントから選択できます。

Gemma が Amazon SageMaker JumpStart | で利用できるようになりました。アマゾンウェブサービス PlatoBlockchain データインテリジェンス。垂直検索。あい。

モデルカードを選択すると、ライセンス、トレーニングに使用されるデータ、モデルの使用方法など、モデルに関する詳細が表示されます。また、 配備します ボタンをクリックすると、サンプルペイロードを使用して推論をテストできるランディングページに移動します。

Gemma が Amazon SageMaker JumpStart | で利用できるようになりました。アマゾンウェブサービス PlatoBlockchain データインテリジェンス。垂直検索。あい。

SageMaker Python SDK を使用して Gemma をデプロイする

JumpStart で Gemma のデプロイメントを示すコードと、デプロイされたモデルの使用方法の例を次の場所に見つけることができます。この GitHub ノートブック。

まず、Gemma をデプロイするときに使用する SageMaker Model Hub のモデル ID とモデルバージョンを選択します。

model_id, model_version = "huggingface-llm-gemma-7b-instruct", "*"

JumpStart 導入のデフォルト構成オプションの詳細を示す次の表からモデル ID を選択します。語彙サイズが 256 トークンと大きいため、Gemma 7B は、10 のコンテキスト長をサポートする場合、単一の A1G GPU にのみ適合します。このため、JumpStart は Gemma 7B に対してより大きなデフォルトインスタンスを使用します。

モデルID	デフォルトの推論インスタンス	テンソル並列度	サポートされているコンテキストの長さ
ハグフェイス-llm-ジェマ-2b	ml.g5.xlarge	1	8k
ハグフェイス-llm-gemma-2b-instruct	ml.g5.xlarge	1	8k
ハグフェイス-llm-ジェマ-7b	ml.g5.12xラージ	4	8k
ハグフェイス-llm-gemma-7b-instruct	ml.g5.12xラージ	4	8k

これで、SageMaker JumpStart を使用してモデルをデプロイできるようになりました。次のコードはデフォルトのインスタンスを使用します ml.g5.12xlarge 推論エンドポイントの場合、渡すことで他のインスタンスタイプにモデルをデプロイできます。 instance_type セクションに JumpStartModel クラス。導入には 5 ～ 10 分かかる場合があります。

from sagemaker.jumpstart.model import JumpStartModel

model = JumpStartModel(model_id=model_id, model_version=model_version)
predictor= model.deploy(accept_eula=False)  # manually accept EULA here!

導入を成功させるには、手動で変更する必要があります。 accept_eula モデルのデプロイメソッドの引数を次のように指定します。 True。このモデルは、テキスト生成推論 (TGI) 深層学習コンテナーを使用してデプロイされます。

エンドポイントの呼び出し

サンプルペイロードをプログラムで取得できます。 JumpStartModel 物体。これは、Gemma が取り込むことができる事前にフォーマットされた指示プロンプトを観察することから始めるのに役立ちます。

example_payloads = model.retrieve_all_examples()

for payload in example_payloads:
    response = predictor.predict(payload.body)
    print("Input:n", payload.body[payload.prompt_key])
    print("Output:n", response[0]["generated_text"].strip())
    print("n===============n")

特定のプロンプトを確認する前に、Gemma Instruct モデルのチャットテンプレートについて考えてみましょう。

<bos><start_of_turn>usern[USER_PROMPT]<end_of_turn>n<start_of_turn>model

ここでは、プロンプトを [USER_PROMPT] 位置。システム命令はサポートされていません。代わりに、ユーザープロンプトの前に必要な指示を追加できます。さらに、複数ターンの会話がある場合は、必要に応じてモデルプロンプトをユーザーとアシスタントの間で切り替えることができます。

次に、いくつかの指示のプロンプトの例を考えてみましょう。ここでは、Gemma に Hello World プログラムを作成するように依頼します。

payload = {
    "inputs": "<bos><start_of_turn>usernWrite a hello world module in Python<end_of_turn>n<start_of_turn>model",
    "parameters": {'max_new_tokens': 256},
}
predictor.predict(payload)

予想される出力は次のとおりです。

```python
# This is a Python module called hello.py

def hello():
  """Prints a hello message."""
  print("Hello, world!")

if __name__ == "__main__":
  hello()
```

**Usage:**

To use the hello.py module, you can import it and call the hello function like this:

```python
import hello

hello.hello()
```

**Output:**

```
Hello, world!
```

**Explanation:**

* The `hello.py` module defines a function called `hello()`.
* The `if __name__ == "__main__"` block checks if the script is being run directly or imported. If it is run directly, the `hello()` function is called.
* The `print("Hello, world!")` statement prints the hello message to the console.

**Note:**

* You can save the code above in a file named `hello.py` in your current directory.
* To run the script, you can use the following command:
```
python hello.py
```
* The output will be printed in the console:
```
Hello, world!
```

次に、ジェマを呼び出して、詩を書くという創造的なタスクを実行します。

payload = {
    "inputs": "<bos><start_of_turn>usernWrite me a poem about Machine Learning.<end_of_turn>n<start_of_turn>model",
    "parameters": {'max_new_tokens': 256},
}
predictor.predict(payload)

出力は次のとおりです。

**Machine Learning**

In the realm of data, a tale unfolds,
Where algorithms dance and stories are told.
With every click, a model takes flight,
Unveiling patterns, hidden in the night.

Data whispers secrets, a treasure to find,
Machine learning listens, with a curious mind.
It sifts through terabytes, with lightning speed,
Uncovering insights, a hidden creed.

From images to text, it learns to see,
To understand the complexities of reality.
It paints a canvas, with insights deep,
Unveiling patterns, secrets to keep.

In the field of medicine, it takes a stand,
Diagnosing diseases, guiding a hand.
It analyzes data, with unmatched grace,
Bringing hope to those in a troubled place.

But with great power comes great responsibility,
As algorithms can bias, with malicious intent.
It's a journey of learning, a constant fight,
To ensure fairness, day and night.

So let us harness the power of this tool,
To create a future, where insights bloom.
With wisdom and caution, we must guide,
The path of machine learning, side by side.

これはかなり良さそうです！

次に、デフォルトの JumpStart デプロイメント構成で提供されるモデルのレイテンシとスループットのパフォーマンスのベンチマークを見てみましょう。ここでは、典型的なエンドポイントワークロードに対してモデルのパフォーマンスがどのように異なるかを示します。次の表では、小規模なクエリ (256 個の入力ワードと 256 個の出力トークン) が多数の同時ユーザーの下で非常にパフォーマンスが高く、XNUMX 秒あたり XNUMX ～ XNUMX トークン程度のトークンスループットに達していることがわかります。ただし、入力ワードの数が Gemma でサポートされている最大コンテキスト長である XNUMX トークンに近づくと、インスタンスのメモリ制限により、エンドポイントのバッチ処理能力 (同時に処理できる同時リクエストの数) が飽和状態になります。

この情報を考慮し、特定のユースケースに合わせて展開構成を調整する方法の詳細については、次を参照してください。 Amazon SageMaker JumpStart でエンドポイントのデプロイメントをベンチマークして最適化する.

.				スループット (トークン/秒)
同時ユーザー				1	2	4	8	16	32	64	128
	インスタンスタイプ	入力単語	出力トークン	.	.	.	.	.	.	.	.
gemma-2b-命令	ml.g5.xlarge	256	256	73	137	262	486	829	1330	1849	1834
		2048	256	69	126	227	373	537	704	764	-
		7936	256	60	100	147	195	226	230	-	-
gemma-7b-命令	ml.g5.12xラージ	256	256	62	119	227	413	601	811	937	962
		2048	256	56	100	172	245	267	273	-	-
		7936	256	44	67	77	77	78	-	-	-

.				P50 レイテンシー (ミリ秒/トークン)
同時ユーザー				1	2	4	8	16	32	64	128
	インスタンスタイプ	入力単語	出力トークン	.	.	.	.	.	.	.	.
gemma-2b-命令	ml.g5.xlarge	256	256	13	14	15	16	19	23	33	49
		2048	256	14	15	17	20	28	43	79	-
		7936	256	16	19	26	39	68	136	-	-
ジェマ-7b-指示	ml.g5.12xラージ	256	256	16	16	17	19	26	38	57	110
		2048	256	17	19	23	32	52	119	-	-
		7936	256	22	29	45	105	197	-	-	-

SageMaker Python SDK を使用して Gemma を微調整する

次に、会話形式のデータセット上で Gemma 7B 命令モデルを微調整する方法を示します。 QLoRA 技術。前述したように、語彙サイズが 256 とコンテキスト長が 8 と大きいため、JumpStart は QLoRA 微調整用に次のデフォルト構成を提供します。

モデルID	デフォルトのトレーニングインスタンス	入力シーケンスの最大長	デバイスごとのトレーニングバッチサイズ	勾配累積ステップ
ハグフェイス-llm-ジェマ-2b	ml.g5.2xラージ	1024	1	4
ハグフェイス-llm-gemma-2b-instruct	ml.g5.2xラージ	1024	1	4
ハグフェイス-llm-ジェマ-7b	ml.g5.12xラージ	2048	1	4
ハグフェイス-llm-gemma-7b-instruct	ml.g5.12xラージ	2048	1	4

データセットを会話形式でロードして処理してみましょう。このデモンストレーションのサンプルデータセットは次のとおりです。 OpenAssistant のトップ 1 会話スレッド.

from datasets import load_dataset

# Load the dataset
dataset = load_dataset("OpenAssistant/oasst_top1_2023-08-25")

トレーニングデータは JSON 行 (.jsonl) 形式で、各行は一連の会話を表す辞書です。 JSON 行ファイル内の 1 つの例を以下に示します。データセットの処理方法の詳細については、次のノートブックを参照してください。 GitHubの.

{'dialog': [
  {'content': 'what is the height of the empire state building',
   'role': 'user'},
  {'content': '381 meters, or 1,250 feet, is the height of the Empire State Building. If you also account for the antenna, it brings up the total height to 443 meters, or 1,454 feet',
   'role': 'assistant'},
  {'content': 'Some people need to pilot an aircraft above it and need to know.nSo what is the answer in feet?',
   'role': 'user'},
  {'content': '1454 feet', 'role': 'assistant'}]
}
import os
import boto3
from sagemaker.session import Session
from sagemaker.jumpstart.estimator import JumpStartEstimator

model_id = "huggingface-llm-gemma-7b-instruct"

estimator = JumpStartEstimator(
    model_id=model_id, environment={"accept_eula": "false"} # manually accept EULA here!
)

# For the other hyperparameters, see the GitHub notebook attached in this blog.
estimator.set_hyperparameters(chat_dataset="True", peft_type="lora", max_input_length="2048", epoch="3")
estimator.fit({"training": <your_S3_bucket_hosting_the_train_data>})

トレーニングスクリプトの基礎として、JumpStart は HuggingFace を使用します。 SFTトレーナー　 QLoRA およびフラッシュ注意。 Flash アテンションによりスケーリング効率が向上し、トレーニングと推論の高速化につながります。 JumpStart は、チャットベースの微調整に加えて、QLoRA を使用した指示とドメイン適応の微調整もサポートしています。詳細については、次のノートブックを参照してください。 GitHubの.

微調整後、微調整されたモデルを SageMaker エンドポイントにデプロイできます。

fine_tuned_predictor= estimator.deploy()

SageMaker エンドポイントの会話データに基づいて微調整されたモデルをデプロイすることを選択できます。 HuggingFace メッセージ API 機能代替アプローチとして。 Message API 機能を使用する利点は、次の表に示すように、ユーザーがクエリの例を生の形式で渡すことができ、エンドポイント内の chat_template がクエリの例をモデルに送信する前に適切な形式に変換できることです。詳細については、微調整後の展開セクションを参照してください。ノート.

微調整されたモデルをエンドポイントにデプロイした後、事前トレーニングされた Gemma モデルと微調整された Gemma モデルからの出力応答を比較できます。サンプルは、トレーニングデータからのホールドアウトセットであるテストデータから収集されます。推論パラメータは次のとおりです。 max_tokens 512のように、 top_p 0.9のように、 temperature 0.4として、および top_k 50年として。

微調整の結果からわかるように、エージェントの回答はより正確になっています。

微調整されたモデルをさらに評価するには、次のことを検討してください。 Amazon SageMaker Clear を使用した FM 評価微調整されたモデルが基本モデルと比較してどのようにパフォーマンスを発揮するかを確認します。

	入力	グラウンドトゥルース	からの応答ベース	微調整されたモデルからの応答
1	ユーザー: 語彙力を鍛えたいのですが、文章の多様性を高めるために使用できる新しい単語を見つける簡単な方法をいくつか教えていただけますか? アシスタント：確かに！語彙力を向上させることは継続的なプロセスですが、新しい単語を見つけて文章の多様性を高めるための簡単な方法をいくつか紹介します。 1. 幅広く読む: さまざまなジャンルやテーマの本、記事、ブログを読むと、新しい単語やフレーズに出会うことができます。出てきた未知の単語をメモし、その意味を調べます。 2. シソーラスを使用する: 書いたり読んだりするときは常に、シソーラスを使用して、一般的に使用される単語の同義語を見つけます。これは、新しい単語を学ぶのに役立つだけでなく、意味の微妙な違いに対する理解も深まります。 3. XNUMX 日単語カレンダーまたはアプリ: XNUMX 日単語メールを購読するか、語彙構築アプリをダウンロードします。これらのツールは、毎日新しい単語を、その意味、発音、使用例とともに紹介します。 4. 読書クラブやディスカッショングループに参加する: 本、記事、またはその他のトピックに関する会話やディスカッションに参加すると、さまざまな視点や新しい語彙に触れることができます。他の人の話を注意深く聞き、文脈に応じて新しい言葉を使ってみてください。 5. 単語ゲームをプレイする: スクラブル、ボグル、クロスワードパズルなどのゲームは、語彙力に挑戦し、楽しい方法で新しい単語を学ぶのに役立ちます。 6. 映画、テレビ番組、またはドキュメンタリーを見る: 視覚メディアでは、さまざまな言語、俗語、専門用語が使用されることがよくあります。字幕付きで映画、テレビ番組、ドキュメンタリーを見ると、新しい単語をより深く理解し、覚えるのに役立ちます。 7. 書く練習をする: 物語、エッセイ、日記のエントリーを定期的に書くと、新しい単語やフレーズを使うようになります。語彙を増やすために、さまざまな文体やジャンルを試してください。 8. 新しい単語の語源を学ぶ: 単語の起源と歴史を理解すると、覚えやすくなり、正しく使用できるようになります。語源を調べると、関連する単語や概念も明らかになります。 9. フラッシュカードまたは間隔をあけて反復するソフトウェアを使用します。新しい単語、その意味、例文を含むフラッシュカードを作成します。定期的に復習するか、Anki などの間隔をあけて反復するソフトウェアを使用して学習を最適化します。 10. 個人的な目標を設定する: 週に XNUMX つの新しい単語を学習するなど、達成可能な目標を設定します。進捗状況を追跡し、目標を達成した自分にご褒美を与えましょう。これらの戦略を日常生活に一貫して組み込むことで、徐々に多様で強力な語彙を構築できるようになります。ユーザー: うーん、私は読書というアイデアがとても好きです。私が読めるクールな SF スリラーを教えてください。	アシスタント：確かに！ここでは、楽しめるかもしれない SF スリラーのおすすめをいくつか紹介します。 1. 劉慈欣著「三体問題」 – この受賞歴のある小説は、人類と異星文明との最初の接触と、その結果生じる政治的および個人的な影響を探求しています。存在と宇宙の性質についての深い疑問を掘り下げた、魅力的で示唆に富む読み物です。 2. ジェフ・ヴァンダーミア著「Annihilation」 – この小説は、科学者のグループが「エリア X」として知られる謎の地域に足を踏み入れ、そこで奇妙で不安な現象に遭遇する様子を描いています。彼らはその地域を深く調査するにつれて、現実と周囲の世界の性質に関する暗い秘密を明らかにし始めます。 3. ブレイク・クラウチ著「ダークマター」 – この小説は、ジェイソン・デッセンという名の優秀な物理学者が誘拐され、平行世界に転送される物語です。彼は自分の現実に戻る方法を見つけようとしながら、自分自身の選択と自分の行動の結果に直面しなければなりません。 4. マイケル・クライトン著「アンドロメダ株」 – この古典的な小説は、地球に上陸した致命的な地球外微生物を封じ込め、研究しようとする科学者チームを描いています。微生物を無力化する方法を見つけるために時間と競う一方で、政治的な陰謀や個人的な対立とも闘わなければなりません。 5. アーネスト・クライン著「レディ・プレイヤー XNUMX」 – この小説は、人口の大多数がオアシスとして知られる仮想現実世界で過ごすディストピア的な未来を舞台としています。オアシスの創設者が亡くなり、隠されたイースターエッグを見つけるという挑戦を残して、若い主人公は彼の人生を永遠に変えるスリル満点の探求に乗り出します。これらの推奨事項の 1 つがあなたの興味を引くことを願っています。	アシスタント: 本文にはあなたの読書の好みや興味に関する情報が含まれていないため、おすすめの本を提供することはできません。	アシスタント: もちろん、あなたが楽しめるかもしれないおすすめの SF スリラーをいくつか紹介します。 – フランク・ハーバート著「デューン」: この壮大な SF 小説は、砂漠の惑星アラキスを舞台にしています。そこでポール・アトレイデスという名の若い王子は、敵対的な環境と危険な政治情勢の課題に直面しなければなりません。 – アンディ・ウィアー著「The Martian」: この魅力的な SF スリラーは、砂嵐の後火星に取り残された宇宙飛行士、マーク・ワトニーが創意工夫と機知を駆使して生き残り、最終的には地球へ帰還する物語を描いています。 – HG ウェルズの「タイムマシン」: この古典的な SF 小説は、タイムトラベルの概念に哲学的なアプローチをとり、過去と未来を変えることの結果を探ります。 – フィリップ K. ディックの「ブレードランナー」: このネオノワール SF 小説は、未来のロサンゼルスを舞台に、人間と人工知能の交差点、および社会と現実の性質に対するその影響を探求しています。 – アイザック・アシモフ著「アンドロイド」: この SF 小説は、人工知能の概念と、特に人間が伝統的な人間の価値観や信念に挑戦する高度なアンドロイドを開発した場合のその潜在的な結果を探求しています。これらはほんの数例であり、最終的にあなたにとって最適な本は、あなたの個人的な好みと、SF スリラーにどのような種類の体験を求めているかによって異なります。ただし、これらの推奨事項がこのジャンルを探索するための良い出発点となることを願っています。他にご質問がある場合、または何かお手伝いできることがございましたら、お知らせください。 user これらの本を私に勧めてくれてありがとう！すぐにそのうちの 1 つに飛び込むのが楽しみです。どういたしまして！お役に立てて嬉しいです。
2	ユーザー: VB.NET で Hello World プログラムを作成します。アシスタント: どうぞ: 「`vbnet」パブリックモジュールHelloWorld パブリックサブメイン() System.Console.WriteLine(“Hello, World!”) End Subのエンドモジュール「 ` ユーザー: $ から入力を受け取り、「Hello, World!」の代わりに「Hello, $」と言うようにします。	アシスタント: パブリックモジュール HelloWorld パブリックサブメイン() System.Console.WriteLine(“あなたの名前は何ですか?”) Dim 名 As String = System.Console.ReadLine() System.Console.WriteLine(“こんにちは、” & 名前 & “!”) End Subのエンドモジュール	アシスタント: 「`vbnet」パブリックモジュールHelloWorld パブリックサブメイン() Dim 名 As String = Console.ReadLine() Console.WriteLine(“こんにちは、” & 名前) End Subのエンドモジュール	アシスタント: そうですね！以下に例を示します。「`vbnet」パブリックモジュールHelloWorld パブリックサブメイン() Dim userName As String = System.Console.ReadLine() System.Console.WriteLine(“こんにちは、” & ユーザー名 & “!”) End Subのエンドモジュール「 `
3	ユーザー: 人間の質問を理解して応答できる大規模な言語モデルをトレーニングするプロジェクトを開始するときに行うべき項目のリストを教えてくださいアシスタント: 以下の手順は、人間の問い合わせを理解して応答できる大規模な言語モデルをトレーニングするプロジェクトを開始するときに実行する手順を要約したリストです。 1. プロジェクトの範囲と目的、対象者を確立します。 2. 包括的で多様なテキストデータセットを収集し、前処理します。 3. 適切なモデルアーキテクチャを選択し、精度/速度のハイパーパラメータを調整します。 4. データセットをトレーニング、検証、テストのサブセットに分割し、データ拡張を実装します。 5. モデルをトレーニングし、検証セットの進行状況を監視し、必要に応じて調整します。 6. テストセットでモデルを評価し、ベンチマークと比較し、エラーとバイアスを分析します。 7. 転移学習または微調整を通じて、特定のタスクまたはドメインを微調整します。 8. ユーザー入力とモデル応答用のインターフェイスを作成します。 9. 制御された環境でテストし、改善のためのフィードバックを収集します。 10. 継続的に監視し、再トレーニングと微調整を通じてパフォーマンスを向上させます。これにより、必要な手順が何であるかについての基本的なアイデアが得られるはずです。いずれかの点についてさらに詳しく説明する必要がありますか? ユーザー: これらのタスクをさらに細分化する必要があります。今後のタスクをより詳細に分類した最新の To Do リストを提供していただけますか	アシスタント: 各ステップのより詳細な内訳は次のとおりです。 1. プロジェクトの範囲と目的を確立する: プロジェクトの目標と対象ユーザーを明確に定義することが重要です。これは、どのタイプのデータを収集するか、どのモデルアーキテクチャが適切であるかを決定するのに役立ちます。 2. データの収集と前処理: データの品質と多様性がモデルのパフォーマンスに直接影響するため、これは重要なステップです。前処理には、データのクリーニング、テキストのトークン化、単語の数値表現への変換などが含まれる場合があります。 3. モデルアーキテクチャの選択: リカレントニューラルネットワーク (RNN)、トランスフォーマーモデル、畳み込みニューラルネットワーク (CNN) など、さまざまな種類のモデルから選択できます。どちらを選択するかは、プロジェクトの特定の要件と利用可能なデータの量によって異なります。 4. データセットを分割し、データ拡張を実装する: データをトレーニング、検証、およびテストのサブセットに分割することは、トレーニング中にモデルのパフォーマンスを監視するために重要です。データ拡張を使用すると、データセットのサイズを人為的に増加させ、モデルの堅牢性を向上させることができます。 5. モデルのトレーニングと進行状況の監視: このステップでは、検証セットを使用してトレーニングデータに基づいてモデルをトレーニングし、進行状況を監視し、必要に応じてハイパーパラメーターを調整します。モデルが検証セットで適切に実行されるまで、このプロセスを数回繰り返すことが必要な場合があります。 6. テストセットでモデルを評価する: モデルがトレーニングされたら、別のテストセットでそのパフォーマンスを評価して、一般化能力を把握することが重要です。これは、モデルの予測を実際の結果と比較し、誤差を分析することで実行できます。 7. 特定のタスクまたはドメインの微調整: このステップには、タスク固有のデータでモデルをさらにトレーニングして、特定のドメインのパフォーマンスを向上させることが含まれます。これは、事前トレーニングされたモデルを新しいデータで微調整する転移学習を通じて、または新しいデータでモデルを最初からトレーニングする微調整を通じて行うことができます。 8. ユーザー入力用のインターフェイスを作成します。これには、ユーザーが質問や要求を入力し、モデルから応答を受け取ることができるインターフェイスの設計が含まれます。 9. 制御された環境でテストする: モデルを実際の環境に展開する前に、制御された環境でテストし、ユーザーからのフィードバックを収集することが重要です。これは、モデル内のエラーやバイアスを特定し、改善の機会を提供するのに役立ちます。 10. パフォーマンスを継続的に監視して改善する: 最後に、モデルのパフォーマンスを継続的に監視し、必要に応じて更新や改善を行うことが重要です。これには、新しいデータでのモデルの再トレーニング、ハイパーパラメーターの微調整、またはアーキテクチャの更新が含まれる場合があります。	アシスタント: ## 質問応答用の大規模言語モデルをトレーニングするための To-Do リスト 1.プロジェクトの範囲と目的: * プロジェクトの目標と必要な機能を定義します。 * 対象ユーザーとその具体的なニーズを特定します。 * 必要な精度と応答品質のレベルを決定します。 2.データの取得と前処理: * トレーニングデータのソースを特定し、多様なテキストデータセットを収集します。 * 一貫性と品質を確保するために、テキストデータをクリーンアップして前処理します。 * データ拡張技術を実装して、トレーニングデータの量を増やします。 3.モデルの選択と構成: * タスクの複雑さと必要なパフォーマンスに基づいて、適切なモデルアーキテクチャを選択します。 * モデルのパフォーマンスを最適化するためにハイパーパラメーターを微調整します。 * モデルの実装に最適なフレームワークとツールを選択します。 4.トレーニングと評価: * トレーニングデータをトレーニング、検証、およびテストのサブセットに分割します。 * 選択したフレームワークとハイパーパラメーターを使用してモデルをトレーニングします。 * 検証セットでのトレーニングの進行状況を監視し、必要に応じてモデルパラメーターを調整します。 * テストセットでのモデルのパフォーマンスを、ベンチマークおよび目的の目標と比較して評価します。 5.微調整とインターフェース開発: * 転移学習を通じて、特定のタスクまたはドメインに合わせてモデルを微調整します。 * 使いやすさとアクセシビリティを考慮して、ユーザー入力とモデル応答のインターフェイスを開発します。 * モデルをインターフェイスと統合し、シームレスな対話を保証します。 6.テストと改善: * さまざまな入力シナリオを使用して、制御された環境でモデルをテストします。 * ユーザーや専門家からフィードバックを収集して、改善すべき領域を特定します。 * 再トレーニングと微調整を通じてモデルのパフォーマンスを継続的に監視し、改善します。追加の考慮事項: * プロジェクトのスケジュールと予算を設定します。 * 潜在的な課題を特定し、緊急時対応計画を策定します。 * 将来の参照やコラボレーションのために、プロセスと調査結果を文書化します。注: このリストは網羅的なものではなく、特定のプロジェクト要件に基づいて調整する必要がある場合があります。	アシスタント: そうですね。人間の質問を理解し、それに応答するために大規模な言語モデルをトレーニングする際に必要なタスクのより詳細な内訳は次のとおりです。 1.プロジェクトの範囲と目的を確立する – 対象読者やモデルに必要な機能など、プロジェクトの目標と目的を定義します。 – モデルが実行する必要がある特定のタスクを特定します。 2.包括的/多様なテキストデータセットの収集と前処理 – 対象読者とタスクに関連するテキストデータのソースを特定します。 – テキストデータをクレンジングおよび前処理して、一貫性と品質を確保します。 – 人間の言語と思考の多様性を反映するバランスの取れたデータセットを作成します。 3.適切なモデルアーキテクチャを選択し、精度/速度のためにハイパーパラメータを調整します – タスクとデータに適したモデルアーキテクチャを選択します。 – モデルのハイパーパラメータを微調整して、パフォーマンスと速度を最適化します。 – 検証データに対するモデルのパフォーマンスを監視して、モデルが一般化可能であることを確認します。 4.データセットをトレーニング、検証、テストのサブセットに分割し、データ拡張を実装します – データセットをトレーニング、検証、およびテストのサブセットに分割します。 – データ拡張技術を実装して、トレーニングデータの多様性とサイズを増加します。 5.モデルをトレーニングし、検証セットの進行状況を監視し、必要に応じて調整します – トレーニングデータを使用してモデルをトレーニングします。 – 検証データに関するモデルの進行状況を監視して、改善の余地がある領域を特定します。 – パフォーマンスを最適化するために、必要に応じてモデルのハイパーパラメータまたはアーキテクチャを調整します。 6.テストセットでのモデルの評価、ベンチマークとの比較、エラーとバイアスの分析 – テストデータでモデルのパフォーマンスを評価します。 – モデルのパフォーマンスをベンチマークや業界標準と比較します。 – エラーとバイアスを分析して、改善すべき領域を特定します。 7。転移学習または微調整による特定のタスクまたはドメインの微調整 – 事前トレーニングされたモデルから知識を転送することで、特定のタスクまたはドメインに合わせてモデルを微調整します。 – 転移学習を使用して既存の知識を活用し、モデルのパフォーマンスを向上させます。 8.ユーザー入力とモデル応答のインターフェイスを作成 – ユーザーが質問を入力し、モデルから応答を受け取ることができるインターフェイスを作成します。 – ユーザーフレンドリーで直観的なインターフェースを設計します。 9.制御された環境でテストし、改善のためのフィードバックを収集します – 制御された環境でモデルをテストし、期待どおりに機能することを確認します。 – ユーザーからのフィードバックを収集して、改善すべき領域を特定します。 10.継続的にモニタリングし、再トレーニングと微調整を通じてパフォーマンスを向上させます – モデルのパフォーマンスを継続的に監視します。 – パフォーマンスを向上させるために、必要に応じてモデルを再トレーニングおよび微調整します。これらは、人間の質問を理解し、それに応答するために大規模な言語モデルをトレーニングする際に必要な手順です。ご質問がございましたらお知らせください。

クリーンアップ

エンドポイントをテストした後、料金の発生を避けるために、SageMaker 推論エンドポイントとモデルを削除します。

まとめ

この投稿では、SageMaker Studio で Gemma を使い始めて、推論用のモデルをデプロイする方法を説明しました。また、SageMaker Jumpstart で Gemma モデルを微調整する方法についても説明しました。

基礎モデルは事前にトレーニングされているため、トレーニングとインフラストラクチャのコストを削減し、ユースケースに合わせたカスタマイズを可能にすることができます。今すぐ SageMaker Studio の SageMaker JumpStart にアクセスして開始してください。

このガイダンスは情報提供のみを目的としています。それでも、独自の独立した評価を実行し、独自の品質管理慣行と基準、およびあなた、あなたのコンテンツ、このガイダンスで参照されているサードパーティモデル。 AWS は、このガイダンスで参照されているサードパーティモデルに対する管理や権限を持たず、サードパーティモデルが安全であるか、ウイルスに感染していないか、運用可能であるか、運用環境や標準と互換性があるかについて、いかなる表明も保証も行いません。 AWS は、このガイダンスの情報が特定の結果または結果をもたらすことについて、いかなる表明、保証も行いません。

著者について

カイル・ウルリッヒ博士 応用科学者であり、 AmazonSageMakerの組み込みアルゴリズムチーム。彼の研究対象には、スケーラブルな機械学習アルゴリズム、コンピュータービジョン、時系列、ベイジアンノンパラメトリック、およびガウス過程が含まれます。彼はデューク大学で博士号を取得しており、NeurIPS、Cell、Neuron で論文を発表しています。

XinHuang博士 Amazon SageMaker JumpStart および Amazon SageMaker 組み込みアルゴリズムの上級応用科学者です。スケーラブルな機械学習アルゴリズムの開発に注力しています。彼の研究対象は、自然言語処理、表形式データの説明可能なディープラーニング、およびノンパラメトリック時空クラスタリングの堅牢な分析の分野です。彼は、ACL、ICDM、KDD カンファレンス、Royal Statistical Society: Series A で多くの論文を発表しています。

ラクナチャダ は、AWS の戦略アカウントにおける AI/ML のプリンシパルソリューションアーキテクトです。 Rachna は楽観主義者で、AI を倫理的かつ責任を持って使用することで将来の社会を改善し、経済的および社会的繁栄をもたらすことができると信じています。余暇には、家族と一緒に時間を過ごしたり、ハイキングをしたり、音楽を聴いたりするのが好きです。

エヴァン・クラヴィッツ アマゾンウェブサービスのソフトウェアエンジニアであり、SageMakerJumpStartに取り組んでいます。彼はニューヨーク市で料理やランニングを楽しんでいます。

アシッシュ・ケタン博士 は、Amazon SageMaker 組み込みアルゴリズムを使用する上級応用科学者であり、機械学習アルゴリズムの開発を支援しています。イリノイ大学アーバナシャンペーン校で博士号を取得。彼は機械学習と統計的推論の活発な研究者であり、NeurIPS、ICML、ICLR、JMLR、ACL、および EMNLP カンファレンスで多くの論文を発表しています。

SEO を活用したコンテンツと PR 配信。今日増幅されます。
PlatoData.Network 垂直生成 Ai。自分自身に力を与えましょう。こちらからアクセスしてください。
プラトアイストリーム。 Web3 インテリジェンス。知識増幅。こちらからアクセスしてください。
プラトンESG。カーボン、クリーンテック、エネルギー、環境、太陽、廃棄物管理。こちらからアクセスしてください。
プラトンヘルス。バイオテクノロジーと臨床試験のインテリジェンス。こちらからアクセスしてください。
情報源： https://aws.amazon.com/blogs/machine-learning/gemma-is-now-available-in-amazon-sagemaker-jumpstart/

タイムスタンプ： 2024 年 3 月 13 日

タイムスタンプ： 2024 年 3 月 4 日

	入力	グラウンドトゥルース	からの応答ベース	微調整されたモデルからの応答
1	ユーザー: 語彙力を鍛えたいのですが、文章の多様性を高めるために使用できる新しい単語を見つける簡単な方法をいくつか教えていただけますか? アシスタント：確かに！語彙力を向上させることは継続的なプロセスですが、新しい単語を見つけて文章の多様性を高めるための簡単な方法をいくつか紹介します。 1. 幅広く読む: さまざまなジャンルやテーマの本、記事、ブログを読むと、新しい単語やフレーズに出会うことができます。出てきた未知の単語をメモし、その意味を調べます。 2. シソーラスを使用する: 書いたり読んだりするときは常に、シソーラスを使用して、一般的に使用される単語の同義語を見つけます。これは、新しい単語を学ぶのに役立つだけでなく、意味の微妙な違いに対する理解も深まります。 3. XNUMX 日単語カレンダーまたはアプリ: XNUMX 日単語メールを購読するか、語彙構築アプリをダウンロードします。これらのツールは、毎日新しい単語を、その意味、発音、使用例とともに紹介します。 4. 読書クラブやディスカッショングループに参加する: 本、記事、またはその他のトピックに関する会話やディスカッションに参加すると、さまざまな視点や新しい語彙に触れることができます。他の人の話を注意深く聞き、文脈に応じて新しい言葉を使ってみてください。 5. 単語ゲームをプレイする: スクラブル、ボグル、クロスワードパズルなどのゲームは、語彙力に挑戦し、楽しい方法で新しい単語を学ぶのに役立ちます。 6. 映画、テレビ番組、またはドキュメンタリーを見る: 視覚メディアでは、さまざまな言語、俗語、専門用語が使用されることがよくあります。字幕付きで映画、テレビ番組、ドキュメンタリーを見ると、新しい単語をより深く理解し、覚えるのに役立ちます。 7. 書く練習をする: 物語、エッセイ、日記のエントリーを定期的に書くと、新しい単語やフレーズを使うようになります。語彙を増やすために、さまざまな文体やジャンルを試してください。 8. 新しい単語の語源を学ぶ: 単語の起源と歴史を理解すると、覚えやすくなり、正しく使用できるようになります。語源を調べると、関連する単語や概念も明らかになります。 9. フラッシュカードまたは間隔をあけて反復するソフトウェアを使用します。新しい単語、その意味、例文を含むフラッシュカードを作成します。定期的に復習するか、Anki などの間隔をあけて反復するソフトウェアを使用して学習を最適化します。 10. 個人的な目標を設定する: 週に XNUMX つの新しい単語を学習するなど、達成可能な目標を設定します。進捗状況を追跡し、目標を達成した自分にご褒美を与えましょう。これらの戦略を日常生活に一貫して組み込むことで、徐々に多様で強力な語彙を構築できるようになります。ユーザー: うーん、私は読書というアイデアがとても好きです。私が読めるクールな SF スリラーを教えてください。	アシスタント：確かに！ここでは、楽しめるかもしれない SF スリラーのおすすめをいくつか紹介します。 1. 劉慈欣著「三体問題」 – この受賞歴のある小説は、人類と異星文明との最初の接触と、その結果生じる政治的および個人的な影響を探求しています。存在と宇宙の性質についての深い疑問を掘り下げた、魅力的で示唆に富む読み物です。 2. ジェフ・ヴァンダーミア著「Annihilation」 – この小説は、科学者のグループが「エリア X」として知られる謎の地域に足を踏み入れ、そこで奇妙で不安な現象に遭遇する様子を描いています。彼らはその地域を深く調査するにつれて、現実と周囲の世界の性質に関する暗い秘密を明らかにし始めます。 3. ブレイク・クラウチ著「ダークマター」 – この小説は、ジェイソン・デッセンという名の優秀な物理学者が誘拐され、平行世界に転送される物語です。彼は自分の現実に戻る方法を見つけようとしながら、自分自身の選択と自分の行動の結果に直面しなければなりません。 4. マイケル・クライトン著「アンドロメダ株」 – この古典的な小説は、地球に上陸した致命的な地球外微生物を封じ込め、研究しようとする科学者チームを描いています。微生物を無力化する方法を見つけるために時間と競う一方で、政治的な陰謀や個人的な対立とも闘わなければなりません。 5. アーネスト・クライン著「レディ・プレイヤー XNUMX」 – この小説は、人口の大多数がオアシスとして知られる仮想現実世界で過ごすディストピア的な未来を舞台としています。オアシスの創設者が亡くなり、隠されたイースターエッグを見つけるという挑戦を残して、若い主人公は彼の人生を永遠に変えるスリル満点の探求に乗り出します。これらの推奨事項の 1 つがあなたの興味を引くことを願っています。	アシスタント: 本文にはあなたの読書の好みや興味に関する情報が含まれていないため、おすすめの本を提供することはできません。	アシスタント: もちろん、あなたが楽しめるかもしれないおすすめの SF スリラーをいくつか紹介します。 – フランク・ハーバート著「デューン」: この壮大な SF 小説は、砂漠の惑星アラキスを舞台にしています。そこでポール・アトレイデスという名の若い王子は、敵対的な環境と危険な政治情勢の課題に直面しなければなりません。 – アンディ・ウィアー著「The Martian」: この魅力的な SF スリラーは、砂嵐の後火星に取り残された宇宙飛行士、マーク・ワトニーが創意工夫と機知を駆使して生き残り、最終的には地球へ帰還する物語を描いています。 – HG ウェルズの「タイムマシン」: この古典的な SF 小説は、タイムトラベルの概念に哲学的なアプローチをとり、過去と未来を変えることの結果を探ります。 – フィリップ K. ディックの「ブレードランナー」: このネオノワール SF 小説は、未来のロサンゼルスを舞台に、人間と人工知能の交差点、および社会と現実の性質に対するその影響を探求しています。 – アイザック・アシモフ著「アンドロイド」: この SF 小説は、人工知能の概念と、特に人間が伝統的な人間の価値観や信念に挑戦する高度なアンドロイドを開発した場合のその潜在的な結果を探求しています。これらはほんの数例であり、最終的にあなたにとって最適な本は、あなたの個人的な好みと、SF スリラーにどのような種類の体験を求めているかによって異なります。ただし、これらの推奨事項がこのジャンルを探索するための良い出発点となることを願っています。他にご質問がある場合、または何かお手伝いできることがございましたら、お知らせください。 user これらの本を私に勧めてくれてありがとう！すぐにそのうちの 1 つに飛び込むのが楽しみです。どういたしまして！お役に立てて嬉しいです。
2	ユーザー: VB.NET で Hello World プログラムを作成します。アシスタント: どうぞ: 「`vbnet」パブリックモジュールHelloWorld パブリックサブメイン() System.Console.WriteLine(“Hello, World!”) End Subのエンドモジュール「 ` ユーザー: $ から入力を受け取り、「Hello, World!」の代わりに「Hello, $」と言うようにします。	アシスタント: パブリックモジュール HelloWorld パブリックサブメイン() System.Console.WriteLine(“あなたの名前は何ですか?”) Dim 名 As String = System.Console.ReadLine() System.Console.WriteLine(“こんにちは、” & 名前 & “!”) End Subのエンドモジュール	アシスタント: 「`vbnet」パブリックモジュールHelloWorld パブリックサブメイン() Dim 名 As String = Console.ReadLine() Console.WriteLine(“こんにちは、” & 名前) End Subのエンドモジュール	アシスタント: そうですね！以下に例を示します。「`vbnet」パブリックモジュールHelloWorld パブリックサブメイン() Dim userName As String = System.Console.ReadLine() System.Console.WriteLine(“こんにちは、” & ユーザー名 & “!”) End Subのエンドモジュール「 `
3	ユーザー: 人間の質問を理解して応答できる大規模な言語モデルをトレーニングするプロジェクトを開始するときに行うべき項目のリストを教えてくださいアシスタント: 以下の手順は、人間の問い合わせを理解して応答できる大規模な言語モデルをトレーニングするプロジェクトを開始するときに実行する手順を要約したリストです。 1. プロジェクトの範囲と目的、対象者を確立します。 2. 包括的で多様なテキストデータセットを収集し、前処理します。 3. 適切なモデルアーキテクチャを選択し、精度/速度のハイパーパラメータを調整します。 4. データセットをトレーニング、検証、テストのサブセットに分割し、データ拡張を実装します。 5. モデルをトレーニングし、検証セットの進行状況を監視し、必要に応じて調整します。 6. テストセットでモデルを評価し、ベンチマークと比較し、エラーとバイアスを分析します。 7. 転移学習または微調整を通じて、特定のタスクまたはドメインを微調整します。 8. ユーザー入力とモデル応答用のインターフェイスを作成します。 9. 制御された環境でテストし、改善のためのフィードバックを収集します。 10. 継続的に監視し、再トレーニングと微調整を通じてパフォーマンスを向上させます。これにより、必要な手順が何であるかについての基本的なアイデアが得られるはずです。いずれかの点についてさらに詳しく説明する必要がありますか? ユーザー: これらのタスクをさらに細分化する必要があります。今後のタスクをより詳細に分類した最新の To Do リストを提供していただけますか	アシスタント: 各ステップのより詳細な内訳は次のとおりです。 1. プロジェクトの範囲と目的を確立する: プロジェクトの目標と対象ユーザーを明確に定義することが重要です。これは、どのタイプのデータを収集するか、どのモデルアーキテクチャが適切であるかを決定するのに役立ちます。 2. データの収集と前処理: データの品質と多様性がモデルのパフォーマンスに直接影響するため、これは重要なステップです。前処理には、データのクリーニング、テキストのトークン化、単語の数値表現への変換などが含まれる場合があります。 3. モデルアーキテクチャの選択: リカレントニューラルネットワーク (RNN)、トランスフォーマーモデル、畳み込みニューラルネットワーク (CNN) など、さまざまな種類のモデルから選択できます。どちらを選択するかは、プロジェクトの特定の要件と利用可能なデータの量によって異なります。 4. データセットを分割し、データ拡張を実装する: データをトレーニング、検証、およびテストのサブセットに分割することは、トレーニング中にモデルのパフォーマンスを監視するために重要です。データ拡張を使用すると、データセットのサイズを人為的に増加させ、モデルの堅牢性を向上させることができます。 5. モデルのトレーニングと進行状況の監視: このステップでは、検証セットを使用してトレーニングデータに基づいてモデルをトレーニングし、進行状況を監視し、必要に応じてハイパーパラメーターを調整します。モデルが検証セットで適切に実行されるまで、このプロセスを数回繰り返すことが必要な場合があります。 6. テストセットでモデルを評価する: モデルがトレーニングされたら、別のテストセットでそのパフォーマンスを評価して、一般化能力を把握することが重要です。これは、モデルの予測を実際の結果と比較し、誤差を分析することで実行できます。 7. 特定のタスクまたはドメインの微調整: このステップには、タスク固有のデータでモデルをさらにトレーニングして、特定のドメインのパフォーマンスを向上させることが含まれます。これは、事前トレーニングされたモデルを新しいデータで微調整する転移学習を通じて、または新しいデータでモデルを最初からトレーニングする微調整を通じて行うことができます。 8. ユーザー入力用のインターフェイスを作成します。これには、ユーザーが質問や要求を入力し、モデルから応答を受け取ることができるインターフェイスの設計が含まれます。 9. 制御された環境でテストする: モデルを実際の環境に展開する前に、制御された環境でテストし、ユーザーからのフィードバックを収集することが重要です。これは、モデル内のエラーやバイアスを特定し、改善の機会を提供するのに役立ちます。 10. パフォーマンスを継続的に監視して改善する: 最後に、モデルのパフォーマンスを継続的に監視し、必要に応じて更新や改善を行うことが重要です。これには、新しいデータでのモデルの再トレーニング、ハイパーパラメーターの微調整、またはアーキテクチャの更新が含まれる場合があります。	アシスタント: ## 質問応答用の大規模言語モデルをトレーニングするための To-Do リスト 1.プロジェクトの範囲と目的: * プロジェクトの目標と必要な機能を定義します。 * 対象ユーザーとその具体的なニーズを特定します。 * 必要な精度と応答品質のレベルを決定します。 2.データの取得と前処理: * トレーニングデータのソースを特定し、多様なテキストデータセットを収集します。 * 一貫性と品質を確保するために、テキストデータをクリーンアップして前処理します。 * データ拡張技術を実装して、トレーニングデータの量を増やします。 3.モデルの選択と構成: * タスクの複雑さと必要なパフォーマンスに基づいて、適切なモデルアーキテクチャを選択します。 * モデルのパフォーマンスを最適化するためにハイパーパラメーターを微調整します。 * モデルの実装に最適なフレームワークとツールを選択します。 4.トレーニングと評価: * トレーニングデータをトレーニング、検証、およびテストのサブセットに分割します。 * 選択したフレームワークとハイパーパラメーターを使用してモデルをトレーニングします。 * 検証セットでのトレーニングの進行状況を監視し、必要に応じてモデルパラメーターを調整します。 * テストセットでのモデルのパフォーマンスを、ベンチマークおよび目的の目標と比較して評価します。 5.微調整とインターフェース開発: * 転移学習を通じて、特定のタスクまたはドメインに合わせてモデルを微調整します。 * 使いやすさとアクセシビリティを考慮して、ユーザー入力とモデル応答のインターフェイスを開発します。 * モデルをインターフェイスと統合し、シームレスな対話を保証します。 6.テストと改善: * さまざまな入力シナリオを使用して、制御された環境でモデルをテストします。 * ユーザーや専門家からフィードバックを収集して、改善すべき領域を特定します。 * 再トレーニングと微調整を通じてモデルのパフォーマンスを継続的に監視し、改善します。追加の考慮事項: * プロジェクトのスケジュールと予算を設定します。 * 潜在的な課題を特定し、緊急時対応計画を策定します。 * 将来の参照やコラボレーションのために、プロセスと調査結果を文書化します。注: このリストは網羅的なものではなく、特定のプロジェクト要件に基づいて調整する必要がある場合があります。	アシスタント: そうですね。人間の質問を理解し、それに応答するために大規模な言語モデルをトレーニングする際に必要なタスクのより詳細な内訳は次のとおりです。 1.プロジェクトの範囲と目的を確立する – 対象読者やモデルに必要な機能など、プロジェクトの目標と目的を定義します。 – モデルが実行する必要がある特定のタスクを特定します。 2.包括的/多様なテキストデータセットの収集と前処理 – 対象読者とタスクに関連するテキストデータのソースを特定します。 – テキストデータをクレンジングおよび前処理して、一貫性と品質を確保します。 – 人間の言語と思考の多様性を反映するバランスの取れたデータセットを作成します。 3.適切なモデルアーキテクチャを選択し、精度/速度のためにハイパーパラメータを調整します – タスクとデータに適したモデルアーキテクチャを選択します。 – モデルのハイパーパラメータを微調整して、パフォーマンスと速度を最適化します。 – 検証データに対するモデルのパフォーマンスを監視して、モデルが一般化可能であることを確認します。 4.データセットをトレーニング、検証、テストのサブセットに分割し、データ拡張を実装します – データセットをトレーニング、検証、およびテストのサブセットに分割します。 – データ拡張技術を実装して、トレーニングデータの多様性とサイズを増加します。 5.モデルをトレーニングし、検証セットの進行状況を監視し、必要に応じて調整します – トレーニングデータを使用してモデルをトレーニングします。 – 検証データに関するモデルの進行状況を監視して、改善の余地がある領域を特定します。 – パフォーマンスを最適化するために、必要に応じてモデルのハイパーパラメータまたはアーキテクチャを調整します。 6.テストセットでのモデルの評価、ベンチマークとの比較、エラーとバイアスの分析 – テストデータでモデルのパフォーマンスを評価します。 – モデルのパフォーマンスをベンチマークや業界標準と比較します。 – エラーとバイアスを分析して、改善すべき領域を特定します。 7。転移学習または微調整による特定のタスクまたはドメインの微調整 – 事前トレーニングされたモデルから知識を転送することで、特定のタスクまたはドメインに合わせてモデルを微調整します。 – 転移学習を使用して既存の知識を活用し、モデルのパフォーマンスを向上させます。 8.ユーザー入力とモデル応答のインターフェイスを作成 – ユーザーが質問を入力し、モデルから応答を受け取ることができるインターフェイスを作成します。 – ユーザーフレンドリーで直観的なインターフェースを設計します。 9.制御された環境でテストし、改善のためのフィードバックを収集します – 制御された環境でモデルをテストし、期待どおりに機能することを確認します。 – ユーザーからのフィードバックを収集して、改善すべき領域を特定します。 10.継続的にモニタリングし、再トレーニングと微調整を通じてパフォーマンスを向上させます – モデルのパフォーマンスを継続的に監視します。 – パフォーマンスを向上させるために、必要に応じてモデルを再トレーニングおよび微調整します。これらは、人間の質問を理解し、それに応答するために大規模な言語モデルをトレーニングする際に必要な手順です。ご質問がございましたらお知らせください。

プラトン再発行

Medidata が Amazon SageMaker 非同期推論を使用して ML 推論予測を最大 30 倍高速化した方法

Amazon SageMaker Studio ノートブックをスケジュールされたノートブックジョブとして運用可能にする

MLOps 用の Amazon Comprehend フライホイールの紹介

Amazon SageMaker JumpStart を使用して高性能の画像分類モデルを構築する

MongoDB 時系列コレクションと Amazon SageMaker Canvas で洞察までの時間を短縮 |アマゾンウェブサービス

Alida は、Amazon Bedrock | を使用して顧客のフィードバックをより深く理解しました。アマゾンウェブサービス

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー