インタビュー 商用の大規模言語モデルが競技プログラミングの問題を解決する能力は、賢明なプロンプト エンジニアリングを通じてプロセスを慎重にガイドすることで大幅に向上します。
これを実証するために、イスラエルに拠点を置く Codium AI は AlphaCodium を構築し、 リリース 今月の GitHub 上のソフトウェア。 AlphaCodium 自体は大規模な言語モデルではありません。その代わりに、CEO のイタマール・フリードマン氏が「フロー エンジニアリング」と呼ぶものを使用して、GPT-4 のような生成 AI ツールの問題解決能力を向上させる方法です。
まず、プログラミングの質問が基礎となる大規模言語モデルに与えられ、問題を説明して要約するように求められます。その情報は、問題の解決に向けてどのように始めるべきかを導きます。 AlphaCodium は、ソリューションを考えるときに、入力と出力がどうあるべきかなどを定義します。これらはすべて自然言語で指定されます。
次に、モデルは、説明した仕様に一致するコードの生成を開始します。仕様に準拠したコードを参加者に求めるプログラミング コンテストでは、通常、特定の入力に対してスクリプトが何を出力するかを示すテストが提供されます。 AlphaCodium はこれらのテスト ケースをさらに生成し、考えられるソリューションを実行して、コードが期待どおりに動作するかどうかを確認します。
いずれのテストで定義された出力とも一致しない場合、モデルはすべてのテストに合格するか失敗するまで、さまざまなソリューションを生成します。コードがコンパイルされないか、単に間違っている場合、エラーが発生する可能性があります。
以下の図で、フロー エンジニアリング プロセスのさまざまなステップを確認できます。これは主に、システムが自然言語で問題を分析する前処理フェーズと、公開テストおよび AI 生成のテストに対して考えられる解決策を実行するコード反復ステージに分かれています。
「私たちは問題を取り上げてモデルのところに行って『最終的な解決策を生成してください』と言うわけではありません」とフリードマン氏は語った。 登録。 「モデルに対して、この問題を箇条書きで再定義するようお願いします。」単純化していくつかのチャンクに分割すると、後でモデルがアルゴリズムのさまざまな部分のコードを生成しやすくなります。
基本的に、フロー エンジニアリングは、モデルの問題解決プロセスを明確に定義されたステップに分割することでガイドする手順です。 「生成されたコードを意味のある名前と機能を持つ小さなサブ関数に分割する」よう促すと、バグが減り、コードのテストと修正が容易になると言われています。
「私たちは基本的に時間の 95% をフロー エンジニアリングに費やし、プロンプト エンジニアリングには 5% だけを費やしました。また、[ステップ] ごとにプロンプトを変更しませんでした」とフリードマン氏は付け加えました。
Codium のエンジニアは、2 年前に Google DeepMind によってコンパイルされた CodeForces データセットの検証およびテスト部分で使用された数百の問題でモデルのパフォーマンスをテストしました。彼らは、AlphaCodium は Google DeepMind の AlphaCode モデルや AlphaCodeXNUMX モデルよりもコーディング問題の解決に優れていたと主張しています。
arXiv で報告された結果では 紙 [PDF]、AlphaCodium は質問の 44% に正解できたのに対し、AlphaCode は 24% でしたが、107 の検証問題に対して AlphaCode が選択した 165 つのソリューションと比較して、生成したソリューションは 29 つだけでした。興味深いことに、28 のテスト問題に関しては、AlphaCode の XNUMX パーセントと比較して、AlphaCodium は XNUMX パーセントを解決し、その差は縮まりました。
AlphaCode は、生成される可能性のある数万、または数十万のスクリプトの中から最も有望な 10 個のソリューションを選択します。そのため、実行には大量の計算が必要になります。
「私たちはテストの全体の流れにより重点を置きました」とフリードマン氏は語った。 「[Google] に関しては、この世代に関して非常に多くの作業を行いました。彼らは何百もの他のオプションを生成しようとしていますが、私たちが生成するソリューションはほとんどありませんが、コードの改善を導くためにそれらを非常によくテストしています。」
AlphaCodiumは、以前のAlphaCodeよりも2倍効率的であるGoogle DeepMindの最新のAlphaCode10,000モデルよりもわずかに優れている、と彼は付け加えた。
フリードマン氏は、AlphaCodiumのパフォーマンスはデータ漏洩によるものではなく、基礎となるモデルが同じ問題でトレーニングされ、テストされていると確信していると述べた。 AlphaCodium を動かしている GPT-4 バージョンは、2021 年 XNUMX 月までにインターネットから収集したテキストに基づいてトレーニングされましたが、システムをテストした問題は、ずっと後にリリースされた前述の CodeForces データセットから取得されました。
ただし、フロー エンジニアリング プロセスを評価するより適切な比較は、AlphaCodium を適用した場合と適用しない場合で同じ問題を解決する GPT-4 の能力に注目することです。従来の GPT-4 は、検証セットとテスト セットの問題のそれぞれ 19 パーセントと 12 パーセントしか正しく答えることができませんでしたが、AlphaCodium を搭載したバリアントでは 44 パーセントと 29 パーセントでした。
つまり、コードの生成方法をガイドし、テスト プロセスを改善するための追加データを生成する慎重なパイプラインを実装することは、大規模な言語モデルを最初からトレーニングしようとするよりも効果的である可能性があるようです。
Codium は最近、Python 開発者をサポートする新しいツールをリリースしました。Python 開発者は、AlphaCodium を呼び出して、IDE でコーディングの問題を直接解決できるようになりました。一緒に遊ぶことができます ここに。 ®
- SEO を活用したコンテンツと PR 配信。 今日増幅されます。
- PlatoData.Network 垂直生成 Ai。 自分自身に力を与えましょう。 こちらからアクセスしてください。
- プラトアイストリーム。 Web3 インテリジェンス。 知識増幅。 こちらからアクセスしてください。
- プラトンESG。 カーボン、 クリーンテック、 エネルギー、 環境、 太陽、 廃棄物管理。 こちらからアクセスしてください。
- プラトンヘルス。 バイオテクノロジーと臨床試験のインテリジェンス。 こちらからアクセスしてください。
- 情報源: https://go.theregister.com/feed/www.theregister.com/2024/02/19/codium_ai_interview/
- :持っている
- :は
- :not
- :どこ
- $UP
- 10
- 12
- 19
- 2021
- 24
- 28
- 29
- 7
- a
- 能力
- 能力
- できる
- 精度
- 追加されました
- NEW
- に対して
- 前
- AI
- アルゴリズム
- 整列
- すべて
- an
- 分析
- および
- 回答
- どれか
- 登場する
- 適用
- 発生します
- AS
- 頼む
- 質問
- 評価する
- At
- ベース
- 基本的に
- BE
- き
- 始まる
- 始まります
- 以下
- より良いです
- ビット
- ブーストされた
- 破壊
- 広い
- バグ
- 内蔵
- 焙煎が極度に未発達や過発達のコーヒーにて、クロロゲン酸の味わいへの影響は強くなり、金属を思わせる味わいと乾いたマウスフィールを感じさせます。
- by
- コール
- コール
- came
- 缶
- 注意深い
- 慎重に
- 例
- 最高経営責任者(CEO)
- 変化する
- チェック
- 選ばれた
- クレーム
- CO
- コード
- コーディング
- 到来
- コマーシャル
- 比べ
- 比較
- コンクール
- 競争力のある
- コンパイル
- 計算的に
- 確信して
- 可能性
- データ
- データ漏洩
- データセット
- ディープマインド
- 定義済みの
- 定義する
- 実証します
- 説明する
- 記載された
- 開発者
- ダイアグラム
- DID
- 異なります
- 直接に
- 分割
- doesnの
- ドン
- 原因
- 各
- 容易
- 効果的な
- 効率的な
- エンジニアリング
- 全体
- エラー
- 予想される
- 失敗
- FRBは
- 少数の
- より少ない
- ファイナル
- 五
- 修正する
- フロー
- 焦点を当て
- から
- 機能性
- ギャップ
- 生成する
- 生成された
- 生成
- 生成
- 世代
- 生々しい
- 生成AI
- GitHubの
- 与えられた
- Go
- でログイン
- ガイド
- ガイド
- 案内
- he
- 認定条件
- しかしながら
- HTTPS
- 何百
- if
- 実装
- 改善します
- 改善
- 向上させる
- in
- 情報
- 入力
- を取得する必要がある者
- インターネット
- に
- ISN
- イスラエル
- IT
- 繰り返し
- ITS
- JPG
- ただ
- ラベル
- 言語
- 大
- 主として
- 後で
- 最新の
- リード
- 漏れ
- ような
- 探して
- 作る
- 作成
- 管理します
- 一致
- 意味のある
- 方法
- モデル
- 月
- 他には?
- もっと効率的
- 最も
- ずっと
- 名
- ナチュラル
- 新作
- 今
- of
- 古い
- on
- の
- オプション
- or
- その他
- 私たちの
- でる
- 出力
- outputs
- 部品
- パス
- 以下のために
- パーセント
- パフォーマンス
- 相
- パイプライン
- シンプルスタイル
- プラトン
- プラトンデータインテリジェンス
- プラトデータ
- プレイ
- お願いします
- ポイント
- 可能
- 電源
- 前任者
- 問題
- 問題解決
- 問題
- 手続き
- プロセス
- ラボレーション
- プログラミング
- 有望
- プロンプト
- 提供します
- 公共
- Python
- 質問
- 質問
- RE
- 本当に
- 最近
- 再定義する
- リリース
- 報告
- それぞれ
- 結果
- ラン
- runs
- s
- 前記
- 同じ
- スクラッチ
- スクリプト
- スクリプト
- 9月
- セッションに
- セット
- ショート
- すべき
- 表示
- 著しく
- 単純化
- 小さい
- So
- ソフトウェア
- 溶液
- ソリューション
- 解決する
- 解決
- 仕様
- 指定の
- 費やした
- split
- ステージ
- 最先端の
- 手順
- ステップ
- まとめる
- サポート
- 取る
- 撮影
- 言う
- 10
- 十
- 条件
- test
- テスト
- テスト
- テスト
- 클라우드 기반 AI/ML및 고성능 컴퓨팅을 통한 디지털 트윈의 기초 – Edward Hsu, Rescale CPO 많은 엔지니어링 중심 기업에게 클라우드는 R&D디지털 전환의 첫 단계일 뿐입니다. 클라우드 자원을 활용해 엔지니어링 팀의 제약을 해결하는 단계를 넘어, 시뮬레이션 운영을 통합하고 최적화하며, 궁극적으로는 모델 기반의 협업과 의사 결정을 지원하여 신제품을 결정할 때 데이터 기반 엔지니어링을 적용하고자 합니다. Rescale은 이러한 혁신을 돕기 위해 컴퓨팅 추천 엔진, 통합 데이터 패브릭, 메타데이터 관리 등을 개발하고 있습니다. 이번 자리를 빌려 비즈니스 경쟁력 제고를 위한 디지털 트윈 및 디지털 스레드 전략 개발 방법에 대한 인사이트를 나누고자 합니다.
- より
- それ
- アプリ環境に合わせて
- それら
- その後
- ボーマン
- 彼ら
- 物事
- この
- それらの
- しかし?
- 数千
- 介して
- 時間
- 〜へ
- 言われ
- ツール
- 豊富なツール群
- トレーニング
- 訓練された
- 試します
- しよう
- 2
- 一般的に
- 根本的な
- まで
- 中古
- バリアント
- Verification
- バージョン
- 非常に
- ました
- we
- WELL
- 明確な
- した
- この試験は
- いつ
- 一方
- while
- 誰
- 無し
- 仕事
- ワーキング
- 間違った
- 年
- You
- ゼファーネット