Apple の研究者らは、ReALM AI として知られる新製品を発表しました。これは、ユーザーの画面に表示されている内容を理解し、それに応じてリクエストに応答できると主張しています。
研究者らによると、このモデルはパラメーターが少ないにもかかわらず、さまざまなタスクで GPT-4 を上回っています。これは、iOS 18 の正式リリースに先立って行われます。 WWDC 2024 6月には、大きな後押しが予想される 新しいSiri 2.0。 ただし、Apple が WWDC 2024 に間に合うように新しい ReALM を Siri に統合するかどうかはまだ明らかではありません。
また、お読みください。 ニッキー・ミナージュ、ケイト・ペリー、他200人のアーティストが音楽の「価値を下げる」としてAI開発者を非難
画面上で理解する
Apple は AI 関連の発表を行い、AI 分野で追いつきを続けています。現在、iPhone メーカーの研究者は、「画面に何が表示されているかを理解する」ことができる新しい AI モデル ReALM をリリースするという画期的な進歩を遂げました。
AI スタートアップの買収からわずか 1 か月後にこれが実現 ダーウィンAI。 研究者らによると、このモデルはユーザーの画面からの情報をテキストに変換するという。これにより、「大掛かりな画像認識を必要とせずに」デバイス上で機能することが可能になります。
に記載されているモデル 研究論文 パラメーターが少ないにもかかわらず、GPT-4 よりも大幅にパフォーマンスが優れており、画面上の内容だけでなくバックグラウンドで実行されているタスクも考慮されています。
たとえば、ユーザーが Web ページを閲覧していて電話したい企業を見つけた場合、Siri に「この企業に電話して」と頼むだけで済みます。 ReALM を使用すると、このモデルにより、Siri が連絡先の詳細を「確認」し、「直接通話を開始」できるようになります。
これは、モデルが画面コンテキストをどのように理解してユーザー エクスペリエンスを向上させるかを示しています。
MSPowerUser によると レポート、新しいモデルを将来の Siri アップデートに統合することは、Apple がよりシームレスで「ハンズフリーのユーザー エクスペリエンス」を生み出すのに役立ちます。これにより、Gemini のような大規模な言語モデルを導入することなく、Siri の会話能力がさらに向上すると期待されています。
レポートはさらに次のように述べています iPhoneメーカー は、必要な結果を得るために複数のプロンプトを表示する必要性を軽減できる MM1 と AI 画像マニピュレーターにも取り組んでいます。
AI ニュース: Apple の研究者たちは、画面のコンテキストを「見て」理解できる新しい AI モデルを発表しました。
さらに、SWE-agent、Anthropic、Apple Vision Pro、Baidu と呼ばれるオープンソースの AI エージェントによるさらなる開発も行われています。
AI で現在起こっていることは次のとおりです。
— ローワン・チャン (@rowancheung) 2024 年 4 月 3 日
競合他社を上回るパフォーマンス
研究論文によると、ReALM はさまざまなデータセットで同等のモデルや以前のモデルを上回りました。これらには、合成データセット、会話データセット、および目に見えない会話データセットが含まれていました。
研究論文では、画面上の情報で OpenAI の GPT-4 を使用して ReALM がどのように完全に実行されたかについても特に強調しています。演習中、ReALM はテキスト コーディングのみに依存していましたが、GPT-4 にはスクリーンショットへのアクセスが許可されていました。
研究者がそのパフォーマンスを評価したところ、GPT-4 と ReALM はどちらも同じ結果を示しました。
MSPowerUser によると、「ただし、ReALM はユーザーのリクエストに合わせて微調整されているため、ドメイン固有のクエリに関しては GPT-4 よりも優れたパフォーマンスを発揮しました。」
研究者らは次のように説明しています。「特に画面上のデータセットでの利点を強調したいのですが、テキスト エンコーディング アプローチを使用したモデルは、GPT-4 にスクリーンショットが提供されているにもかかわらず、GPT-XNUMX とほぼ同等のパフォーマンスを発揮できることがわかりました。」
研究者らによれば、これにより ReALM は「ユーザーの意図のニュアンスを把握し、それに応じて対応する」ことが可能になるという。
モデルの反対側
この調査では、ReALM が参照解決に LLM をどのように利用しているかが強調されています。 MSPowerUser によると、このモデルは、「オンデバイス アプリケーションの効率性を維持しながら、画面上のエンティティを自然言語テキストに変換する」ことによって、ユーザーの画面とその要求を理解することができます。
ただし、モデルは画面上のエンティティの位置をエンコードしますが、「空間関係の複雑な理解を必要とする複雑なユーザー クエリ」からすべての詳細を取得できるわけではありません。
による トムのガイド, Appleが過去数カ月間にAI分野に進出したのはこれが初めてではない。同社はデバイスの効率を高めるためのツールの組み合わせに取り組んでおり、AI をビジネスの中心にするという取り組みを示しています。
ReALM は、特に既存のモデルを強化し、より高速かつ効率的にすることに重点を置いた iPhone メーカーの最新製品です。
- SEO を活用したコンテンツと PR 配信。 今日増幅されます。
- PlatoData.Network 垂直生成 Ai。 自分自身に力を与えましょう。 こちらからアクセスしてください。
- プラトアイストリーム。 Web3 インテリジェンス。 知識増幅。 こちらからアクセスしてください。
- プラトンESG。 カーボン、 クリーンテック、 エネルギー、 環境、 太陽、 廃棄物管理。 こちらからアクセスしてください。
- プラトンヘルス。 バイオテクノロジーと臨床試験のインテリジェンス。 こちらからアクセスしてください。
- 情報源: https://metanews.com/apple-researchers-boast-its-realm-understands-screen-context/
- :持っている
- :は
- :not
- $UP
- 17
- 200
- 2024
- 8
- a
- 能力
- できる
- アクセス
- 従った
- それに応じて
- 買収
- 与えられた
- 後
- エージェント
- 先んじて
- AI
- AIは正しい
- ことができます
- ほとんど
- また
- しかし
- an
- および
- お知らせ
- 人間原理
- Apple
- アプローチ
- です
- アリーナ
- Artists
- AS
- 頼む
- At
- 背景
- Baiduの
- き
- 背後に
- さ
- ビッグ
- 誇る
- 画期的な
- ビジネス
- 焙煎が極度に未発達や過発達のコーヒーにて、クロロゲン酸の味わいへの影響は強くなり、金属を思わせる味わいと乾いたマウスフィールを感じさせます。
- by
- コール
- 呼ばれます
- came
- 缶
- キャプチャー
- レスリング
- センター
- クレーム
- クリア
- コーディング
- comes
- コミットメント
- 会社
- 完全に
- 複雑な
- 理解する
- 考慮する
- 接触
- コンテキスト
- 会話
- 作ります
- データセット
- 展開する
- にもかかわらず
- 詳細
- 細部
- 開発者
- 進展
- Devices
- 直接に
- 原因
- 間に
- 効率
- 効率的な
- enable
- エンコーディング
- 高めます
- 強化
- エンティティ
- 特に
- 評価
- さらに
- あらゆる
- すべてのもの
- 例
- 運動
- 既存の
- 予想される
- 体験
- 説明
- 速いです
- 少数の
- より少ない
- もう完成させ、ワークスペースに掲示しましたか?
- 名
- 焦点
- 悪ふざけ
- から
- function
- さらに
- 未来
- 利益
- 双子座
- 取得する
- 与える
- 行く
- 把握
- 持ってる
- 助け
- ことができます
- 特徴
- ハイライト
- 認定条件
- しかしながら
- HTTPS
- 同一の
- if
- 説明する
- 画像
- 画像認識
- in
- 含まれました
- 情報
- 統合する
- 統合
- 意図
- に
- iOS
- iPhone
- IT
- ITS
- JPEG
- 六月
- ただ
- 既知の
- 言語
- 大
- 最新の
- 起動する
- ような
- 製
- make
- メーカー
- 作成
- かもしれない
- 混合
- モデル
- 月
- ヶ月
- 他には?
- の試合に
- ナチュラル
- 必要
- 必要とされる
- 新作
- 新製品
- ニュース
- ノート
- 今
- of
- 公式
- on
- その他
- 私たちの
- パフォーマンスが優れている
- 紙素材
- パラメータ
- 過去
- ピア
- 実行する
- パフォーマンス
- 実行
- プラトン
- プラトンデータインテリジェンス
- プラトデータ
- 再生
- 位置
- 前
- Pro
- プロダクト
- プロンプト
- 提供
- プッシュ
- クエリ
- 読む
- realm
- 認識
- 減らします
- 参照
- 関連する
- の関係
- 解放
- 残り
- レポート
- リクエスト
- 研究
- 研究者
- 解像度
- 反応します
- 結果
- 明らかに
- 右
- ランニング
- s
- 画面
- スクリーンショット
- シームレス
- 示されました
- 表示
- 側
- 著しく
- 単に
- もっぱら
- スペース
- 空間の
- 特に
- スタートアップ
- 明記
- 合成
- タスク
- 클라우드 기반 AI/ML및 고성능 컴퓨팅을 통한 디지털 트윈의 기초 – Edward Hsu, Rescale CPO 많은 엔지니어링 중심 기업에게 클라우드는 R&D디지털 전환의 첫 단계일 뿐입니다. 클라우드 자원을 활용해 엔지니어링 팀의 제약을 해결하는 단계를 넘어, 시뮬레이션 운영을 통합하고 최적화하며, 궁극적으로는 모델 기반의 협업과 의사 결정을 지원하여 신제품을 결정할 때 데이터 기반 엔지니어링을 적용하고자 합니다. Rescale은 이러한 혁신을 돕기 위해 컴퓨팅 추천 엔진, 통합 데이터 패브릭, 메타데이터 관리 등을 개발하고 있습니다. 이번 자리를 빌려 비즈니스 경쟁력 제고를 위한 디지털 트윈 및 디지털 스레드 전략 개발 방법에 대한 인사이트를 나누고자 합니다.
- テキスト
- それ
- アプリ環境に合わせて
- それら
- したがって、
- ボーマン
- 彼ら
- この
- 時間
- 〜へ
- 豊富なツール群
- true
- わかる
- 理解する
- 理解する
- 更新版
- ユーザー
- 操作方法
- 利用
- さまざまな
- ビジョン
- 欲しいです
- ました
- WELL
- この試験は
- 何ですか
- いつ
- which
- while
- 意志
- 希望
- 無し
- ワーキング
- まだ
- あなたの
- ゼファーネット