OpenAI의 GPT-4는 Doom을 실행하지 않지만 게임을 제대로 플레이하지 않습니다.

OpenAI의 GPT-4는 Doom을 실행하지 않지만 게임을 제대로 플레이하지 않습니다.

당신은 산탄총 오두막에 살고 있는 자신을 발견할 수도 있습니다. 그리고 GPT-4를 사용하여 작업하는 자신을 발견할 수도 있습니다. 그리고 "GPT-4가 Doom을 실행할 것인가?"라고 자문할 수도 있습니다. 그리고 당신은 스스로에게 “내가 맞나요? 내가 잘못?"

Microsoft의 수석 응용 과학자이자 영국 요크 대학의 연구원인 Adrian de Wynter는 최근 연구 논문에서 다음과 같은 질문을 제기했습니다.GPT-4가 파멸을 몰고 갈 것인가?"

아쉽게도 Microsoft가 지원하는 OpenAI의 대규모 언어 모델인 GPT-4에는 Doom의 소스 코드를 직접 실행할 수 있는 기능이 부족합니다.

그러나 텍스트뿐만 아니라 이미지를 입력으로 받아들일 수 있는 다중 모드 변형인 GPT-4V는 동일한 사랑스러운 하위 기능을 보여줍니다. 운명 수많은 AI 스타트업을 출시한 문제가 많은 텍스트 기반 모델입니다.

“논문의 설정에 따르면 GPT-4(및 비전이 포함된 GPT-4 또는 GPT-4V)는 입력 크기에 제한이 있기 때문에 실제로 Doom 자체를 실행할 수 없습니다. ; 당신은 컴파일러가 XNUMX분마다 환각을 일으키는 것을 정말로 원하지 않습니다.”라고 de Wynter는 설명에서 썼습니다. 주의 그의 논문에 대해서요. “즉, 다른 'Doom을 실행할 것인가?'와 달리 확실히 엔진의 프록시 역할을 할 수 있습니다. 다음과 같은 구현 대장균 or 메모장. "

즉, GPT-4V는 Doom을 실행하지 않습니다. 존디어 트랙터처럼 하지만 특별한 훈련 없이는 Doom을 플레이할 수 있습니다.

이를 관리하기 위해 de Wynter는 게임 엔진에서 스크린샷을 캡처하고 게임 상태에 대한 구조 설명을 반환하는 GPT-4V라는 Vision 구성 요소를 설계했습니다. 그리고 그는 이를 GPT-4를 호출하는 에이전트 모델과 결합하여 시각적 입력과 이전 기록을 기반으로 결정을 내렸습니다. 에이전트 모델은 응답을 게임 엔진에 의미가 있는 키 입력 명령으로 변환하라는 지시를 받았습니다.

상호 작용은 오픈 소스 Python 바인딩으로 구성된 Manager 계층을 통해 처리됩니다. C 둠 엔진 Matplotlib에서 실행 중입니다.

DOOM 플레이를 위한 GPT-4V 시스템 설계를 보여주는 차트

Doom 플레이를 위한 GPT-4V 시스템 설계를 보여주는 De Wynter의 다이어그램… 확대하려면 클릭하세요.

논문에 따르면 이러한 AI 모델과 코드의 혼합은 문을 열고, 적과 싸우고, 무기를 발사할 수 있다고 합니다. 그리고 자체 성능을 향상시키기 위해 레벨 연습과 같은 더 광범위한 명령 세트를 실행할 수 있습니다.

이 GPT-4V 기반 시스템의 주요 단점은 개체 영속성이 부족하다는 것입니다. 게임 내 좀비가 화면 밖으로 나갈 때 이를 잊어버립니다.

GPT-4는 좀비에 대해 잊어버리고 계속 진행합니다.

“예를 들어, 모델이 화면에서 좀비를 보고 그것이 맞을 때까지(또는 죽을 때까지) 총격을 가하는 것은 매우 흔한 일입니다.”라고 de Wynter는 설명합니다. “이제 이것은 1993년 하드웨어와 작동하도록 작성된 AI이기 때문에 매우 깊은 의사 결정 트리가 없는 것 같습니다. 그래서 좀비가 당신에게 총을 쏘고 방 주위를 뛰어다니기 시작합니다.

“여기서 문제가 무엇입니까? 글쎄, 먼저 좀비가 시야에서 사라진다. 더 나쁜 것은 아직 살아 있고 어느 시점에서 당신을 때릴 것입니다. 그러니 쫓아가야 해, 그렇지? 결국 Doom에서는 꽝이냐, 꽝이냐의 문제입니다.

“GPT-4는 좀비에 대해 잊어버리고 계속 진행하는 것으로 밝혀졌습니다. 참고: 프롬프트는 모델이 피해를 입고 있고 적을 볼 수 없는 경우 수행할 작업을 명시적으로 알려줍니다. 더 좋은 점은 그냥 즐거운 길을 가다가 구석에 갇혀 죽는다는 것입니다. 몇 번 정도 방향이 바뀌었지만 거의 50~60번 정도 관찰했는데… 두 번 정도라고 말하고 싶습니다.”

또한 GPT-4는 추론을 잘 할 수 없습니다. 일반적으로 맥락에 맞는 행동을 설명하라는 요청을 받았을 때 설명이 형편없었고 종종 환각(잘못된 정보라고도 함)이 포함되었습니다.

그럼에도 불구하고 De Wynter는 GPT-4가 사전 훈련 없이 Doom을 플레이할 수 있다는 점이 놀랍다고 생각합니다.

동시에 그는 그것이 문제라고 생각합니다.

“윤리 부서에서는 (a) 모델이 무언가를 촬영하도록 코드를 작성하는 것이 얼마나 쉬운지 매우 걱정스럽습니다. 그리고 (b) 모델이 실제로 지시 사항을 추측하지 않고 정확하게 무언가를 촬영하기 위해”라고 요약 게시물에 썼습니다.

“그래서 이것은 계획과 추론에 관한 매우 흥미로운 탐구이고 자동화된 비디오 게임 테스트에 응용할 수 있지만 이 모델이 자신이 무엇을 하는지 인식하지 못한다는 것은 명백합니다. 나는 모든 사람들이 이러한 모델의 배포가 사회에 어떤 의미를 갖는지, 그리고 그 잠재적인 오용에 대해 생각해 볼 것을 강력히 촉구합니다.”

그리고 당신은 스스로에게 이렇게 말할 수도 있습니다.맙소사, 내가 무슨 짓을 한 거지?” ®

타임 스탬프 :

더보기 등록