AI가 볼 수 있도록 돕는 컴퓨팅 개척자

플라톤에 의해 재발행

팔로워 : 0

AI가 볼 수 있도록 돕는 컴퓨팅 개척자 | Quanta Magazine PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

인셀덤 공식 판매점인 알렉세이 에프로스 1980년대에 0010대 때 가족과 함께 러시아에서 캘리포니아로 이주한 그는 소련에서 제작한 개인용 컴퓨터인 Elektronika BK-XNUMX을 가져왔습니다. 그 기계에는 외부 저장 장치가 없었고 몇 시간마다 과열되었기 때문에 비디오 게임을 하려면 기계가 꺼지기 전에 코드를 작성하고 문제를 해결하고 빠르게 플레이해야 했습니다. 대부분의 날에 반복되는 그 주기는 그의 학습을 가속화했습니다.

"이 소련 컴퓨터가 별로 좋지 않았다는 것은 정말 행운이었습니다!" 쉽게 웃으며 온화한 러시아 억양으로 말하는 에프로스가 말했다. 요즘 그는 게임을 많이 하지 않지만 도구를 탐색하고 최대한 활용하려는 의지는 남아 있습니다.

버클리 캘리포니아 대학교 대학원에서 Efros는 하이킹을 시작하고 베이 지역의 자연의 아름다움을 탐험하기 시작했습니다. 얼마 지나지 않아 그는 컴퓨터에 대한 열정과 이러한 광경에 대한 즐거움을 결합하기 시작했습니다. 그는 사진의 구멍을 매끄럽게 패치하는 방법을 개발했습니다. 예를 들어 삼나무 숲 사진의 잘못된 쓰레기통을 자연스러워 보이는 나무로 바꾸는 방법을 개발했습니다. Adobe Photoshop은 나중에 "내용 인식 채우기" 도구에 이 기술 버전을 채택했습니다.

현재 Berkeley Artificial Intelligence Research Lab의 컴퓨터 과학자인 Efros는 대규모 온라인 데이터 세트와 기계 학습 알고리즘을 결합하여 시각적 세계를 이해하고, 모델링하고, 재현합니다. 2016년에는 컴퓨터 기계 협회(Association for Computing Machinery)에서 그에게 상을 수여했습니다. 컴퓨팅 부문 상 사실적인 합성 이미지를 만드는 그의 작업에 대해 그는 "이미지 연금술사. "

Efros는 연구자들의 최선의 노력에도 불구하고 기계는 여전히 우리와 근본적으로 다르게 본다고 말합니다. "색상과 밝기의 패치는 우리가 지금 보고 있는 것을 이전에 본 기억과 연결하도록 요구합니다."라고 Efros는 말했습니다. "이러한 연결은 우리가 보고 있는 것에 의미를 부여합니다." 기계는 이전에 본 것과 연결하지 않고 현재 존재하는 것을 보는 경우가 너무 많습니다.

그러나 차이에는 장점이 있을 수 있습니다. 컴퓨터 비전에서 Efros는 물체와 장면을 인식하도록 설계된 알고리즘이 이미지에서 작동하는지 여부를 즉시 알 수 있다는 점을 높이 평가합니다. 그의 컴퓨터 비전 질문 중 일부는 "파리가 파리처럼 보이는 이유는 무엇입니까?” — 철학적 성향을 가지고 있습니다. 기타, 지속되는 문제를 해결하는 방법 등 데이터 세트의 편향, 실용적이고 긴급합니다.

Efros는 “현재 언어로 AI를 수행하는 사람들이 많이 있습니다.”라고 말했습니다. “뒤에 남겨진 전체적인 시각적 패턴을 살펴보고 싶습니다.” 컴퓨터 비전을 개선함으로써 그는 자율 주행 자동차와 같은 더 나은 실용적인 응용 프로그램을 희망할 뿐만 아니라; 그는 또한 그가 "인간의 시각 지능"이라고 부르는 것, 즉 사람들이 자신이 보는 것을 어떻게 이해하는지 더 잘 이해하기 위해 이러한 통찰력을 얻고 싶어합니다.

Quanta Magazine 버클리 사무실에서 Efros를 만나 과학적 초능력, 시각적 표현의 어려움, 인공 지능이 실제로 얼마나 위험한지에 대해 이야기했습니다. 인터뷰 내용은 명확성을 위해 압축 및 편집되었습니다.

학생 시절 이후로 컴퓨터 비전이 어떻게 향상되었나요?

제가 박사과정을 시작했을 때 유용한 것이 거의 없었습니다. 일부 로봇은 컴퓨터 비전을 사용하여 나사를 조이는 작업을 수행했지만 이는 매우 통제된 산업 환경으로 제한되었습니다. 그러다가 갑자기 카메라가 얼굴을 감지하여 더 선명하게 만들었습니다.

이제 컴퓨터 비전은 자율주행차 등 수많은 애플리케이션에 활용되고 있습니다. 일부 사람들이 처음에 생각했던 것보다 시간이 오래 걸리고 있지만 여전히 진전이 있습니다. 운전을 하지 않는 사람에게 이것은 매우 흥미로운 일입니다.

잠깐만요, 운전 안 하시나요?

아니요, 운전할 만큼 시력이 좋지 않습니다! [웃음.] 저에게 이것은 정말 게임 체인저가 될 것입니다. 나를 다른 곳으로 데려다 줄 자동차를 갖는 것입니다.

나는 당신의 시력이 운전을 방해한다는 것을 깨닫지 못했습니다. 작업 중인 이미지를 컴퓨터 모니터에서 볼 수 있나요?

내가 그들을 충분히 크게 만든다면. 내 글꼴이 꽤 크다는 것을 알 수 있습니다. 나는 잘 보지 못하고 태어났다. 나는 다른 모든 사람들이 미친 듯이 좋은 시력을 갖고 있는 이상한 사람이라고 생각합니다.

당신의 평범하지 않은 신분이 당신의 연구 방향에 영향을 미쳤나요?

누가 알아? “아, 잘 안 보이니까 더 잘 보이는 컴퓨터를 만들겠다”는 생각은 확실히 없었습니다. 아니요, 저는 그런 동기를 부여받은 적이 없습니다.

훌륭한 과학자가 되려면 비밀스러운 초능력이 필요합니다. 당신은 다른 사람들보다 더 나은 일을 해야 합니다. 과학의 가장 큰 장점은 우리 모두가 같은 초능력을 갖고 있지 않다는 것입니다. 어쩌면 내 초능력은 시력이 좋지 않기 때문에 시력 문제에 대해 더 많은 통찰력을 가질 수 있다는 것일 수도 있습니다.

나는 세상을 볼 때 사전 데이터의 중요성을 일찍부터 이해했습니다. 나는 내 자신을 잘 볼 수 없었지만, 이전 경험에 대한 나의 기억은 기본적으로 평범한 사람만큼 훌륭하게 기능할 수 있을 만큼 구멍을 메웠습니다. 대부분의 사람들은 내가 잘 보이지 않는다는 사실을 모릅니다. 그것은 나에게 픽셀보다는 메모리에 관한 독특한 직관을 주었다고 생각합니다.

컴퓨터는 지금 있는 것만 보는 반면, 우리는 이전에 본 모든 것의 태피스트리와 연결된 순간을 봅니다.

예를 들어 파리를 파리처럼 보이게 만드는 미묘한 시각적 패턴을 말로 표현하는 것이 가능할까요?

특정 도시에 있을 때 때로는 자신이 어느 도시에 있는지 알 수 있습니다. 이제 자네 NE sais quoi를, 비록 당신이 그 특정 길모퉁이에 가본 적이 없더라도 말이죠. 말로 설명하기는 매우 어렵지만 픽셀에는 바로 있습니다.

[파리의 경우] 보통 XNUMX층 건물이고, 보통 XNUMX층에 발코니가 있다고 말할 수 있습니다. 이 중 일부를 말로 표현할 수는 있지만 많은 부분이 언어적이지 않습니다. 나에게 그것은 흥미로운 일이다.

당신의 최근 작업에는 컴퓨터를 가르치는 일이 포함되어 있습니다. 시각적 데이터 수집 인간의 시력을 모방하는 방식으로. 어떻게 작동하나요?

현재 컴퓨터에는 엄청난 양의 데이터 세트가 있습니다. 즉, 인터넷에서 스크랩한 수십억 개의 무작위 이미지입니다. 그들은 임의의 이미지를 가져와 하나의 이미지를 처리한 다음 또 다른 임의의 이미지를 가져와 처리하는 등의 작업을 수행합니다. 이 데이터 세트를 계속해서 검토하여 [컴퓨터의 시각] 시스템을 훈련합니다.

생물학적 제제인 우리가 데이터를 수집하는 방식은 매우 다릅니다. 우리가 새로운 상황에 직면했을 때, 이 데이터가 우리를 위해 존재하는 유일한 시간입니다. 우리는 이 방에서, 이 조명과, 이런 옷을 입고, 이런 상황에 처해본 적이 없습니다. 첫째, 우리는 이 데이터를 사용하여 우리가 해야 할 일을 하고, 세상을 이해합니다. 그런 다음 이 데이터를 사용하여 데이터로부터 학습하고 미래를 [예측]합니다.

또한 우리가 보는 데이터는 무작위가 아닙니다. 지금 당신이 보는 것은 몇 초 전에 본 것과 매우 연관되어 있습니다. 영상이라고 생각하시면 됩니다. 비디오의 모든 프레임은 서로 연관되어 있으며 이는 컴퓨터가 데이터를 처리하는 방식과 매우 다릅니다.

나는 우리의 학습 접근 방식을 컴퓨터가 데이터가 들어오는 대로 보고 처리하며 학습하는 방식으로 만드는 데 관심이 있습니다.

컴퓨터가 정지 이미지 대신 비디오를 보게 하는 것만큼 간단하지는 않다고 생각합니다.

아니요, 적응하려면 여전히 [컴퓨터]가 필요합니다. 저는 데이터가 들어오는 대로 보고 처리하고 학습하는 학습 접근 방식에 관심이 있습니다. 우리가 가지고 있는 한 가지 접근 방식은 다음과 같습니다. 시험 시간 훈련. 비디오와 같은 일련의 이미지를 볼 때 상황이 바뀔 수 있다는 아이디어입니다. 따라서 모델이 수정되는 것을 원하지 않습니다. 생물학적 인자가 항상 주변 환경에 적응하는 것처럼 우리는 컴퓨터도 지속적으로 적응하기를 원합니다.

표준 패러다임은 먼저 빅 데이터 세트를 학습한 다음 배포하는 것입니다. Dall·E와 ChatGPT는 2021년경에 인터넷 교육을 받은 후 [그들의 지식]이 동결되었습니다. 그런 다음 이미 알고 있는 내용을 토로합니다. 보다 자연스러운 방법은 [테스트 시간 교육]으로, 별도의 교육 및 배포 단계를 거치지 않고 데이터를 흡수하고 업무에서 학습하도록 하는 것입니다.

컴퓨터에는 확실히 도메인 이동 또는 데이터 세트 편향이라는 문제가 있습니다. 이는 교육 데이터가 시스템을 배포할 때 사용하는 데이터와 매우 다르면 모든 것이 제대로 작동하지 않는다는 개념입니다. 아주 잘. 우리는 어느 정도 진전을 이루고 있지만 아직 거기까지 도달하지는 못했습니다.

문제는 은행이 투자자들에게 과거 실적이 미래 수익을 예측하지 못할 수도 있다고 경고하는 것과 유사합니까?

그게 바로 문제입니다. 현실 세계에서는 상황이 변합니다. 예를 들어, 들쥐가 집에 들어가도 괜찮을 것입니다. 당신은 그 쥐를 결코 제거하지 못할 것입니다! [웃음] 들판에서 태어났고, 집에 가본 적이 없지만, 당신이 주는 모든 것을 찾아서 먹어치울 것입니다. 매우 빠르게 적응하고, 학습하고, 새로운 환경에 적응합니다.

현재 [컴퓨터 비전] 시스템에는 해당 기능이 없습니다. 자율 주행을 통해 캘리포니아에서 자동차를 훈련한 다음 미네소타에서 테스트하면 굉장합니다! — 눈이 왔어요. 눈을 본 적이 없습니다. 혼란스러워집니다.

이제 사람들은 [시스템]이 기본적으로 모든 것을 볼 수 있을 정도로 많은 데이터를 얻어 이 문제를 해결합니다. 그러면 적응할 필요가 없습니다. 하지만 여전히 희귀한 사건을 놓치고 있습니다.

그렇다면 AI 시스템이 앞으로 나아갈 방향인 것 같습니다. 인간은 어디로 떠나는가?

텍스트 전면(ChatGPT)과 이미지 전면(Dall·E) 모두에서 OpenAI에서 나오는 작업은 믿을 수 없을 만큼 흥미롭고 놀랍습니다. 충분한 데이터가 있으면 합리적으로 간단한 방법으로도 놀랄 만큼 좋은 결과를 얻을 수 있다는 생각이 재확인되었습니다.

하지만 ChatGPT를 통해 인간은 우리가 원하는 것만큼 창의적이거나 예외적이지 않다는 사실을 깨달았습니다. 대부분의 경우 우리 내부의 패턴 인식기가 대신할 수 있습니다. 우리는 이전에 들었던 문구나 문장으로 만들어진 문장으로 말합니다. 물론, 우리는 환상과 창의성의 비행을 가지고 있습니다. 우리는 적어도 현재로서는 컴퓨터가 할 수 없는 일을 할 수 있습니다. 하지만 대부분의 경우 ChatGPT로 대체될 수 있지만 대부분의 사람들은 눈치 채지 못할 것입니다.

겸손해집니다. 그러나 그것은 또한 그러한 패턴에서 벗어나고, 더 많은 공상을 시도하고, 진부한 표현과 모방에 갇히지 않도록 동기를 부여하는 요인이기도 합니다.

일부 과학자들은 AI가 인류에 미치는 위험에 대해 우려를 표명했습니다. 걱정 되니?

제가 존경하는 많은 연구자들이 인공지능에 대해 경고해왔습니다. 나는 그 말을 축소하고 싶지 않습니다. 그 중 상당수는 유효한 포인트입니다. 하지만 상황을 관점에서 볼 필요가 있습니다.

지금 문명의 가장 큰 위험은 컴퓨터가 아니라 인간에게서 옵니다. 핵 아마겟돈과 기후 변화는 훨씬 더 시급한 걱정거리입니다. 러시아 연방은 완전히 무고한 이웃을 공격했습니다. 나는 러시아에서 태어났는데, 내 옛 동포들이 이런 짓을 할 수 있다는 사실이 특히 끔찍하다. 나는 이것이 주제 XNUMX순위로 남을 수 있도록 최선을 다하고 있습니다.

우리는 AI 혁명이 우리 일생에서 가장 중요한 사건이라고 생각할 수도 있습니다. 하지만 우리가 자유세계를 구하지 않는다면 AI 혁명은 아무 것도 아닐 것입니다.

그럼 AI에 대해서는 전혀 걱정하지 않나요?

아뇨. 저는 걱정하는 걸 좋아해요. 나는 큰 걱정거리입니다! 그러나 세상을 파괴하는 푸틴 대통령이 여기 있고(머리에 손을 든다) 기후 변화가 있다면(어깨에 손을 내린다), AI는 여기 있다(손을 발로 내린다). 푸틴과 기후변화에 비하면 내 걱정은 극히 일부에 불과하다.

SEO 기반 콘텐츠 및 PR 배포. 오늘 증폭하십시오.
PlatoData.Network 수직 생성 Ai. 자신에게 권한을 부여하십시오. 여기에서 액세스하십시오.
PlatoAiStream. 웹3 인텔리전스. 지식 증폭. 여기에서 액세스하십시오.
플라톤ESG. 탄소, 클린테크, 에너지, 환경, 태양광, 폐기물 관리. 여기에서 액세스하십시오.
PlatoHealth. 생명 공학 및 임상 시험 인텔리전스. 여기에서 액세스하십시오.
출처: https://www.quantamagazine.org/the-computing-pioneer-helping-ai-see-20231024/

타임 스탬프 : 2023 년 10 월 24 일

타임 스탬프 : 26년 2023월 XNUMX일

AI가 볼 수 있도록 돕는 컴퓨팅 개척자 | 콴타 매거진

플라톤에 의해 재발행

학생 시절 이후로 컴퓨터 비전이 어떻게 향상되었나요?

잠깐만요, 운전 안 하시나요?

나는 당신의 시력이 운전을 방해한다는 것을 깨닫지 못했습니다. 작업 중인 이미지를 컴퓨터 모니터에서 볼 수 있나요?

당신의 평범하지 않은 신분이 당신의 연구 방향에 영향을 미쳤나요?

예를 들어 파리를 파리처럼 보이게 만드는 미묘한 시각적 패턴을 말로 표현하는 것이 가능할까요?

당신의 최근 작업에는 컴퓨터를 가르치는 일이 포함되어 있습니다. 시각적 데이터 수집 인간의 시력을 모방하는 방식으로. 어떻게 작동하나요?

컴퓨터가 정지 이미지 대신 비디오를 보게 하는 것만큼 간단하지는 않다고 생각합니다.

문제는 은행이 투자자들에게 과거 실적이 미래 수익을 예측하지 못할 수도 있다고 경고하는 것과 유사합니까?

그렇다면 AI 시스템이 앞으로 나아갈 방향인 것 같습니다. 인간은 어디로 떠나는가?

일부 과학자들은 AI가 인류에 미치는 위험에 대해 우려를 표명했습니다. 걱정 되니?

그럼 AI에 대해서는 전혀 걱정하지 않나요?

더보기 콴타마진

다세포성의 기원을 찾는 다재다능한 과학자 | 콴타 매거진

위험한 대규모 단계로 최적화 문제를 더 빠르게 해결할 수 있습니다 | 콴타 매거진

앨런 튜링과 부정적인 사고의 힘 | 콴타 매거진

혈액 매개 위협으로부터 뇌가 스스로를 보호하는 방법 | 콴타 매거진

숫자 15는 무한 그리드의 비밀 한계를 설명합니다.

더 나은 양자 코드에 대한 새로운 얽힘 결과 힌트

수학자들이 이미 알고 있는 것을 재증명하는 이유

회사 소개

수직 검색 및 인공 지능

플랫폼

연결 유지

계정

개요

개요

개요

학생 시절 이후로 컴퓨터 비전이 어떻게 향상되었나요?

잠깐만요, 운전 안 하시나요?

나는 당신의 시력이 운전을 방해한다는 것을 깨닫지 못했습니다. 작업 중인 이미지를 컴퓨터 모니터에서 볼 수 있나요?

당신의 평범하지 않은 신분이 당신의 연구 방향에 영향을 미쳤나요?

개요

예를 들어 파리를 파리처럼 보이게 만드는 미묘한 시각적 패턴을 말로 표현하는 것이 가능할까요?

당신의 최근 작업에는 컴퓨터를 가르치는 일이 포함되어 있습니다. 시각적 데이터 수집 인간의 시력을 모방하는 방식으로. 어떻게 작동하나요?

개요

컴퓨터가 정지 이미지 대신 비디오를 보게 하는 것만큼 간단하지는 않다고 생각합니다.

개요

문제는 은행이 투자자들에게 과거 실적이 미래 수익을 예측하지 못할 수도 있다고 경고하는 것과 유사합니까?

그렇다면 AI 시스템이 앞으로 나아갈 방향인 것 같습니다. 인간은 어디로 떠나는가?

개요

일부 과학자들은 AI가 인류에 미치는 위험에 대해 우려를 표명했습니다. 걱정 되니?

그럼 AI에 대해서는 전혀 걱정하지 않나요?

더보기 콴타마진

회사 소개

수직 검색 및 인공 지능

플랫폼

연결 유지

계정