Người tiên phong về máy tính giúp AI nhìn thấy | Tạp chí Quanta

Người tiên phong về máy tính giúp AI nhìn thấy | Tạp chí Quanta

Người tiên phong về máy tính giúp AI nhìn thấy | Tạp chí Quanta PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.

Giới thiệu

Thời Gian Alexei Efros cùng gia đình chuyển từ Nga đến California khi còn là một thiếu niên vào những năm 1980, ông mang theo chiếc máy tính cá nhân do Liên Xô sản xuất, một chiếc Elektronika BK-0010. Máy không có bộ nhớ ngoài và cứ vài giờ lại quá nóng, vì vậy để chơi trò chơi điện tử, anh phải viết mã, khắc phục sự cố và chơi nhanh — trước khi máy tắt. Chu kỳ đó, lặp đi lặp lại hầu hết các ngày, đã đẩy nhanh quá trình học tập của anh ấy.

“Tôi rất may mắn vì chiếc máy tính Liên Xô này không tốt lắm!” Efros nói, người dễ cười và nói giọng Nga nhẹ nhàng. Hiện nay anh ấy không chơi nhiều trò chơi nữa nhưng vẫn sẵn sàng khám phá và tận dụng tối đa các công cụ của mình.

Khi học cao học tại Đại học California, Berkeley, Efros bắt đầu đi bộ đường dài và khám phá vẻ đẹp tự nhiên của Vùng Vịnh. Không lâu sau, anh bắt đầu kết hợp niềm đam mê máy tính với việc thích thú ngắm nhìn những khung cảnh này. Anh ấy đã phát triển một cách để vá các lỗ hổng trong các bức ảnh một cách liền mạch - ví dụ: thay thế một thùng rác sai sót trong bức ảnh khu rừng gỗ đỏ bằng những cây trông tự nhiên. Adobe Photoshop sau đó đã áp dụng một phiên bản của kỹ thuật này cho công cụ “điền vào nhận biết nội dung” của mình.

Hiện là nhà khoa học máy tính tại Phòng thí nghiệm nghiên cứu trí tuệ nhân tạo Berkeley, Efros kết hợp các tập dữ liệu trực tuyến khổng lồ với các thuật toán học máy để hiểu, lập mô hình và tái tạo thế giới thị giác. Năm 2016, Hiệp hội Máy tính đã trao cho anh giải thưởng Giải thưởng về máy tính cho công việc tạo ra những hình ảnh tổng hợp thực tế của anh ấy, gọi anh ấy là “nhà giả kim hình ảnh".

Giới thiệu

Efros nói rằng, bất chấp những nỗ lực hết mình của các nhà nghiên cứu, máy móc về cơ bản vẫn có cách nhìn khác với chúng ta. Efros nói: “Các mảng màu sắc và độ sáng yêu cầu chúng ta kết nối những gì chúng ta đang nhìn thấy với ký ức về nơi chúng ta đã nhìn thấy những thứ này trước đây”. “Kết nối này mang lại ý nghĩa cho những gì chúng ta đang thấy.” Thông thường, máy móc nhìn thấy những gì đang có ở thời điểm hiện tại mà không kết nối nó với những gì chúng đã thấy trước đó.

Nhưng sự khác biệt có thể có lợi thế. Trong lĩnh vực thị giác máy tính, Efros đánh giá cao tính tức thời của việc biết liệu thuật toán được thiết kế để nhận dạng đối tượng và cảnh có hoạt động trên hình ảnh hay không. Một số câu hỏi về thị giác máy tính của anh ấy - chẳng hạn như “Điều gì khiến Paris trông giống Paris?” - có khuynh hướng triết học. Những vấn đề khác, chẳng hạn như cách giải quyết các vấn đề liên tục thiên vị trong tập dữ liệu, là thiết thực và cấp bách.

Efros nói: “Hiện tại có rất nhiều người đang làm AI bằng ngôn ngữ. “Tôi muốn xem xét toàn bộ các mẫu hình ảnh còn sót lại.” Bằng cách cải thiện thị giác máy tính, ông không chỉ hy vọng có được những ứng dụng thực tế tốt hơn, như xe tự lái; anh ấy cũng muốn khai thác những hiểu biết sâu sắc đó để hiểu rõ hơn về cái mà anh ấy gọi là “trí thông minh thị giác của con người” - cách mọi người hiểu những gì họ nhìn thấy.

Tạp chí Quanta đã gặp Efros tại văn phòng Berkeley của anh ấy để nói về siêu năng lực khoa học, khó khăn trong việc mô tả hình ảnh và trí tuệ nhân tạo thực sự nguy hiểm như thế nào. Cuộc phỏng vấn đã được cô đọng và chỉnh sửa cho rõ ràng.

Giới thiệu

Thị giác máy tính đã được cải thiện như thế nào kể từ khi bạn còn là sinh viên?

Khi tôi bắt đầu lấy bằng tiến sĩ, hầu như chẳng có gì hữu ích cả. Một số robot đang vặn một số ốc vít bằng cách sử dụng thị giác máy tính, nhưng nó bị giới hạn ở loại môi trường công nghiệp được kiểm soát chặt chẽ này. Sau đó, đột nhiên, máy ảnh của tôi phát hiện các khuôn mặt và làm cho chúng sắc nét hơn.

Giờ đây, thị giác máy tính có rất nhiều ứng dụng, chẳng hạn như xe tự lái. Quá trình này mất nhiều thời gian hơn một số người nghĩ ban đầu, nhưng vẫn có tiến bộ. Đối với những người không lái xe, điều này cực kỳ thú vị.

Đợi đã, bạn không lái xe à?

Không, tôi không đủ khỏe để lái xe! [Cười.] Đối với tôi, đây sẽ là một yếu tố thay đổi cuộc chơi - có một chiếc ô tô có thể chở tôi đến nhiều nơi.

Tôi đã không nhận ra rằng tầm nhìn của bạn đã ngăn cản bạn lái xe. Bạn có thể nhìn thấy những hình ảnh bạn làm việc trên màn hình máy tính không?

Nếu tôi làm cho chúng đủ lớn. Bạn có thể thấy phông chữ của tôi khá lớn. Tôi sinh ra đã không được khỏe. Tôi nghĩ rằng những người khác đều là một kẻ lập dị vì có tầm nhìn cực kỳ tốt.

Trạng thái không lập dị của bạn có ảnh hưởng đến hướng nghiên cứu của bạn không?

Ai biết? Chắc chắn không có cảm giác “Ồ, tôi nhìn không rõ, nên tôi sẽ làm cho những chiếc máy tính nhìn rõ hơn”. Không, tôi chưa bao giờ lấy đó làm động lực.

Để trở thành một nhà khoa học giỏi, bạn cần có một siêu năng lực bí mật. Bạn cần phải làm điều gì đó tốt hơn những người khác. Điều tuyệt vời của khoa học là không phải tất cả chúng ta đều có siêu năng lực giống nhau. Có lẽ siêu năng lực của tôi là như vậy, vì tôi nhìn không rõ lắm nên có lẽ tôi có cái nhìn sâu sắc hơn về vấn đề thị lực.

Giới thiệu

Tôi đã sớm hiểu ra tầm quan trọng của dữ liệu trước đó khi nhìn thế giới. Bản thân tôi không thể nhìn rõ lắm, nhưng trí nhớ của tôi về những trải nghiệm trước đây đã lấp đầy những lỗ hổng đủ để tôi có thể hoạt động cơ bản tốt như một người bình thường. Hầu hết mọi người không biết rằng tôi nhìn không rõ. Điều đó đã mang lại cho tôi - tôi nghĩ - một trực giác độc đáo rằng nó có thể ít về pixel hơn và nhiều hơn về bộ nhớ.

Máy tính chỉ nhìn thấy những gì hiện có, trong khi chúng ta nhìn thấy khoảnh khắc được kết nối với tấm thảm của mọi thứ chúng ta đã thấy trước đây.

Liệu có thể diễn đạt bằng lời những hình mẫu hình ảnh tinh tế, chẳng hạn, khiến Paris trông giống Paris không?

Khi bạn ở một thành phố cụ thể, đôi khi bạn chỉ cần biết mình đang ở thành phố nào - đây là je ne sais quoi, mặc dù bạn chưa bao giờ đến góc phố cụ thể đó. Điều đó cực kỳ khó diễn tả bằng lời, nhưng nó hiện hữu ngay trong từng pixel.

[Đối với Paris], bạn có thể nói về việc ở đây thường có các tòa nhà sáu tầng và thường có ban công ở tầng thứ tư. Bạn có thể diễn đạt một số điều này thành lời, nhưng rất nhiều điều không phải là ngôn ngữ. Đối với tôi điều đó thật thú vị.

Công việc gần đây của bạn liên quan đến việc dạy máy tính cách nhập dữ liệu trực quan theo những cách bắt chước tầm nhìn của con người. Nó hoạt động như thế nào?

Hiện nay, máy tính có một bộ dữ liệu khổng lồ: hàng tỷ hình ảnh ngẫu nhiên được lấy từ internet. Họ chụp những hình ảnh ngẫu nhiên, xử lý một hình ảnh, sau đó chụp một hình ảnh ngẫu nhiên khác, xử lý hình ảnh đó, v.v. Bạn huấn luyện hệ thống [hình ảnh của máy tính] bằng cách xem đi xem lại tập dữ liệu này.

Cách mà chúng ta - các tác nhân sinh học - tiếp thu dữ liệu rất khác nhau. Khi chúng ta phải đối mặt với một tình huống mới, đây là lần duy nhất dữ liệu này sẽ có sẵn cho chúng ta. Chúng tôi chưa bao giờ rơi vào hoàn cảnh như thế này, trong căn phòng này, với ánh sáng này, ăn mặc như thế này. Đầu tiên, chúng tôi sử dụng dữ liệu này để làm những gì chúng tôi cần làm, để hiểu thế giới. Sau đó, chúng tôi sử dụng dữ liệu này để học hỏi từ nó, [để dự đoán] tương lai.

Giới thiệu

Ngoài ra, dữ liệu chúng tôi thấy không phải là ngẫu nhiên. Những gì bạn thấy bây giờ rất tương quan với những gì bạn thấy vài giây trước. Bạn có thể coi nó như một video. Tất cả các khung hình của video đều tương quan với nhau, điều này rất khác với cách máy tính xử lý dữ liệu.

Tôi quan tâm đến việc đưa phương pháp học tập của chúng ta trở thành phương pháp trong đó máy tính nhìn thấy dữ liệu khi nó được đưa vào, xử lý và học hỏi từ dữ liệu đó khi chúng hoạt động.

Tôi tưởng tượng nó không đơn giản như việc để máy tính xem video thay vì xem ảnh tĩnh.

Không, bạn vẫn cần [máy tính] để thích nghi. Tôi quan tâm đến việc tìm hiểu các phương pháp tiếp cận xem dữ liệu khi dữ liệu được đưa vào, sau đó xử lý và học hỏi từ dữ liệu đó khi dữ liệu đó được xử lý. Một cách tiếp cận chúng tôi có được gọi là đào tạo trong thời gian thử nghiệm. Ý tưởng là khi bạn xem một chuỗi hình ảnh giống như một đoạn video, mọi thứ có thể đang thay đổi. Vì vậy, bạn không muốn mô hình của mình được sửa chữa. Giống như một tác nhân sinh học luôn thích nghi với môi trường xung quanh, chúng ta muốn máy tính phải liên tục thích nghi.

Mô hình tiêu chuẩn là trước tiên bạn đào tạo trên một tập dữ liệu lớn, sau đó mới triển khai. Dall·E và ChatGPT được đào tạo trên internet vào khoảng năm 2021, và sau đó [kiến thức của họ] bị đóng băng. Sau đó nó phun ra những gì nó đã biết. Một cách tự nhiên hơn là [đào tạo trong thời gian thử nghiệm], cố gắng để nó tiếp thu dữ liệu và học hỏi trong công việc, không có các giai đoạn đào tạo và triển khai riêng biệt.

Chắc chắn có một vấn đề với máy tính, được gọi là dịch chuyển miền hoặc sai lệch tập dữ liệu - ý tưởng này là nếu dữ liệu đào tạo của bạn rất khác với dữ liệu bạn đang sử dụng khi triển khai hệ thống thì mọi thứ sẽ không hoạt động rất tốt. Chúng tôi đang đạt được một số tiến bộ nhưng vẫn chưa đạt đến mức đó.

Giới thiệu

Vấn đề có tương tự như cách các ngân hàng cảnh báo nhà đầu tư rằng kết quả hoạt động trong quá khứ có thể không dự đoán được thu nhập trong tương lai?

Đó chính xác là vấn đề. Trong thế giới thực, mọi thứ thay đổi. Ví dụ, nếu một con chuột đồng đi vào một ngôi nhà, nó sẽ ổn thôi. Bạn sẽ không bao giờ thoát khỏi con chuột đó! [Cười.] Nó được sinh ra trên một cánh đồng, chưa bao giờ ở trong một ngôi nhà trước đây, nhưng nó sẽ tìm và ăn tất cả đồ dùng của bạn. Nó thích nghi rất nhanh, học hỏi và thích nghi với môi trường mới.

Khả năng đó không có trong các hệ thống [thị giác máy tính] hiện tại. Với xe tự lái, nếu bạn huấn luyện một chiếc ô tô ở California và sau đó bạn thử nghiệm nó ở Minnesota - bùng nổ! - có tuyết. Nó chưa bao giờ nhìn thấy tuyết. Nó trở nên bối rối.

Bây giờ mọi người giải quyết vấn đề này bằng cách thu thập nhiều dữ liệu đến mức [hệ thống] về cơ bản đã nhìn thấy mọi thứ. Sau đó, nó không cần phải thích nghi. Nhưng điều đó vẫn bỏ lỡ những sự kiện hiếm hoi.

Có vẻ như hệ thống AI là con đường phía trước. Điều đó khiến con người ở đâu?

Công việc sắp ra mắt của OpenAI cả ở mặt trước văn bản (ChatGPT) và mặt trước hình ảnh (Dall·E) cực kỳ thú vị và đáng ngạc nhiên. Nó khẳng định lại ý tưởng rằng, một khi bạn có đủ dữ liệu, các phương pháp đơn giản hợp lý có thể tạo ra kết quả tốt đáng ngạc nhiên.

Giới thiệu

Nhưng ChatGPT khiến tôi nhận ra rằng con người không sáng tạo và xuất sắc như chúng ta mong muốn. Hầu hết thời gian, khả năng nhận dạng khuôn mẫu trong chúng ta có thể chiếm ưu thế. Chúng ta nói bằng những câu được tạo thành từ những cụm từ hoặc những câu mà chúng ta đã nghe trước đó. Tất nhiên, chúng tôi có những chuyến bay tưởng tượng và sáng tạo. Chúng ta có thể làm những việc mà máy tính không thể làm được - ít nhất là ở thời điểm hiện tại. Nhưng hầu hết thời gian, chúng tôi có thể bị thay thế bởi ChatGPT và hầu hết mọi người sẽ không nhận ra.

Thật khiêm tốn. Nhưng đó cũng là động lực để thoát ra khỏi những khuôn mẫu đó, cố gắng có nhiều điều thú vị hơn, để không mắc kẹt trong những khuôn sáo và sự chế nhạo.

Một số nhà khoa học bày tỏ lo ngại về những rủi ro mà AI gây ra cho nhân loại. Bạn có lo lắng không?

Rất nhiều nhà nghiên cứu mà tôi rất kính trọng đã cảnh báo về trí tuệ nhân tạo. Tôi không muốn giảm thiểu những lời nói đó. Rất nhiều trong số đó là điểm hợp lệ. Nhưng người ta cần phải đặt mọi thứ vào quan điểm.

Hiện nay, mối nguy hiểm lớn nhất đối với nền văn minh không đến từ máy tính mà đến từ con người. Ngày tận thế hạt nhân và biến đổi khí hậu là những lo lắng cấp bách hơn nhiều. Liên bang Nga đã tấn công người hàng xóm hoàn toàn vô tội của mình. Tôi sinh ra ở Nga và thật kinh hoàng khi những người đồng hương cũ của tôi lại có thể làm điều này. Tôi đang làm tất cả những gì có thể để đảm bảo đây vẫn là chủ đề số một.

Chúng ta có thể nghĩ rằng cuộc cách mạng AI là sự kiện quan trọng nhất trong cuộc đời chúng ta. Nhưng cuộc cách mạng AI sẽ chẳng là gì nếu chúng ta không cứu thế giới tự do.

Vậy bạn không lo lắng chút nào về AI?

Không. Bạn biết đấy, tôi thích lo lắng. Tôi là một người hay lo lắng! Nhưng nếu Putin hủy diệt thế giới ở đây [giơ tay lên đầu] và biến đổi khí hậu ở đây [hạ tay xuống vai], thì AI ở dưới đây [hạ tay xuống chân]. Đó chỉ là một phần trăm nỗi lo lắng của tôi so với Putin và biến đổi khí hậu.

Dấu thời gian:

Thêm từ tạp chí lượng tử