Công cụ AI giúp hình ảnh trông đẹp hơn | Tạp chí Quanta

Công cụ AI giúp hình ảnh trông đẹp hơn | Tạp chí Quanta

Công cụ AI giúp hình ảnh trông đẹp hơn | Tạp chí Quanta PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.

Giới thiệu

Đó là một trong những câu nói sáo rỗng nhất trong tội phạm và khoa học viễn tưởng: Một điều tra viên đưa ra một bức ảnh mờ trên màn hình máy tính và yêu cầu nó được cải thiện, và bùm, hình ảnh trở nên rõ ràng, tiết lộ một số manh mối quan trọng. Đó là một cách kể chuyện tiện lợi tuyệt vời, nhưng nó đã là một câu chuyện hư cấu gây khó chịu trong nhiều thập kỷ — làm hình ảnh bị phóng to quá nhiều và nó trở nên có nhiều pixel rõ ràng. Không có đủ dữ liệu để làm nhiều hơn nữa.

“Nếu bạn chỉ nâng cao hình ảnh một cách ngây thơ, nó sẽ bị mờ. Sẽ có rất nhiều chi tiết, nhưng nó sẽ sai,” ông nói. Bryan Catanzaro, phó chủ tịch nghiên cứu học sâu ứng dụng tại Nvidia.

Gần đây, các nhà nghiên cứu và chuyên gia đã bắt đầu kết hợp các thuật toán trí tuệ nhân tạo vào các công cụ nâng cao hình ảnh của họ, giúp quá trình này trở nên dễ dàng và mạnh mẽ hơn, nhưng vẫn có những giới hạn về lượng dữ liệu có thể được lấy từ bất kỳ hình ảnh nào. May mắn thay, khi các nhà nghiên cứu đẩy các thuật toán nâng cao hơn nữa, họ đang tìm ra những cách mới để đối phó với những giới hạn đó — thậm chí, đôi khi, họ còn tìm cách vượt qua chúng.

Trong thập kỷ qua, các nhà nghiên cứu đã bắt đầu nâng cao hình ảnh bằng một loại mô hình AI mới gọi là mạng đối thủ tổng quát, hay GAN, có thể tạo ra những bức ảnh chi tiết, ấn tượng. “Các hình ảnh đột nhiên trông đẹp hơn rất nhiều,” nói Tomer Michaeli, một kỹ sư điện tại Technion ở Israel. Nhưng ông rất ngạc nhiên khi thấy hình ảnh do GAN tạo ra cho thấy mức độ biến dạng cao, đo lường mức độ gần gũi của hình ảnh được nâng cao với thực tế cơ bản của những gì nó thể hiện. GAN tạo ra những hình ảnh trông đẹp và tự nhiên, nhưng thực ra chúng đang bịa đặt hoặc “gây ảo giác”, những chi tiết không chính xác, được cho là có mức độ biến dạng cao.

Michaeli quan sát thấy lĩnh vực phục chế ảnh được chia thành hai cộng đồng nhỏ riêng biệt. “Một người đưa ra những bức ảnh đẹp, nhiều bức do GAN chụp. Cái còn lại hiển thị dữ liệu, nhưng chúng không hiển thị nhiều hình ảnh vì chúng trông không đẹp”, ông nói.

Năm 2017, Michaeli và sinh viên tốt nghiệp Yochai Blau đã xem xét sự phân đôi này một cách chính thức hơn. Họ đã biểu diễn hiệu suất của các thuật toán nâng cao hình ảnh khác nhau trên biểu đồ độ méo so với chất lượng cảm nhận, sử dụng thước đo đã biết về chất lượng cảm nhận tương quan tốt với đánh giá chủ quan của con người. Đúng như Michaeli mong đợi, một số thuật toán mang lại chất lượng hình ảnh rất cao, trong khi những thuật toán khác lại rất chính xác và độ biến dạng thấp. Nhưng không có cái nào có được cả hai ưu điểm; bạn phải chọn cái này hay cái kia. Các nhà nghiên cứu gọi đây là sự đánh đổi nhận thức-sự bóp méo.

Michaeli cũng thách thức các nhà nghiên cứu khác để đưa ra các thuật toán có thể tạo ra chất lượng hình ảnh tốt nhất ở một mức độ biến dạng nhất định, cho phép so sánh công bằng giữa thuật toán hình ảnh đẹp và thuật toán thống kê đẹp. Kể từ đó, hàng trăm nhà nghiên cứu AI đã báo cáo về sự biến dạng và chất lượng nhận thức của thuật toán của họ, trích dẫn bài báo của Michaeli và Blau điều đó mô tả sự đánh đổi.

Đôi khi, tác động của sự đánh đổi giữa nhận thức và sự bóp méo không nghiêm trọng. Ví dụ: Nvidia nhận thấy rằng màn hình độ phân giải cao không hiển thị tốt một số nội dung hình ảnh có độ phân giải thấp hơn, vì vậy vào tháng XNUMX, họ đã phát hành một công cụ sử dụng công nghệ học sâu để nâng cấp video phát trực tuyến. Trong trường hợp này, các kỹ sư của Nvidia đã chọn chất lượng cảm nhận thay vì độ chính xác, chấp nhận thực tế là khi thuật toán nâng cấp video, nó sẽ tạo ra một số chi tiết hình ảnh không có trong video gốc. “Mô hình đang gây ảo giác. Tất cả chỉ là phỏng đoán thôi,” Catanzaro nói. “Trong hầu hết các trường hợp, mô hình siêu phân giải có thể đoán sai, miễn là nó nhất quán.”

Giới thiệu

Tất nhiên, các ứng dụng trong nghiên cứu và y học đòi hỏi độ chính xác cao hơn nhiều. Công nghệ AI đã mang lại những tiến bộ lớn trong lĩnh vực hình ảnh, nhưng “đôi khi nó đi kèm với những tác dụng phụ không mong muốn, chẳng hạn như trang bị quá mức hoặc [thêm] các tính năng giả mạo, và do đó cần phải được xử lý hết sức thận trọng,” cho biết. Junjie Yao, một kỹ sư y sinh tại Đại học Duke. Năm ngoái, anh ấy đã đồng sáng tác một giấy mô tả cách các công cụ AI có thể cải thiện các phương pháp hiện có để đo lưu lượng máu và sự trao đổi chất trong não - trong khi vẫn đảm bảo an toàn về mặt chính xác trong việc đánh đổi nhận thức-méo mó.

Một cách để vượt qua các giới hạn về lượng dữ liệu có thể được trích xuất từ ​​một hình ảnh là chỉ cần kết hợp dữ liệu từ nhiều hình ảnh hơn - mặc dù điều đó thường không đơn giản như vậy. Các nhà nghiên cứu môi trường thông qua hình ảnh vệ tinh đã đạt được tiến bộ trong việc kết hợp các nguồn dữ liệu hình ảnh khác nhau. Năm 2021, một nhóm nhà nghiên cứu ở Trung Quốc và Anh dữ liệu hợp nhất từ hai loại vệ tinh khác nhau để có cái nhìn rõ hơn về nạn phá rừng ở lưu vực Congo, khu rừng mưa nhiệt đới lớn thứ hai trên thế giới và là một trong những nơi lưu trữ đa dạng sinh học lớn nhất. Các nhà nghiên cứu đã lấy dữ liệu từ hai vệ tinh Landsat, vốn đã đo lường nạn phá rừng trong nhiều thập kỷ và sử dụng các kỹ thuật học sâu để tinh chỉnh độ phân giải của hình ảnh từ 30 mét đến 10 mét. Sau đó, họ hợp nhất bộ hình ảnh đó với dữ liệu từ hai vệ tinh Sentinel-2, có dãy máy dò hơi khác nhau. Họ viết: Hình ảnh kết hợp “cho phép phát hiện nhiều khu vực bị xáo trộn hơn từ 11% đến 21% so với mức có thể chỉ sử dụng hình ảnh Sentinel-2 hoặc Landsat-7/8”.

Michaeli gợi ý một cách khác để vượt qua, nếu không muốn nói là vượt qua những giới hạn cứng nhắc về khả năng tiếp cận thông tin. Thay vì giải quyết một câu trả lời chắc chắn về cách cải thiện hình ảnh chất lượng thấp, người mẫu có thể đưa ra nhiều cách hiểu khác nhau về hình ảnh gốc. Trong một bài báo có tựa đề “Siêu phân giải có thể khám phá,” anh ấy đã giúp chứng minh cách các công cụ nâng cao hình ảnh có thể cung cấp cho người dùng nhiều đề xuất. Một hình ảnh mờ, có độ phân giải thấp về một người mặc áo sơ mi màu xám có thể được tái tạo thành hình ảnh có độ phân giải cao hơn trong đó chiếc áo sơ mi có sọc dọc đen trắng, sọc ngang hoặc ca rô, tất cả đều hợp lý như nhau .

Trong một ví dụ khác, Michaeli đã chụp một bức ảnh biển số xe chất lượng thấp và chạy nó thông qua một công cụ cải tiến hình ảnh AI hàng đầu, cho thấy số 1 trên biển số xe trông giống số 1 nhất. Nhưng khi hình ảnh được xử lý bằng một thuật toán khác, có kết thúc mở hơn do Michaeli thiết kế, thì chữ số đó có vẻ như có khả năng là số 8, XNUMX hoặc XNUMX. Cách tiếp cận này có thể giúp loại trừ các chữ số khác mà không kết luận sai rằng chữ số đó bằng XNUMX.

Khi các ngành khác nhau vật lộn với sự đánh đổi giữa nhận thức và biến dạng theo cách riêng của họ, câu hỏi về việc chúng ta có thể trích xuất được bao nhiêu từ hình ảnh AI và chúng ta có thể tin tưởng những hình ảnh đó đến mức nào vẫn là trọng tâm. Michaeli nói: “Chúng ta nên nhớ rằng để tạo ra những hình ảnh đẹp này, các thuật toán chỉ tạo nên các chi tiết. Chúng ta có thể giảm thiểu những ảo giác đó, nhưng nút “nâng cao” toàn năng, có khả năng giải quyết tội phạm sẽ vẫn chỉ là một giấc mơ.

Dấu thời gian:

Thêm từ tạp chí lượng tử