Giải nén “hộp đen” để xây dựng các mô hình AI tốt hơn

Giải nén “hộp đen” để xây dựng các mô hình AI tốt hơn

Giải mã “hộp đen” để xây dựng các mô hình AI tốt hơn PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Khi các mô hình học sâu được triển khai trong thế giới thực, có lẽ để phát hiện gian lận tài chính từ hoạt động thẻ tín dụng hoặc xác định bệnh ung thư trong hình ảnh y tế, chúng thường có khả năng vượt trội hơn con người.

Nhưng chính xác thì những mô hình deep learning này đang học cái gì? Ví dụ, một mô hình được đào tạo để phát hiện ung thư da trong các hình ảnh lâm sàng có thực sự học được màu sắc và kết cấu của mô ung thư hay nó đang đánh dấu một số đặc điểm hoặc kiểu mẫu khác?

Những mô hình học máy mạnh mẽ này thường dựa trên mạng lưới thần kinh nhân tạo có thể có hàng triệu nút xử lý dữ liệu để đưa ra dự đoán. Do tính phức tạp của chúng, các nhà nghiên cứu thường gọi những mô hình này là “hộp đen” vì ngay cả những nhà khoa học chế tạo chúng cũng không hiểu mọi thứ đang diễn ra bên trong.

Stefanie Jegelka không hài lòng với lời giải thích về “hộp đen” đó. Là một phó giáo sư mới được bổ nhiệm tại Khoa Kỹ thuật Điện và Khoa học Máy tính của MIT, Jegelka đang đào sâu vào lĩnh vực học sâu để hiểu những gì các mô hình này có thể học và cách chúng hoạt động cũng như cách xây dựng một số thông tin trước đó vào các mô hình này.

“Cuối cùng, một mô hình học sâu sẽ học được gì phụ thuộc vào rất nhiều yếu tố. Nhưng xây dựng hiểu biết phù hợp với thực tế sẽ giúp chúng tôi thiết kế các mô hình tốt hơn, đồng thời giúp chúng tôi hiểu điều gì đang diễn ra bên trong chúng để chúng tôi biết khi nào có thể triển khai mô hình và khi nào thì không. Điều đó cực kỳ quan trọng,” Jegelka, người cũng là thành viên của Phòng thí nghiệm Khoa học Máy tính và Trí tuệ Nhân tạo (CSAIL) và Viện Dữ liệu, Hệ thống và Xã hội (IDSS) cho biết.

Jegelka đặc biệt quan tâm đến việc tối ưu hóa các mô hình học máy khi dữ liệu đầu vào ở dạng biểu đồ. Dữ liệu đồ thị đặt ra những thách thức cụ thể: Chẳng hạn, thông tin trong dữ liệu bao gồm cả thông tin về các nút và cạnh riêng lẻ, cũng như cấu trúc — cái gì được kết nối với cái gì. Ngoài ra, các biểu đồ có các đối xứng toán học cần được mô hình học máy tôn trọng để chẳng hạn, cùng một biểu đồ luôn dẫn đến cùng một dự đoán. Việc xây dựng các đối xứng như vậy thành một mô hình học máy thường không dễ dàng.

Lấy các phân tử, ví dụ. Các phân tử có thể được biểu diễn dưới dạng đồ thị, với các đỉnh tương ứng với các nguyên tử và các cạnh tương ứng với các liên kết hóa học giữa chúng. Các công ty dược phẩm có thể muốn sử dụng học sâu để dự đoán nhanh các đặc tính của nhiều phân tử, thu hẹp số lượng mà họ phải thử nghiệm thực tế trong phòng thí nghiệm.

Jegelka nghiên cứu các phương pháp để xây dựng các mô hình máy học toán học có thể lấy dữ liệu biểu đồ làm đầu vào và đầu ra một cách hiệu quả, trong trường hợp này là dự đoán về tính chất hóa học của phân tử. Điều này đặc biệt khó khăn vì tính chất của một phân tử không chỉ được xác định bởi các nguyên tử bên trong nó mà còn bởi các liên kết giữa chúng.  

Các ví dụ khác về máy học trên biểu đồ bao gồm định tuyến lưu lượng, thiết kế chip và hệ thống đề xuất.

Việc thiết kế các mô hình này thậm chí còn khó khăn hơn bởi thực tế là dữ liệu được sử dụng để huấn luyện chúng thường khác với dữ liệu mà các mô hình nhìn thấy trong thực tế. Có lẽ mô hình đã được đào tạo bằng cách sử dụng các biểu đồ phân tử nhỏ hoặc mạng lưu lượng truy cập, nhưng các biểu đồ mà nó thấy sau khi được triển khai sẽ lớn hơn hoặc phức tạp hơn.

Trong trường hợp này, các nhà nghiên cứu có thể mong đợi mô hình này học được điều gì và liệu nó có còn hoạt động trong thực tế nếu dữ liệu trong thế giới thực khác đi không?

Jegelka nói: “Mô hình của bạn sẽ không thể học mọi thứ vì một số vấn đề khó khăn trong khoa học máy tính, nhưng những gì bạn có thể học và những gì bạn không thể học phụ thuộc vào cách bạn thiết lập mô hình.

Cô ấy tiếp cận câu hỏi này bằng cách kết hợp niềm đam mê của mình với các thuật toán và toán học rời rạc với niềm hứng thú học máy.

Từ bướm đến tin sinh học

Jegelka lớn lên ở một thị trấn nhỏ ở Đức và bắt đầu quan tâm đến khoa học khi cô còn là học sinh trung học; một giáo viên hỗ trợ khuyến khích cô tham gia một cuộc thi khoa học quốc tế. Cô và các đồng đội của mình đến từ Mỹ và Singapore đã giành được giải thưởng cho trang web do họ tạo ra về loài bướm bằng ba thứ tiếng.

“Đối với dự án của mình, chúng tôi đã chụp ảnh đôi cánh bằng kính hiển vi điện tử quét tại một trường đại học khoa học ứng dụng địa phương. Tôi cũng có cơ hội sử dụng máy ảnh tốc độ cao ở Mercedes Benz — máy ảnh này thường quay các động cơ đốt trong — mà tôi dùng để quay video chuyển động chậm về chuyển động của cánh bướm. Đó là lần đầu tiên tôi thực sự tiếp xúc với khoa học và khám phá,” cô nhớ lại.

Bị hấp dẫn bởi cả sinh học và toán học, Jegelka quyết định theo học ngành tin sinh học tại Đại học Tübingen và Đại học Texas ở Austin. Cô đã có một vài cơ hội để tiến hành nghiên cứu khi còn là sinh viên đại học, bao gồm cả cơ hội thực tập về khoa học thần kinh tính toán tại Đại học Georgetown, nhưng không chắc chắn nên theo đuổi sự nghiệp nào.

Khi trở lại vào năm cuối đại học, Jegelka chuyển đến sống cùng hai người bạn cùng phòng đang làm trợ lý nghiên cứu tại Viện Max Planck ở Tübingen.

“Họ đang nghiên cứu về máy học và điều đó nghe có vẻ rất tuyệt đối với tôi. Tôi phải viết luận án cử nhân, vì vậy tôi đã hỏi ở viện xem họ có dự án nào cho tôi không. Tôi bắt đầu nghiên cứu về máy học tại Viện Max Planck và tôi yêu thích nó. Tôi đã học được rất nhiều ở đó, và đó là một nơi tuyệt vời để nghiên cứu,” cô nói.

Cô ở lại Viện Max Planck để hoàn thành luận văn thạc sĩ, sau đó bắt tay vào học tiến sĩ về máy học tại Viện Max Planck và Viện Công nghệ Liên bang Thụy Sĩ.

Trong thời gian học tiến sĩ, cô đã khám phá cách các khái niệm từ toán học rời rạc có thể giúp cải thiện các kỹ thuật máy học.

Mô hình giảng dạy để học

Jegelka càng tìm hiểu nhiều về máy học, cô càng bị thu hút bởi những thách thức trong việc hiểu cách người mẫu hành xử và cách điều khiển hành vi này.

“Bạn có thể làm được rất nhiều điều với máy học, nhưng chỉ khi bạn có mô hình và dữ liệu phù hợp. Nó không chỉ là một thứ hộp đen mà bạn ném nó vào dữ liệu và nó hoạt động. Bạn thực sự phải suy nghĩ về nó, các thuộc tính của nó và những gì bạn muốn mô hình học và làm,” cô ấy nói.

Sau khi hoàn thành chương trình sau tiến sĩ tại Đại học California ở Berkeley, Jegelka say mê nghiên cứu và quyết định theo đuổi sự nghiệp trong giới học thuật. Cô gia nhập khoa tại MIT vào năm 2015 với tư cách là trợ lý giáo sư.

“Ngay từ đầu, điều tôi thực sự yêu thích ở MIT là mọi người thực sự quan tâm sâu sắc đến nghiên cứu và sáng tạo. Đó là điều tôi đánh giá cao nhất về MIT. Những người ở đây thực sự coi trọng tính độc đáo và chiều sâu trong nghiên cứu,” cô nói.

Việc tập trung vào sự sáng tạo đã cho phép Jegelka khám phá nhiều chủ đề khác nhau.

Phối hợp với các giảng viên khác tại MIT, cô nghiên cứu các ứng dụng máy học trong sinh học, hình ảnh, thị giác máy tính và khoa học vật liệu.

Nhưng điều thực sự thúc đẩy Jegelka là khám phá các nguyên tắc cơ bản của máy học và gần đây nhất là vấn đề về độ bền. Thông thường, một mô hình hoạt động tốt trên dữ liệu huấn luyện, nhưng hiệu suất của nó sẽ giảm đi khi nó được triển khai trên dữ liệu hơi khác. Cô ấy nói rằng việc xây dựng kiến ​​thức trước đây vào một mô hình có thể làm cho nó đáng tin cậy hơn, nhưng hiểu được thông tin nào mà mô hình cần để thành công và cách xây dựng nó không đơn giản như vậy.

Cô ấy cũng đang khám phá các phương pháp để cải thiện hiệu suất của các mô hình máy học để phân loại hình ảnh.

Các mô hình phân loại hình ảnh có ở khắp mọi nơi, từ hệ thống nhận dạng khuôn mặt trên điện thoại di động đến các công cụ xác định tài khoản giả mạo trên mạng xã hội. Các mô hình này cần lượng dữ liệu khổng lồ để đào tạo, nhưng vì con người rất tốn kém khi dán nhãn thủ công cho hàng triệu hình ảnh, nên các nhà nghiên cứu thường sử dụng bộ dữ liệu chưa được gắn nhãn để thay thế cho các mô hình đào tạo trước.

Sau đó, các mô hình này sử dụng lại các biểu diễn mà chúng đã học được khi chúng được tinh chỉnh sau này cho một nhiệm vụ cụ thể.

Lý tưởng nhất là các nhà nghiên cứu muốn mô hình học được càng nhiều càng tốt trong quá trình đào tạo trước, để nó có thể áp dụng kiến ​​thức đó vào nhiệm vụ tiếp theo của mình. Nhưng trên thực tế, những mô hình này thường chỉ học được một vài mối tương quan đơn giản — chẳng hạn như một hình ảnh có ánh nắng và một hình ảnh có bóng râm — và sử dụng những “lối tắt” này để phân loại hình ảnh.

“Chúng tôi đã chỉ ra rằng đây là một vấn đề trong 'học tập tương phản', đây là một kỹ thuật tiêu chuẩn để đào tạo trước, cả về mặt lý thuyết và thực nghiệm. Nhưng chúng tôi cũng chỉ ra rằng bạn có thể tác động đến các loại thông tin mà mô hình sẽ học để biểu diễn bằng cách sửa đổi các loại dữ liệu mà bạn hiển thị cho mô hình. Đây là một bước để hiểu những gì các mô hình thực sự sẽ làm trong thực tế,” cô nói.

Các nhà nghiên cứu vẫn chưa hiểu mọi thứ diễn ra bên trong một mô hình học sâu hoặc chi tiết về cách họ có thể ảnh hưởng đến những gì một mô hình học và cách nó hoạt động, nhưng Jegelka mong muốn tiếp tục khám phá những chủ đề này.

“Thông thường trong học máy, chúng tôi thấy điều gì đó xảy ra trong thực tế và chúng tôi cố gắng hiểu nó theo lý thuyết. Đây là một thách thức rất lớn. Bạn muốn xây dựng sự hiểu biết phù hợp với những gì bạn thấy trong thực tế, để bạn có thể làm tốt hơn. Chúng tôi vẫn chỉ mới bắt đầu hiểu điều này,” cô nói.

Bên ngoài phòng thí nghiệm, Jegelka là người yêu thích âm nhạc, nghệ thuật, du lịch và đạp xe. Nhưng những ngày này, cô thích dành phần lớn thời gian rảnh của mình với cô con gái đang tuổi mẫu giáo.

<!–
->

Dấu thời gian:

Thêm từ Tư vấn chuỗi khối