Từ dưới lên đến trên xuống: nhà khoa học máy tính Amanda Barnard về vẻ đẹp của mô phỏng, học máy và cách cả hai giao nhau – Physics World

Từ dưới lên đến trên xuống: nhà khoa học máy tính Amanda Barnard về vẻ đẹp của mô phỏng, học máy và cách cả hai giao nhau – Physics World

Amanda Barnard
Chuyên gia giao diện Amanda Barnard là phó giám đốc và trưởng nhóm khoa học máy tính tại Trường Máy tính thuộc Đại học Quốc gia Australia. (Ảnh: Sitthixay Ditthavong/Thời báo Canberra)

Từ việc sử dụng siêu máy tính để khai thác các loại vật liệu mới đến đào tạo các mô hình học máy để nghiên cứu các đặc tính phức tạp ở cấp độ nano, Nhà khoa học tính toán người Úc Amanda Barnard hoạt động ở giao diện của máy tính và khoa học dữ liệu. Một giáo sư cao cấp ở Trường Máy tính tại Đại học Quốc gia AustraliaBarnard cũng là phó giám đốc và trưởng nhóm khoa học máy tính. Ngày nay, cô sử dụng nhiều phương pháp tính toán khác nhau để giải quyết các vấn đề trong khoa học vật lý, nhưng Barnard bắt đầu sự nghiệp của mình với tư cách là một nhà vật lý, nhận bằng Tiến sĩ về vật lý lý thuyết vật chất ngưng tụ vào năm 2003.

Sau vài năm tiếp theo làm postdoc tại Trung tâm Vật liệu Nano tại Phòng thí nghiệm Quốc gia Argonne ở Mỹ, cô bắt đầu mở rộng mối quan tâm nghiên cứu của mình sang nhiều khía cạnh của khoa học tính toán, bao gồm việc sử dụng máy học trong công nghệ nano, khoa học vật liệu, hóa học và y học.

Một đồng nghiệp của cả hai Viện Vật lý ÚcHiệp hội Hóa học Hoàng gia, vào năm 2022 Barnard được bổ nhiệm làm Thành viên của Order of Australia. Cô cũng đã giành được nhiều giải thưởng, trong đó có giải Giải thưởng Feynman 2014 về Công nghệ nano (Lý thuyết) và Huy chương năm 2019 của Hiệp hội các nhà mô hình phân tử Australasia. Cô nói chuyện với Hamish Johnston về mối quan tâm của cô trong việc áp dụng học máy vào nhiều vấn đề cũng như về những thách thức và lợi ích khi thực hiện quản trị đại học.

Bạn có thể cho chúng tôi biết một chút về những gì bạn làm với tư cách là một nhà khoa học tính toán không?

Khoa học tính toán liên quan đến việc thiết kế và sử dụng các mô hình toán học để phân tích các vấn đề đòi hỏi tính toán cao trong nhiều lĩnh vực khoa học và kỹ thuật. Điều này bao gồm những tiến bộ trong cơ sở hạ tầng tính toán và các thuật toán cho phép các nhà nghiên cứu trên các lĩnh vực khác nhau này thực hiện các thí nghiệm tính toán quy mô lớn. Theo một cách nào đó, khoa học tính toán liên quan đến nghiên cứu về điện toán hiệu năng cao chứ không chỉ nghiên cứu sử dụng máy tính hiệu năng cao.

Chúng tôi dành phần lớn thời gian cho các thuật toán và cố gắng tìm ra cách triển khai chúng theo cách tận dụng tốt nhất phần cứng tiên tiến; và phần cứng đó luôn thay đổi. Điều này bao gồm các mô phỏng thông thường dựa trên các mô hình toán học được phát triển cụ thể trong các lĩnh vực khoa học khác nhau, có thể là vật lý, hóa học hoặc hơn thế nữa. Chúng tôi cũng dành nhiều thời gian sử dụng các phương pháp từ học máy (ML) và trí tuệ nhân tạo (AI), hầu hết đều được phát triển bởi các nhà khoa học máy tính, khiến nó trở thành nghiên cứu mang tính liên ngành. Điều này cho phép sử dụng rất nhiều phương pháp tiếp cận mới trong tất cả các lĩnh vực khoa học khác nhau.

Học máy cho phép chúng ta lấy lại được rất nhiều sự phức tạp mà chúng ta đã đánh mất khi rút ra những lý thuyết đẹp đẽ đó

Mô phỏng được sinh ra từ các khía cạnh lý thuyết của từng lĩnh vực khoa học, với một số mức độ trừu tượng thuận tiện, cho phép chúng tôi giải các phương trình. Nhưng khi chúng tôi phát triển những lý thuyết đó, chúng gần như là sự đơn giản hóa quá mức của vấn đề, được thực hiện nhằm mục đích theo đuổi vẻ đẹp toán học hoặc chỉ vì mục đích thực tiễn. ML cho phép chúng tôi lấy lại rất nhiều sự phức tạp mà chúng tôi đã đánh mất khi đưa ra những lý thuyết đẹp đẽ đó. Nhưng thật không may, không phải tất cả ML đều hoạt động tốt với khoa học và vì vậy các nhà khoa học tính toán dành nhiều thời gian để cố gắng tìm ra cách áp dụng các thuật toán chưa bao giờ được dự định sử dụng cho các loại tập dữ liệu này để khắc phục một số vấn đề có kinh nghiệm về giao diện. Và đó là một trong những lĩnh vực thú vị mà tôi thích.

Bạn bắt đầu sự nghiệp của mình với tư cách là một nhà vật lý. Điều gì khiến bạn chuyển sang khoa học máy tính?

Vật lý là điểm khởi đầu tuyệt vời cho hầu hết mọi thứ. Nhưng tôi đã luôn đi trên con đường đến với khoa học tính toán mà không hề nhận ra. Trong dự án nghiên cứu đầu tiên khi còn là sinh viên, tôi đã sử dụng các phương pháp tính toán và ngay lập tức bị cuốn hút. Tôi yêu thích việc viết mã, từ việc viết mã cho đến kết quả cuối cùng, và vì vậy tôi ngay lập tức biết rằng siêu máy tính được sinh ra để trở thành công cụ khoa học của tôi. Thật thú vị khi nghĩ về những gì một nhà khoa học vật liệu có thể làm nếu họ luôn có thể tạo ra những mẫu hoàn hảo. Hoặc một nhà hóa học có thể làm gì nếu họ có thể loại bỏ mọi chất ô nhiễm và có những phản ứng hoàn hảo. Chúng ta có thể làm gì nếu có thể khám phá những môi trường khắc nghiệt hoặc nguy hiểm mà không có nguy cơ làm bị thương bất kỳ ai? Và quan trọng hơn, điều gì sẽ xảy ra nếu chúng ta có thể làm tất cả những điều này đồng thời, theo yêu cầu, mỗi lần chúng ta thử?

Cái hay của siêu máy tính là chúng là công cụ duy nhất cho phép chúng ta đạt được sự gần như hoàn hảo này. Điều làm tôi say mê nhất là tôi không chỉ có thể tái tạo những gì đồng nghiệp của mình có thể làm trong phòng thí nghiệm mà còn làm được mọi thứ họ không thể làm trong phòng thí nghiệm. Vì vậy, ngay từ những ngày đầu, vật lý tính toán của tôi đã có trên máy tính. Hóa học tính toán của tôi sau đó đã phát triển sang vật liệu, tin học vật liệu và bây giờ gần như chỉ có ML. Nhưng tôi luôn tập trung vào các phương pháp trong từng lĩnh vực này và tôi nghĩ nền tảng vật lý cho phép tôi suy nghĩ rất sáng tạo về cách tôi tiếp cận tất cả các lĩnh vực khác này bằng máy tính.

Học máy khác với mô phỏng máy tính cổ điển như thế nào?

Hầu hết nghiên cứu của tôi bây giờ là ML, có lẽ là 80%. Tuy nhiên, tôi vẫn thực hiện một số mô phỏng thông thường vì chúng mang lại cho tôi điều gì đó rất khác. Mô phỏng về cơ bản là một cách tiếp cận từ dưới lên. Chúng tôi bắt đầu với một số hiểu biết về một hệ thống hoặc một vấn đề, chúng tôi chạy mô phỏng và sau đó chúng tôi nhận được một số dữ liệu ở cuối. Ngược lại, ML là cách tiếp cận từ trên xuống. Chúng tôi bắt đầu với dữ liệu, chạy mô hình và sau đó chúng tôi hiểu rõ hơn về hệ thống hoặc vấn đề. Mô phỏng dựa trên các quy tắc được xác định bởi các lý thuyết khoa học đã được thiết lập của chúng tôi, trong khi ML dựa trên kinh nghiệm và lịch sử. Mô phỏng thường mang tính quyết định phần lớn, mặc dù có một số ví dụ về phương pháp ngẫu nhiên như Monte Carlo. ML phần lớn mang tính ngẫu nhiên, mặc dù cũng có một số ví dụ mang tính quyết định.

Với mô phỏng, tôi có thể thực hiện phép ngoại suy rất tốt. Rất nhiều lý thuyết củng cố mô phỏng cho phép chúng ta khám phá các khu vực của “không gian cấu hình” (tọa độ xác định tất cả các trạng thái có thể có của hệ thống) hoặc các khu vực của một vấn đề mà chúng ta không có dữ liệu hoặc thông tin. Mặt khác, ML thực sự rất giỏi trong việc nội suy và lấp đầy mọi khoảng trống và rất tốt cho việc suy luận.

Khái niệm luồng dữ liệu

Thật vậy, hai phương pháp này dựa trên các loại logic rất khác nhau. Mô phỏng dựa trên logic “nếu-thì-khác”, có nghĩa là nếu tôi gặp một vấn đề nhất định hoặc một tập hợp điều kiện nhất định thì tôi sẽ nhận được câu trả lời xác định hoặc nếu không, về mặt tính toán, nó có thể sẽ bị hỏng nếu bạn nhận được nó sai rồi. Ngược lại, ML dựa trên logic “ước tính-cải thiện-lặp lại”, có nghĩa là nó sẽ luôn đưa ra câu trả lời. Câu trả lời đó luôn có thể ứng biến được nhưng không phải lúc nào cũng đúng, đó lại là một điểm khác biệt nữa.

Mô phỏng có tính chất liên ngành: chúng có mối quan hệ rất chặt chẽ với lĩnh vực kiến ​​thức và dựa vào trí thông minh của con người. Mặt khác, ML có tính liên ngành: sử dụng các mô hình được phát triển bên ngoài miền ban đầu, nó mang tính bất khả tri về kiến ​​thức miền và phụ thuộc rất nhiều vào trí tuệ nhân tạo. Đây là lý do tại sao tôi thích kết hợp cả hai cách tiếp cận.

Bạn có thể cho chúng tôi biết thêm một chút về cách bạn sử dụng máy học trong nghiên cứu của mình không?

Trước khi ML ra đời, các nhà khoa học phải hiểu khá nhiều về mối quan hệ giữa đầu vào và đầu ra. Chúng tôi phải xác định trước cấu trúc của mô hình trước khi có thể giải quyết nó. Điều đó có nghĩa là chúng ta phải có ý tưởng về câu trả lời trước khi có thể tìm kiếm câu trả lời.

Chúng ta có thể phát triển cấu trúc của một biểu thức hoặc một phương trình và giải nó cùng một lúc. Điều đó thúc đẩy phương pháp khoa học và đó là một lý do khác khiến tôi thích sử dụng máy học

Khi bạn đang sử dụng ML, máy sẽ sử dụng các kỹ thuật thống kê và thông tin lịch sử để tự lập trình về cơ bản. Nó có nghĩa là chúng ta có thể phát triển cấu trúc của một biểu thức hoặc một phương trình và giải nó cùng một lúc. Điều đó thúc đẩy phương pháp khoa học và đó là một lý do khác khiến tôi thích sử dụng nó.

Các kỹ thuật ML tôi sử dụng rất đa dạng. Có rất nhiều loại và loại ML khác nhau, giống như có rất nhiều loại vật lý tính toán hoặc phương pháp vật lý thực nghiệm khác nhau. Tôi sử dụng phương pháp học không giám sát, hoàn toàn dựa trên các biến đầu vào và nó xem xét việc phát triển “các mẫu ẩn” hoặc cố gắng tìm dữ liệu đại diện. Điều đó hữu ích cho các vật liệu trong khoa học nano, khi chúng ta chưa thực hiện các thí nghiệm để đo lường một đặc tính, nhưng chúng ta biết khá nhiều về các điều kiện đầu vào mà chúng ta đưa vào để phát triển vật liệu.

Học không giám sát có thể hữu ích trong việc tìm kiếm các nhóm cấu trúc, được gọi là cụm, có điểm tương đồng trong không gian nhiều chiều hoặc các cấu trúc thuần túy và đại diện (nguyên mẫu hoặc nguyên mẫu) mô tả toàn bộ tập dữ liệu. Chúng ta cũng có thể chuyển đổi dữ liệu để ánh xạ chúng tới một không gian có chiều thấp hơn và tiết lộ nhiều điểm tương đồng hơn mà trước đây chưa từng thấy rõ, theo cách tương tự mà chúng ta có thể chuyển sang không gian đối ứng trong vật lý.

Tôi cũng sử dụng ML được giám sát để tìm ra các mối quan hệ và xu hướng, chẳng hạn như mối quan hệ về cấu trúc-thuộc tính, rất quan trọng trong vật liệu và khoa học nano. Điều này bao gồm việc phân loại, trong đó chúng tôi có một nhãn riêng biệt. Giả sử chúng ta đã có các loại hạt nano khác nhau và dựa trên đặc điểm của chúng, chúng ta muốn tự động gán chúng cho loại này hoặc loại khác và đảm bảo rằng chúng ta có thể dễ dàng tách các lớp này chỉ dựa trên dữ liệu đầu vào.

Tôi cũng sử dụng phương pháp học thống kê và học bán giám sát. Đặc biệt, việc học thống kê rất hữu ích trong khoa học, mặc dù nó chưa được sử dụng rộng rãi. Chúng tôi coi đó là một suy luận nhân quả được sử dụng rất nhiều trong chẩn đoán y tế và điều này có thể được áp dụng để chẩn đoán hiệu quả cách một vật liệu, chẳng hạn, có thể được tạo ra, thay vì chỉ tại sao nó được tạo ra.

Nhóm nghiên cứu của bạn bao gồm những người có nhiều mối quan tâm về khoa học. Bạn có thể cho chúng tôi biết một số điều họ đang nghiên cứu không?

Khi tôi bắt đầu học vật lý, tôi chưa bao giờ nghĩ rằng xung quanh mình lại có một nhóm người thông minh tuyệt vời đến từ các lĩnh vực khoa học khác nhau. Cụm khoa học tính toán tại Đại học Quốc gia Úc bao gồm các nhà khoa học môi trường, nhà khoa học trái đất, nhà sinh học tính toán và nhà tin sinh học. Ngoài ra còn có các nhà nghiên cứu nghiên cứu về gen, khoa học thần kinh tính toán, hóa học lượng tử, khoa học vật liệu, vật lý plasma, vật lý thiên văn, thiên văn học, kỹ thuật và – tôi – công nghệ nano. Vì vậy, chúng tôi là một nhóm đa dạng.

Nhóm của chúng tôi bao gồm Giuseppe Barca, người đang phát triển các thuật toán củng cố các gói phần mềm hóa học lượng tử được sử dụng trên toàn thế giới. Nghiên cứu của ông tập trung vào cách chúng ta có thể tận dụng các bộ xử lý mới, chẳng hạn như máy gia tốc và cách chúng ta có thể suy nghĩ lại về cách các phân tử lớn có thể được phân chia và phân mảnh để chúng ta có thể kết hợp một cách chiến lược các quy trình làm việc song song trên quy mô lớn. Anh ấy cũng đang giúp chúng ta sử dụng siêu máy tính hiệu quả hơn, giúp tiết kiệm năng lượng. Và trong hai năm qua, anh ấy đã giữ kỷ lục thế giới về thuật toán hóa học lượng tử có quy mô tốt nhất.

Cũng ở quy mô nhỏ – xét về mặt khoa học – là Minh Bùi, một nhà tin sinh học đang nghiên cứu phát triển các mô hình thống kê mới trong lĩnh vực hệ thống phát sinh gen [một lĩnh vực đa ngành kết hợp nghiên cứu tiến hóa với sinh học và sinh thái hệ thống, sử dụng các phương pháp từ khoa học mạng]. Chúng bao gồm các mô hình phân vùng, mô hình nhận biết đẳng cấu và mô hình cây phân phối. Các ứng dụng của điều này bao gồm các lĩnh vực trong enzyme quang hợp hoặc dữ liệu phiên mã phát sinh loài côn trùng sâu và ông đã thực hiện công việc nghiên cứu về tảo, cũng như vi khuẩn và vi rút như HIV và SARS-CoV-2 (gây ra COVID-19).

Minh Bùi

Ở cấp độ lớn hơn của thang đo là nhà toán học Đặng Quanling, người có nghiên cứu tập trung vào mô hình hóa và mô phỏng toán học cho các phương tiện truyền thông quy mô lớn, chẳng hạn như động lực học đại dương và khí quyển, cũng như các tảng băng ở Nam Cực.

Điều tuyệt vời nhất là khi chúng tôi phát hiện ra rằng một vấn đề từ một miền thực sự đã được giải quyết ở một miền khác và thậm chí còn tuyệt vời hơn khi chúng tôi phát hiện ra một vấn đề có kinh nghiệm trong nhiều miền để chúng tôi có thể mở rộng quy mô siêu tuyến tính. Thật tuyệt vời khi một giải pháp có thể tác động đến nhiều lĩnh vực. Và bạn có thường xuyên tìm thấy một nhà khoa học thần kinh tính toán làm việc cùng với một nhà vật lý plasma không? Nó chỉ không xảy ra bình thường thôi.

Ngoài việc làm việc với nhóm nghiên cứu của mình, bạn còn là phó giám đốc Trường Máy tính của Đại học Quốc gia Úc. Bạn có thể kể một chút về vai trò đó được không?

Đó phần lớn là một vai trò hành chính. Vì vậy, ngoài việc làm việc với một nhóm các nhà khoa học máy tính tuyệt vời về khoa học dữ liệu, các lĩnh vực nền tảng về ngôn ngữ, phát triển phần mềm, an ninh mạng, thị giác máy tính, robot, v.v., tôi còn có cơ hội tạo cơ hội cho những người mới tham gia vào trường và được phiên bản tốt nhất của chính họ. Phần lớn công việc của tôi trong vai trò lãnh đạo là về con người. Và điều này bao gồm cả việc tuyển dụng, chăm sóc chương trình theo dõi biên chế cũng như chương trình phát triển nghề nghiệp của chúng tôi. Tôi cũng có cơ hội bắt đầu một số chương trình mới cho những lĩnh vực mà tôi nghĩ cần được quan tâm.

Một ví dụ như vậy là trong đại dịch COVID toàn cầu. Rất nhiều người trong chúng tôi đã ngừng hoạt động và không thể truy cập vào phòng thí nghiệm của mình, điều này khiến chúng tôi tự hỏi mình có thể làm gì. Tôi tận dụng cơ hội này để phát triển một chương trình có tên là Học bổng chung Năm Thánh, hỗ trợ các nhà nghiên cứu làm việc tại giao diện giữa khoa học máy tính và một lĩnh vực khác, nơi họ đang giải quyết những thách thức lớn trong lĩnh vực của mình, đồng thời sử dụng kiến ​​thức về lĩnh vực đó để cung cấp thông tin cho các loại khoa học máy tính mới. Chương trình đã hỗ trợ năm nhà nghiên cứu như vậy trên các lĩnh vực khác nhau vào năm 2021.

Tôi cũng là chủ tịch của Chương trình Phụ nữ Tiên phong, có học bổng, bài giảng và học bổng hỗ trợ phụ nữ bước vào lĩnh vực máy tính và đảm bảo họ thành công trong suốt sự nghiệp với chúng tôi.

Và tất nhiên, một trong những vai trò khác của tôi với tư cách là phó giám đốc là trông coi cơ sở máy tính cho trường học của chúng tôi. Tôi xem xét các cách mà chúng tôi có thể đa dạng hóa nguồn tài nguyên của mình để vượt qua những thời điểm khó khăn, chẳng hạn như trong thời kỳ COVID, khi chúng tôi không thể đặt mua bất kỳ thiết bị mới nào. Tôi cũng xem xét cách chúng ta có thể sử dụng năng lượng hiệu quả hơn vì máy tính sử dụng một lượng năng lượng khổng lồ.

Đây hẳn là khoảng thời gian rất thú vị đối với những người thực hiện nghiên cứu về ML, vì công nghệ này đang có rất nhiều cách sử dụng khác nhau. Những ứng dụng mới nào của ML mà bạn mong đợi nhất trong nghiên cứu của mình?

Chà, có lẽ một số thứ bạn đã nghe nói đến, cụ thể là AI. Mặc dù có những rủi ro liên quan đến AI, nhưng cũng có cơ hội to lớn và tôi nghĩ rằng AI có thể tạo ra sẽ đặc biệt quan trọng trong những năm tới đối với khoa học – miễn là chúng ta có thể khắc phục một số vấn đề với nó “ảo giác” [khi một hệ thống AI , chẳng hạn như mô hình ngôn ngữ lớn, tạo ra thông tin sai lệch, dựa trên tập dữ liệu huấn luyện hoặc logic theo ngữ cảnh hoặc kết hợp cả hai].

Bất kể chúng ta đang ở lĩnh vực khoa học nào, chúng ta đều bị giới hạn bởi thời gian, tiền bạc, nguồn lực và thiết bị mà chúng ta có thể tiếp cận. Điều đó có nghĩa là chúng ta đang thỏa hiệp khoa học của mình để phù hợp với những hạn chế này thay vì tập trung vào việc khắc phục chúng

Nhưng bất kể chúng ta đang ở lĩnh vực khoa học nào, dù là tính toán hay thực nghiệm, tất cả chúng ta đều phải chịu một số hạn chế. Chúng ta bị giới hạn bởi thời gian, tiền bạc, nguồn lực và thiết bị mà chúng ta có. Điều đó có nghĩa là chúng ta đang thỏa hiệp khoa học của mình để phù hợp với những hạn chế này thay vì tập trung vào việc khắc phục chúng. Tôi thực sự tin rằng cơ sở hạ tầng không nên quyết định những gì chúng tôi làm mà phải ngược lại.

Tôi nghĩ AI đã đến đúng thời điểm để giúp chúng ta cuối cùng có thể khắc phục được một số vấn đề này vì nó có rất nhiều tiềm năng để lấp đầy những khoảng trống và cung cấp cho chúng ta ý tưởng về những gì khoa học mà chúng ta có thể đã làm, nếu chúng ta có tất cả các nguồn lực cần thiết.

Thật vậy, AI có thể cho phép chúng ta đạt được nhiều hơn bằng cách làm ít hơn và tránh được một số cạm bẫy như sai lệch lựa chọn. Đó thực sự là một vấn đề lớn khi áp dụng ML vào tập dữ liệu khoa học. Chúng ta cần phải làm nhiều việc hơn nữa để đảm bảo rằng các phương pháp sáng tạo đang tạo ra khoa học có ý nghĩa chứ không phải ảo giác. Điều này đặc biệt quan trọng nếu chúng định tạo nền tảng cho các mô hình được đào tạo trước lớn. Nhưng tôi nghĩ đây sẽ là một kỷ nguyên khoa học thực sự thú vị khi chúng ta cộng tác với AI, thay vì nó chỉ thực hiện một nhiệm vụ cho chúng ta.

Dấu thời gian:

Thêm từ Thế giới vật lý