DALL · E 2 Giảm nhẹ trước khi đào tạo

Được xuất bản lại bởi Plato

Người theo dõi: 0

DALL · E 2 Giảm nhẹ trước khi đào tạo

Để chia sẻ điều kỳ diệu của DALL · E 2 với nhiều đối tượng, chúng tôi cần giảm thiểu rủi ro liên quan đến các mô hình tạo hình ảnh mạnh mẽ. Để đạt được mục tiêu này, chúng tôi đã đặt nhiều bảo vệ tại chỗ để ngăn hình ảnh được tạo vi phạm chính sách nội dung. Bài đăng này tập trung vào giảm nhẹ trước khi đào tạo, một tập hợp con của các lan can này trực tiếp sửa đổi dữ liệu mà DALL · E 2 học được từ đó. Đặc biệt, DALL · E 2 được đào tạo về hàng trăm triệu hình ảnh có chú thích từ internet, và chúng tôi loại bỏ và cân nhắc lại một số hình ảnh này để thay đổi những gì mô hình học được.

Bài đăng này được tổ chức thành ba phần, mỗi phần mô tả một giảm thiểu khác nhau trước khi đào tạo:

Trong phần đầu tiên, chúng tôi mô tả cách chúng tôi lọc ra các hình ảnh bạo lực và tình dục từ tập dữ liệu đào tạo của DALL · E 2. Nếu không có sự giảm thiểu này, mô hình sẽ học cách tạo ra hình ảnh đồ họa hoặc khiêu dâm khi được nhắc nhở về chúng và thậm chí có thể trả lại những hình ảnh như vậy một cách không chủ ý để đáp lại những lời nhắc tưởng như vô hại.
Trong phần thứ hai, chúng tôi thấy rằng việc lọc dữ liệu đào tạo có thể khuếch đại thành kiến và mô tả kỹ thuật của chúng tôi để giảm thiểu tác động này. Ví dụ: nếu không có sự giảm thiểu này, chúng tôi nhận thấy rằng các mô hình được đào tạo trên dữ liệu được lọc đôi khi tạo ra nhiều hình ảnh mô tả nam giới và ít hình ảnh mô tả phụ nữ hơn so với các mô hình được đào tạo trên tập dữ liệu gốc.
Trong phần cuối cùng, chúng ta chuyển sang vấn đề ghi nhớ, nhận thấy rằng các mô hình như DALL · E 2 đôi khi có thể tái tạo những hình ảnh mà chúng đã được đào tạo hơn là tạo ra những hình ảnh mới lạ. Trong thực tế, chúng tôi nhận thấy rằng điều này trào ngược hình ảnh là do hình ảnh được sao chép nhiều lần trong tập dữ liệu và giảm thiểu sự cố bằng cách xóa các hình ảnh giống trực quan với các hình ảnh khác trong tập dữ liệu.

Giảm dữ liệu đào tạo về đồ họa và rõ ràng

Vì dữ liệu huấn luyện định hình các khả năng của bất kỳ mô hình đã học nào, nên lọc dữ liệu là một công cụ mạnh mẽ để hạn chế các khả năng không mong muốn của mô hình. Chúng tôi đã áp dụng phương pháp này cho hai danh mục — hình ảnh mô tả bạo lực và nội dung tình dục — bằng cách sử dụng bộ phân loại để lọc hình ảnh trong các danh mục này ra khỏi tập dữ liệu trước khi đào tạo DALL · E 2. Chúng tôi đã đào tạo nội bộ những bộ phân loại hình ảnh này và đang tiếp tục nghiên cứu ảnh hưởng của việc lọc tập dữ liệu đối với mô hình được đào tạo của chúng tôi.

Để đào tạo bộ phân loại hình ảnh của mình, chúng tôi đã sử dụng lại một phương pháp mà chúng tôi đã sử dụng trước đây để lọc dữ liệu đào tạo cho TRƯỢT. Các bước cơ bản của cách tiếp cận này như sau: đầu tiên, chúng tôi tạo một đặc tả cho các danh mục hình ảnh mà chúng tôi muốn gắn nhãn; thứ hai, chúng tôi thu thập một vài trăm ví dụ tích cực và tiêu cực cho mỗi loại; thứ ba, chúng tôi sử dụng một quy trình học tập tích cực để thu thập thêm dữ liệu và cải thiện sự đánh đổi độ chính xác / thu hồi; và cuối cùng, chúng tôi chạy bộ phân loại kết quả trên toàn bộ tập dữ liệu với ngưỡng phân loại thận trọng để ưu tiên thu hồi hơn độ chính xác. Để đặt các ngưỡng này, chúng tôi đã ưu tiên lọc ra tất cả xấu dữ liệu còn lại trong tất cả tốt dữ liệu. Điều này là do chúng tôi luôn có thể tinh chỉnh mô hình của mình với nhiều dữ liệu hơn sau này để dạy cho nó những điều mới, nhưng việc làm cho mô hình quên đi những thứ mà nó đã học sẽ khó hơn nhiều.

DALL · E 2 Giảm nhẹ trước khi đào tạo — Chúng tôi bắt đầu với một tập dữ liệu nhỏ về các hình ảnh được gắn nhãn (đầu hình). Sau đó, chúng tôi đào tạo một bộ phân loại trên dữ liệu này. Sau đó, quá trình học tập tích cực sử dụng trình phân loại hiện tại để chọn một số hình ảnh không được gắn nhãn có khả năng cải thiện hiệu suất của trình phân loại. Cuối cùng, con người tạo ra các nhãn cho những hình ảnh này, thêm chúng vào tập dữ liệu được gắn nhãn. Quá trình này có thể được lặp lại để cải thiện hiệu suất của trình phân loại một cách lặp đi lặp lại.

Trong giai đoạn học tập tích cực, chúng tôi đã cải tiến lặp đi lặp lại các bộ phân loại của mình bằng cách thu thập nhãn người cho các hình ảnh khó phân loại hoặc có khả năng bị phân loại sai. Đáng chú ý, chúng tôi đã sử dụng hai kỹ thuật học tập tích cực để chọn hình ảnh từ tập dữ liệu của chúng tôi (chứa hàng trăm triệu hình ảnh không được gắn nhãn) để hiển thị cho con người để gắn nhãn. Đầu tiên, để giảm tỷ lệ dương tính giả của trình phân loại của chúng tôi (tức là tần suất mà nó phân loại nhầm một hình ảnh lành tính là bạo lực hoặc tình dục), chúng tôi đã gán nhãn người cho những hình ảnh mà mô hình hiện tại đã phân loại là dương tính. Để bước này hoạt động tốt, chúng tôi đã điều chỉnh ngưỡng phân loại của mình để thu hồi gần 100% nhưng tỷ lệ dương tính giả cao; theo cách này, các nhà ghi nhãn của chúng tôi chủ yếu gắn nhãn các trường hợp thực sự tiêu cực. Mặc dù kỹ thuật này giúp giảm các trường hợp dương tính giả và giảm nhu cầu của người dán nhãn để xem các hình ảnh có thể gây hại, nhưng nó không giúp tìm ra các trường hợp tích cực hơn mà mô hình hiện đang bị thiếu.

Để giảm tỷ lệ phủ định sai của trình phân loại, chúng tôi đã sử dụng kỹ thuật học tập tích cực thứ hai: tìm kiếm hàng xóm gần nhất. Đặc biệt, chúng tôi đã chạy xác thực chéo nhiều lần để tìm các mẫu dương tính trong tập dữ liệu được gắn nhãn hiện tại của chúng tôi mà mô hình có xu hướng phân loại nhầm là tiêu cực (để làm được điều này, chúng tôi thực sự đã đào tạo hàng trăm phiên bản của bộ phân loại với các phân tách xác thực đào tạo khác nhau). Sau đó, chúng tôi quét bộ sưu tập lớn các hình ảnh không được gắn nhãn của chúng tôi để tìm các hàng xóm gần nhất của các mẫu này trong không gian đặc trưng cảm nhận và gán nhãn người cho các hình ảnh được phát hiện. Nhờ vào cơ sở hạ tầng máy tính của chúng tôi, việc mở rộng quy mô cả đào tạo trình phân loại và tìm kiếm hàng xóm gần nhất cho nhiều GPU là điều dễ dàng, cho phép bước học tập tích cực diễn ra trong vài phút thay vì vài giờ hoặc vài ngày.

Để xác minh tính hiệu quả của bộ lọc dữ liệu, chúng tôi đã đào tạo hai mô hình GLIDE có cùng siêu tham số: một trên dữ liệu chưa được lọc và một trên tập dữ liệu sau khi lọc. Chúng tôi gọi mô hình cũ là mô hình chưa được lọc, và cái sau là mô hình lọc. Đúng như dự đoán, chúng tôi nhận thấy rằng mô hình chưa được lọc thường tạo ra nội dung phản cảm hoặc ít phản cảm hơn để đáp ứng các yêu cầu về loại nội dung này. Tuy nhiên, chúng tôi cũng nhận thấy một tác dụng phụ không mong muốn của việc lọc dữ liệu: nó tạo ra hoặc khuếch đại thành kiến của mô hình đối với một số nhân khẩu học nhất định.

Khắc phục khuynh hướng được giới thiệu bởi bộ lọc dữ liệu

Các mô hình sinh cố gắng khớp với việc phân phối dữ liệu đào tạo của chúng, bao gồm bất kỳ thành kiến nào trong đó. Do đó, việc lọc dữ liệu huấn luyện có khả năng tạo ra hoặc khuếch đại các sai lệch trong các mô hình hạ nguồn. Nói chung, việc sửa chữa các thành kiến trong tập dữ liệu gốc là một công việc khó khăn về kỹ thuật xã hội học mà chúng tôi tiếp tục nghiên cứu và nằm ngoài phạm vi của bài đăng này. Vấn đề mà chúng tôi giải quyết ở đây là sự khuếch đại các sai lệch do chính quá trình lọc dữ liệu gây ra. Với cách tiếp cận của mình, chúng tôi nhằm mục đích ngăn không cho mô hình được lọc chi tiết thiên vị hơn so với mô hình không được lọc, về cơ bản làm giảm sự thay đổi phân phối do lọc dữ liệu gây ra.

Như một ví dụ cụ thể về khuếch đại sai lệch do lọc, hãy xem xét lời nhắc “a ceo”. Khi mô hình chưa được lọc của chúng tôi tạo ra hình ảnh cho lời nhắc này, nó có xu hướng tạo ra nhiều hình ảnh về nam giới hơn phụ nữ và chúng tôi cho rằng hầu hết sự thiên vị này phản ánh dữ liệu đào tạo hiện tại của chúng tôi. Tuy nhiên, khi chúng tôi chạy cùng một lời nhắc thông qua mô hình đã lọc của mình, sự thiên vị dường như được khuếch đại; các thế hệ hầu như chỉ có hình ảnh của đàn ông.

Chúng tôi giả thuyết rằng trường hợp khuếch đại thiên lệch cụ thể này xuất phát từ hai điểm: thứ nhất, ngay cả khi phụ nữ và nam giới có đại diện gần như ngang nhau trong tập dữ liệu gốc, tập dữ liệu có thể thiên về giới thiệu phụ nữ trong bối cảnh tình dục hơn; và thứ hai, bản thân các bộ phân loại của chúng tôi có thể bị sai lệch do triển khai hoặc định nghĩa lớp, bất chấp nỗ lực của chúng tôi để đảm bảo rằng điều này không xảy ra trong giai đoạn thu thập và xác thực dữ liệu. Do cả hai hiệu ứng này, bộ lọc của chúng tôi có thể loại bỏ nhiều hình ảnh phụ nữ hơn nam giới, điều này làm thay đổi tỷ lệ giới tính mà mô hình quan sát được trong quá trình đào tạo.

Để điều tra kỹ hơn sự thiên vị do bộ lọc gây ra, chúng tôi muốn có một cách để đo lường mức độ ảnh hưởng của bộ lọc dữ liệu của chúng tôi đối với sự thiên vị đối với các khái niệm khác nhau. Đáng chú ý, các bộ lọc nội dung bạo lực và tình dục của chúng tôi hoàn toàn dựa trên hình ảnh, nhưng tính chất đa phương thức của tập dữ liệu cho phép chúng tôi đo lường trực tiếp tác động của các bộ lọc này đối với văn bản. Vì mọi hình ảnh đều đi kèm với chú thích văn bản, chúng tôi có thể xem tần suất tương đối của các từ khóa được chọn thủ công trên tập dữ liệu đã lọc và chưa lọc để ước tính mức độ ảnh hưởng của các bộ lọc đối với bất kỳ khái niệm nhất định nào.

Để thực hiện điều này, chúng tôi đã sử dụng Apache Spark để tính toán tần suất của một số từ khóa (ví dụ: "cha mẹ", "phụ nữ", "đứa trẻ") trên tất cả các phụ đề trong cả tập dữ liệu đã lọc và chưa lọc của chúng tôi. Mặc dù tập dữ liệu của chúng tôi chứa hàng trăm triệu cặp văn bản-hình ảnh, việc tính toán các tần số từ khóa này chỉ mất vài phút bằng cách sử dụng cụm máy tính của chúng tôi.

Sau khi tính toán tần suất từ khóa, chúng tôi có thể xác nhận rằng bộ lọc tập dữ liệu của chúng tôi thực sự đã làm sai lệch tần suất của một số từ khóa nhất định hơn những từ khóa khác. Ví dụ: các bộ lọc đã giảm tần suất của từ “phụ nữ” xuống 14%, trong khi tần suất của từ “đàn ông” chỉ giảm 6%. Điều này đã xác nhận, trên quy mô lớn, những gì chúng tôi đã quan sát được trong giai đoạn đầu bằng cách lấy mẫu từ các mô hình GLIDE được đào tạo trên cả hai bộ dữ liệu.

Bây giờ chúng tôi đã có một proxy để đo lường sự sai lệch do bộ lọc gây ra, chúng tôi cần một cách để giảm thiểu nó. Để giải quyết vấn đề này, chúng tôi nhằm mục đích cân chỉnh lại trọng số của tập dữ liệu đã lọc để phân phối của nó phù hợp hơn với phân phối của các hình ảnh chưa được lọc. Như một ví dụ đồ chơi để minh họa cho ý tưởng này, giả sử tập dữ liệu của chúng tôi bao gồm 50% ảnh mèo và 50% ảnh chó, nhưng bộ lọc dữ liệu của chúng tôi loại bỏ 75% chó nhưng chỉ 50% mèo. Tập dữ liệu cuối cùng sẽ là ⅔ mèo và ⅓ chó, và một mô hình sinh sản dựa trên khả năng được đào tạo trên tập dữ liệu này có thể sẽ tạo ra nhiều hình ảnh về mèo hơn là chó. Chúng ta có thể khắc phục sự mất cân bằng này bằng cách nhân khoảng mất huấn luyện của mọi hình ảnh của một chú chó với 2, mô phỏng hiệu ứng của việc lặp lại mọi hình ảnh về chú chó hai lần. Nó chỉ ra rằng chúng tôi có thể mở rộng phương pháp tiếp cận này cho các tập dữ liệu và mô hình thực của chúng tôi theo cách phần lớn là tự động - nghĩa là chúng tôi không cần chọn thủ công các tính năng mà chúng tôi muốn cân nhắc lại.

Chúng tôi tính toán trọng số cho hình ảnh trong tập dữ liệu đã lọc bằng cách sử dụng xác suất từ bộ phân loại đặc biệt, tương tự như phương pháp được sử dụng bởi Choi và cộng sự. (2019). Để đào tạo bộ phân loại này, chúng tôi lấy mẫu thống nhất hình ảnh từ cả hai tập dữ liệu và dự đoán hình ảnh đến từ tập dữ liệu nào. Đặc biệt, mô hình này dự đoán P (chưa lọc | hình ảnh), được đưa ra trước P (chưa lọc) = 0.5. Trên thực tế, chúng tôi không muốn mô hình này quá mạnh mẽ, nếu không, nó có thể tìm hiểu chức năng chính xác được bộ lọc của chúng tôi triển khai ngay từ đầu. Thay vào đó, chúng tôi muốn mô hình mượt mà hơn so với các bộ lọc dữ liệu ban đầu của chúng tôi, chụp các danh mục rộng bị ảnh hưởng bởi các bộ lọc trong khi vẫn không chắc chắn về việc một hình ảnh cụ thể có được lọc hay không. Để đạt được mục tiêu này, chúng tôi đã đào tạo một đầu dò tuyến tính trên đầu một CLIP mô hình.

Sau khi chúng tôi có bộ phân loại dự đoán xác suất một hình ảnh từ tập dữ liệu chưa được lọc, chúng tôi vẫn cần chuyển dự đoán này thành trọng số cho hình ảnh. Ví dụ, giả sử rằng P (chưa lọc | hình ảnh) = 0.8. Điều này có nghĩa là mẫu có khả năng được tìm thấy trong dữ liệu chưa được lọc cao hơn 4 lần so với dữ liệu đã lọc và trọng số là 4 sẽ điều chỉnh sự mất cân bằng. Nói chung, chúng ta có thể sử dụng trọng lượng P (chưa lọc | hình ảnh) / P (lọc | hình ảnh).^[1]

Sơ đồ trọng số này thực sự giảm thiểu sai lệch khuếch đại tốt đến mức nào? Khi chúng tôi tinh chỉnh mô hình đã lọc trước đó của mình bằng lược đồ trọng số mới, hành vi của mô hình được tinh chỉnh phù hợp hơn nhiều với mô hình chưa được lọc trên các ví dụ thiên vị mà chúng tôi đã tìm thấy trước đó. Mặc dù điều này rất đáng khích lệ, nhưng chúng tôi cũng muốn đánh giá việc giảm thiểu này một cách kỹ lưỡng hơn bằng cách sử dụng phương pháp phỏng đoán thiên vị dựa trên từ khóa của chúng tôi. Để đo lường tần suất từ khóa trong khi tính đến sơ đồ trọng số mới của chúng tôi, chúng tôi có thể chỉ cần cân nhắc mọi trường hợp của từ khóa trong tập dữ liệu đã lọc theo trọng lượng của mẫu chứa nó. Làm điều này, chúng tôi nhận được một tập hợp tần suất từ khóa mới phản ánh trọng số mẫu trong tập dữ liệu đã lọc.

Trên hầu hết các từ khóa mà chúng tôi đã kiểm tra, lược đồ trọng số đã làm giảm sự thay đổi tần suất do lọc gây ra. Đối với các ví dụ trước đây của chúng tôi về “đàn ông” và “phụ nữ”, mức giảm tần suất tương đối là 1% và –1%, trong khi các giá trị trước đó của chúng lần lượt là 14% và 6%. Mặc dù số liệu này chỉ là một proxy cho độ lệch lọc thực tế, nhưng có thể yên tâm rằng chương trình trọng số dựa trên hình ảnh của chúng tôi thực sự cải thiện đáng kể số liệu dựa trên văn bản.

Chúng tôi đang tiếp tục điều tra các thành kiến còn lại trong DALL · E 2, một phần thông qua các đánh giá lớn hơn về hành vi của mô hình và điều tra về cách lọc tác động của thành kiến và phát triển năng lực.

Ngăn chặn hiện tượng chảy nước hình ảnh

Chúng tôi nhận thấy rằng các phiên bản tiền nhiệm nội bộ của chúng tôi đối với DALL · E 2 đôi khi sẽ tái tạo nguyên văn hình ảnh đào tạo. Hành vi này là không mong muốn, vì chúng tôi muốn DALL · E 2 tạo ra các hình ảnh độc đáo, nguyên bản theo mặc định chứ không chỉ "ghép" các phần hình ảnh hiện có. Ngoài ra, việc sao chép nguyên văn hình ảnh đào tạo có thể đặt ra các câu hỏi pháp lý xung quanh vi phạm bản quyền, quyền sở hữu và quyền riêng tư (nếu ảnh của mọi người có trong dữ liệu đào tạo).

Để hiểu rõ hơn về vấn đề hình ảnh trào ngược, chúng tôi đã thu thập tập dữ liệu các lời nhắc thường dẫn đến hình ảnh trùng lặp. Để làm điều này, chúng tôi đã sử dụng một mô hình được đào tạo để lấy mẫu hình ảnh cho 50,000 lời nhắc từ tập dữ liệu đào tạo của chúng tôi và sắp xếp các mẫu theo sự tương đồng về mặt cảm quan với hình ảnh đào tạo tương ứng. Cuối cùng, chúng tôi đã kiểm tra các trận đấu hàng đầu bằng tay, chỉ tìm thấy vài trăm cặp trùng lặp thực sự trong tổng số 50k lời nhắc. Mặc dù tỷ lệ nôn trớ dường như dưới 1%, chúng tôi thấy cần phải đẩy tỷ lệ này xuống 0 vì những lý do đã nêu ở trên.

Khi chúng tôi nghiên cứu tập dữ liệu của chúng tôi về các hình ảnh trào ngược, chúng tôi nhận thấy hai mẫu. Đầu tiên, các hình ảnh hầu như đều là đồ họa vector đơn giản, dễ ghi nhớ do hàm lượng thông tin thấp. Thứ hai, và quan trọng hơn, tất cả các hình ảnh đều có nhiều bản sao gần như trùng lặp trong tập dữ liệu đào tạo. Ví dụ: có thể có một đồ họa vector trông giống như một đồng hồ hiển thị thời gian 1 giờ — nhưng sau đó chúng tôi sẽ phát hiện ra một mẫu đào tạo có chứa cùng một đồng hồ hiển thị 2 giờ và sau đó là 3 giờ, v.v. Một lần chúng tôi nhận ra điều này, chúng tôi đã sử dụng một tìm kiếm hàng xóm gần nhất được phân phối để xác minh rằng thực tế, tất cả các hình ảnh được lấy lại đều có các bản sao giống nhau về mặt nhận thức trong tập dữ liệu. Nền tảng khác công trinh đã quan sát một hiện tượng tương tự trong các mô hình ngôn ngữ lớn, nhận thấy rằng sự trùng lặp dữ liệu có mối liên hệ chặt chẽ với việc ghi nhớ.

Phát hiện trên cho thấy rằng, nếu chúng tôi loại bỏ trùng lặp tập dữ liệu của mình, chúng tôi có thể giải quyết được vấn đề trào ngược. Để đạt được điều này, chúng tôi đã lên kế hoạch sử dụng mạng nơ-ron để xác định các nhóm hình ảnh trông giống nhau, sau đó xóa tất cả trừ một hình ảnh khỏi mỗi nhóm.^[2] Tuy nhiên, điều này sẽ yêu cầu kiểm tra, đối với mỗi hình ảnh, liệu nó có phải là bản sao của mọi hình ảnh khác trong tập dữ liệu hay không. Vì toàn bộ tập dữ liệu của chúng tôi chứa hàng trăm triệu hình ảnh, nên chúng tôi thực sự cần kiểm tra hàng trăm nghìn tỷ cặp hình ảnh để tìm tất cả các bản sao. Mặc dù điều này nằm trong tầm tay về mặt kỹ thuật, đặc biệt là trên một cụm máy tính lớn, chúng tôi đã tìm thấy một giải pháp thay thế hiệu quả hơn nhiều, hoạt động gần như tốt với một phần nhỏ chi phí.

Hãy xem xét điều gì sẽ xảy ra nếu chúng tôi phân cụm tập dữ liệu của mình trước khi thực hiện khử trùng lặp. Vì các mẫu lân cận thường rơi vào cùng một cụm, nên hầu hết các cặp trùng lặp sẽ không vượt qua ranh giới quyết định của cụm. Sau đó, chúng tôi có thể loại bỏ các mẫu trùng lặp trong mỗi cụm mà không cần kiểm tra các bản sao bên ngoài cụm, trong khi chỉ thiếu một phần nhỏ của tất cả các cặp trùng lặp. Điều này nhanh hơn nhiều so với cách tiếp cận ngây thơ, vì chúng ta không còn phải kiểm tra từng cặp hình ảnh.^[3] Khi chúng tôi thử nghiệm phương pháp này theo kinh nghiệm trên một tập nhỏ dữ liệu của mình, nó đã tìm thấy 85% tất cả các cặp trùng lặp khi sử dụng K = 1024 các cụm.

Để cải thiện tỷ lệ thành công của thuật toán trên, chúng tôi đã tận dụng một quan sát chính: khi bạn phân cụm các tập con ngẫu nhiên khác nhau của một tập dữ liệu, các ranh giới quyết định cụm kết quả thường khá khác nhau. Do đó, nếu một cặp trùng lặp vượt qua ranh giới cụm cho một nhóm dữ liệu, thì cặp dữ liệu đó có thể nằm trong một cụm duy nhất trong một nhóm khác. Bạn thử càng nhiều cụm từ thì càng có nhiều khả năng bạn phát hiện ra một cặp trùng lặp nhất định. Trong thực tế, chúng tôi đã giải quyết bằng cách sử dụng năm cụm, có nghĩa là chúng tôi tìm kiếm các bản sao của mỗi hình ảnh trong sự kết hợp của năm cụm khác nhau. Trên thực tế, điều này tìm thấy 97% tất cả các cặp trùng lặp trên một tập hợp con dữ liệu của chúng tôi.

Đáng ngạc nhiên là gần một phần tư tập dữ liệu của chúng tôi đã bị loại bỏ bởi tính năng khử trùng lặp. Khi chúng tôi xem xét các cặp gần như trùng lặp được tìm thấy, nhiều trong số chúng bao gồm những thay đổi có ý nghĩa. Nhớ lại ví dụ về đồng hồ ở trên: tập dữ liệu có thể bao gồm nhiều hình ảnh của cùng một đồng hồ tại các thời điểm khác nhau trong ngày. Mặc dù những hình ảnh này có khả năng khiến người mẫu ghi nhớ hình dáng của chiếc đồng hồ cụ thể này, nhưng chúng cũng có thể giúp người mẫu học cách phân biệt giữa các thời điểm trong ngày trên đồng hồ. Với số lượng dữ liệu đã bị xóa, chúng tôi lo lắng rằng việc xóa những hình ảnh như thế này có thể làm ảnh hưởng đến hiệu suất của mô hình.

Để kiểm tra tác động của việc khử trùng lặp trên các mô hình của chúng tôi, chúng tôi đã đào tạo hai mô hình có siêu tham số giống hệt nhau: một trên tập dữ liệu đầy đủ và một trên phiên bản đã khử trùng lặp của tập dữ liệu. Để so sánh các mô hình, chúng tôi đã sử dụng chính các đánh giá của con người mà chúng tôi đã sử dụng để đánh giá mô hình GLIDE ban đầu của chúng tôi. Đáng ngạc nhiên, chúng tôi nhận thấy rằng những người đánh giá con người hơi ưa thích mô hình được đào tạo dựa trên dữ liệu bị trùng lặp, cho thấy rằng lượng lớn hình ảnh dư thừa trong tập dữ liệu đã thực sự làm ảnh hưởng đến hiệu suất.

Khi chúng tôi đã có một mô hình được đào tạo dựa trên dữ liệu bị trùng lặp, chúng tôi thực hiện lại tìm kiếm trào ngược mà chúng tôi đã thực hiện trước đó hơn 50 nghìn lời nhắc từ tập dữ liệu đào tạo. Chúng tôi nhận thấy rằng mô hình mới không bao giờ lặp lại hình ảnh đào tạo khi được đưa ra lời nhắc chính xác cho hình ảnh từ tập dữ liệu đào tạo. Để tiến hành thử nghiệm này thêm một bước nữa, chúng tôi cũng đã thực hiện tìm kiếm hàng xóm gần nhất trên toàn bộ tập dữ liệu đào tạo cho mỗi hình ảnh trong số 50k hình ảnh được tạo. Bằng cách này, chúng tôi nghĩ rằng chúng tôi có thể bắt gặp mô hình lặp lại một hình ảnh khác với hình ảnh được liên kết với một lời nhắc nhất định. Ngay cả khi kiểm tra kỹ lưỡng hơn này, chúng tôi không bao giờ tìm thấy trường hợp trào ngược hình ảnh.

Bước tiếp theo

Mặc dù tất cả các biện pháp giảm thiểu được thảo luận ở trên thể hiện sự tiến bộ đáng kể đối với mục tiêu của chúng tôi là giảm rủi ro liên quan đến DALL · E 2, nhưng mỗi biện pháp giảm thiểu vẫn còn nhiều điểm để cải thiện:

Các bộ lọc đào tạo trước tốt hơn có thể cho phép chúng tôi đào tạo DALL · E 2 trên nhiều dữ liệu hơn và có khả năng giảm hơn nữa sự sai lệch trong mô hình. Các bộ lọc hiện tại của chúng tôi được điều chỉnh để có tỷ lệ bỏ sót thấp với cái giá phải trả là nhiều lần dương tính giả. Do đó, chúng tôi đã lọc ra khoảng 5% trong toàn bộ tập dữ liệu của mình mặc dù hầu hết các hình ảnh được lọc này hoàn toàn không vi phạm chính sách nội dung của chúng tôi. Cải thiện bộ lọc của chúng tôi có thể cho phép chúng tôi lấy lại một số dữ liệu đào tạo này.
Bias được đưa vào và có khả năng được khuếch đại ở nhiều giai đoạn phát triển và triển khai hệ thống. Đánh giá và giảm thiểu sự thiên vị trong các hệ thống như DALL · E 2 và tác hại do sự thiên vị này gây ra là một vấn đề liên ngành quan trọng mà chúng tôi tiếp tục nghiên cứu tại OpenAI như một phần trong sứ mệnh rộng lớn hơn của chúng tôi. Công việc của chúng tôi về vấn đề này bao gồm việc xây dựng các đánh giá để hiểu rõ hơn vấn đề, quản lý bộ dữ liệu mới và áp dụng các kỹ thuật như phản hồi của con người và tinh chỉnh để xây dựng các công nghệ mạnh mẽ và đại diện hơn.
Điều quan trọng nữa là chúng ta phải tiếp tục nghiên cứu khả năng ghi nhớ và khái quát hóa trong các hệ thống học sâu. Mặc dù việc khử trùng lặp là một bước đầu tiên tốt để ngăn chặn việc ghi nhớ, nhưng nó không cho chúng ta biết tất cả mọi thứ cần phải tìm hiểu về lý do hoặc cách thức các mô hình như DALL · E 2 ghi nhớ dữ liệu đào tạo.

Dấu thời gian: 28 Tháng Sáu, 2022

Dấu thời gian: Tháng Tư 23, 2024

Được xuất bản lại bởi Plato

DALL · E: Giới thiệu Outpainting

DALL · E Hiện có sẵn mà không cần danh sách chờ

Học cách chơi Minecraft với Video PreTraining (VPT)

Quy định Frontier AI: Quản lý rủi ro mới nổi đối với an toàn công cộng

Đầu vào dân chủ cho AI

Kỹ thuật đào tạo mạng nơ ron lớn

Dự báo khả năng sử dụng sai các mô hình ngôn ngữ cho các chiến dịch thông tin sai lệch—và cách giảm thiểu rủi ro

Giới thiệu API ChatGPT và Whisper

Quản trị siêu trí tuệ

Cam kết của OpenAI đối với sự an toàn của trẻ em: áp dụng các nguyên tắc thiết kế an toàn

Về chúng tôi

Tìm kiếm dọc & Ai

Nền tảng

NHẬN THÔNG TIN

Tài khoản