Các mô hình tầm nhìn cơ bản và kỹ thuật nhắc nhở trực quan cho các ứng dụng lái xe tự động | Dịch vụ web của Amazon

Các mô hình tầm nhìn cơ bản và kỹ thuật nhắc nhở trực quan cho các ứng dụng lái xe tự động | Dịch vụ web của Amazon

Kỹ thuật nhắc nhở đã trở thành một kỹ năng thiết yếu đối với bất kỳ ai làm việc với các mô hình ngôn ngữ lớn (LLM) để tạo ra các văn bản có liên quan và chất lượng cao. Mặc dù kỹ thuật nhắc nhở bằng văn bản đã được thảo luận rộng rãi nhưng kỹ thuật nhắc nhở trực quan là một lĩnh vực mới nổi cần được chú ý. Lời nhắc trực quan có thể bao gồm các hộp giới hạn hoặc mặt nạ hướng dẫn các mô hình tầm nhìn trong việc tạo ra kết quả đầu ra có liên quan và chính xác. Trong bài đăng này, chúng ta khám phá những kiến ​​thức cơ bản về kỹ thuật nhắc nhở trực quan, lợi ích của nó và cách nó có thể được sử dụng để giải quyết một trường hợp sử dụng cụ thể: phân đoạn hình ảnh cho xe tự lái.

Trong những năm gần đây, lĩnh vực thị giác máy tính đã chứng kiến ​​những tiến bộ đáng kể trong lĩnh vực phân đoạn hình ảnh. Một bước đột phá như vậy là Mô hình phân đoạn mọi thứ (SAM) bởi Meta AI, có khả năng cách mạng hóa việc phân đoạn cấp độ đối tượng bằng phương pháp huấn luyện không bắn hoặc ít bắn. Trong bài đăng này, chúng tôi sử dụng mô hình SAM làm ví dụ về mô hình tầm nhìn nền tảng và khám phá ứng dụng của nó vào Tập dữ liệu BDD100K, một bộ dữ liệu lái xe tự động đa dạng dành cho việc học đa nhiệm không đồng nhất. Bằng cách kết hợp các điểm mạnh của SAM với dữ liệu phong phú do BDD100K cung cấp, chúng tôi thể hiện tiềm năng của kỹ thuật nhắc nhở trực quan với các phiên bản SAM khác nhau. Lấy cảm hứng từ LangChain khuôn khổ cho các mô hình ngôn ngữ, chúng tôi đề xuất một chuỗi trực quan để thực hiện nhắc nhở trực quan bằng cách kết hợp các mô hình phát hiện đối tượng với SAM.

Mặc dù bài đăng này tập trung vào lái xe tự động, nhưng các khái niệm được thảo luận có thể áp dụng rộng rãi cho các lĩnh vực có ứng dụng dựa trên tầm nhìn phong phú như chăm sóc sức khỏe và khoa học đời sống cũng như truyền thông và giải trí. Hãy bắt đầu bằng cách tìm hiểu thêm một chút về những gì nằm trong mô hình tầm nhìn nền tảng như SAM. Chúng tôi đã sử dụng Xưởng sản xuất Amazon SageMaker trên phiên bản ml.g5.16xlarge cho bài đăng này.

Mô hình phân đoạn mọi thứ (SAM)

Các mô hình nền tảng là các mô hình máy học (ML) lớn được đào tạo trên số lượng lớn dữ liệu và có thể được nhắc nhở hoặc tinh chỉnh cho các trường hợp sử dụng của từng nhiệm vụ cụ thể. Ở đây, chúng ta khám phá Mô hình phân đoạn bất kỳ (SAM), đây là mô hình nền tảng cho tầm nhìn, cụ thể là phân đoạn hình ảnh. Nó được đào tạo trước trên một tập dữ liệu khổng lồ gồm 11 triệu hình ảnh và 1.1 tỷ mặt nạ, khiến nó trở thành tập dữ liệu phân đoạn lớn nhất tính đến thời điểm hiện tại. Bộ dữ liệu mở rộng này bao gồm nhiều đối tượng và danh mục, cung cấp cho SAM nguồn dữ liệu đào tạo đa dạng và quy mô lớn.

Mô hình SAM được đào tạo để hiểu các đối tượng và có thể xuất ra mặt nạ phân đoạn cho bất kỳ đối tượng nào trong hình ảnh hoặc khung hình video. Mô hình này cho phép kỹ thuật nhắc nhở trực quan, cho phép bạn cung cấp các đầu vào như văn bản, điểm, hộp giới hạn hoặc mặt nạ để tạo nhãn mà không làm thay đổi hình ảnh gốc. SAM có sẵn ở ba kích cỡ: cơ sở (ViT-B, 91 triệu tham số), lớn (ViT-L, 308 triệu tham số) và khổng lồ (ViT-H, 636 triệu tham số), đáp ứng các yêu cầu tính toán và trường hợp sử dụng khác nhau.

Động lực chính đằng sau SAM là cải thiện phân đoạn cấp đối tượng với các mẫu và kỷ nguyên đào tạo tối thiểu cho bất kỳ đối tượng quan tâm nào. Sức mạnh của SAM nằm ở khả năng thích ứng với các tác vụ và phân phối hình ảnh mới mà không cần kiến ​​thức trước, một tính năng được gọi là chuyển giao không bắn. Khả năng thích ứng này đạt được thông qua quá trình đào tạo trên bộ dữ liệu SA-1B mở rộng, đã chứng tỏ hiệu suất không bắn ấn tượng, vượt qua nhiều kết quả được giám sát đầy đủ trước đó.

Như được trình bày trong kiến ​​trúc sau đây của SAM, quy trình tạo mặt nạ phân đoạn bao gồm ba bước:

  1. Bộ mã hóa hình ảnh tạo ra quá trình nhúng một lần cho hình ảnh.
  2. Bộ mã hóa dấu nhắc sẽ chuyển đổi bất kỳ dấu nhắc nào thành vectơ nhúng cho dấu nhắc.
  3. Bộ giải mã nhẹ kết hợp thông tin từ bộ mã hóa hình ảnh và bộ mã hóa dấu nhắc để dự đoán mặt nạ phân đoạn.

Ví dụ: chúng tôi có thể cung cấp đầu vào có hình ảnh và hộp giới hạn xung quanh đối tượng quan tâm trong hình ảnh đó (ví dụ: Xe màu bạc hoặc làn đường lái xe) và mô hình SAM sẽ tạo mặt nạ phân đoạn cho đối tượng đó.

Các mô hình tầm nhìn cơ bản và kỹ thuật nhắc nhở trực quan cho các ứng dụng lái xe tự động | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.

Kỹ thuật nhắc nhở trực quan

Kỹ thuật nhanh chóng đề cập đến việc cấu trúc các yếu tố đầu vào cho một mô hình để làm cho mô hình đó hiểu được mục đích và tạo ra kết quả mong muốn. Với kỹ thuật nhắc nhở văn bản, bạn có thể cấu trúc văn bản đầu vào thông qua các sửa đổi như chọn từ, định dạng, sắp xếp thứ tự, v.v. để có được đầu ra mong muốn. Kỹ thuật nhắc nhở trực quan giả định rằng người dùng đang làm việc theo phương thức trực quan (hình ảnh hoặc video) và cung cấp đầu vào. Sau đây là danh sách chưa đầy đủ các cách tiềm năng để cung cấp đầu vào cho mô hình AI tổng quát trong lĩnh vực trực quan:

  • Điểm - Một điểm tọa độ số ít (x, y) trong mặt phẳng hình ảnh
  • Điểm – Nhiều điểm tọa độ (x, y), không nhất thiết phải liên quan đến nhau
  • Hộp giới hạn - Một tập hợp gồm bốn giá trị (x, y, w, h) xác định vùng hình chữ nhật trong mặt phẳng hình ảnh
  • Đường viền - Một tập hợp các điểm tọa độ (x, y) trong mặt phẳng hình ảnh tạo thành một hình khép kín
  • Mặt nạ - Một mảng có cùng kích thước với hình ảnh với một phần mặt nạ của đối tượng quan tâm

Với các kỹ thuật kỹ thuật nhắc nhở trực quan, hãy khám phá cách áp dụng điều này cho mô hình được đào tạo trước SAM. Chúng tôi đã sử dụng phiên bản cơ sở của mô hình được đào tạo trước.

Nhắc nhở không bắn với mô hình SAM được đào tạo trước

Để bắt đầu, hãy khám phá phương pháp không bắn. Sau đây là hình ảnh mẫu từ tập dữ liệu huấn luyện được chụp từ camera trước của xe.

Các mô hình tầm nhìn cơ bản và kỹ thuật nhắc nhở trực quan cho các ứng dụng lái xe tự động | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.

Chúng ta có thể lấy mặt nạ phân đoạn cho tất cả các đối tượng từ hình ảnh mà không cần bất kỳ lời nhắc trực quan rõ ràng nào bằng cách tự động tạo mặt nạ chỉ với một hình ảnh đầu vào. Trong hình ảnh sau đây, chúng ta thấy các bộ phận của ô tô, đường, biển báo giao thông, biển số xe, cầu vượt, cột, biển báo, v.v. được phân đoạn.

Các mô hình tầm nhìn cơ bản và kỹ thuật nhắc nhở trực quan cho các ứng dụng lái xe tự động | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.

Tuy nhiên, kết quả đầu ra này không hữu ích ngay lập tức vì những lý do sau:

  • Những chiếc xe không được phân đoạn một cách tổng thể mà theo từng bộ phận. Ví dụ: đối với hầu hết các mô hình nhận thức, chúng tôi không thực sự quan tâm đến việc mỗi lốp có mặt nạ đầu ra riêng biệt. Điều này đúng khi tìm kiếm các đối tượng quan tâm đã biết khác, chẳng hạn như đường, thảm thực vật, biển báo, v.v.
  • Các phần của hình ảnh hữu ích cho các tác vụ tiếp theo như khu vực có thể lái xe được chia ra mà không có lời giải thích. Mặt khác, các trường hợp tương tự được xác định riêng biệt và chúng tôi có thể quan tâm đến việc nhóm các đối tượng tương tự (phân đoạn toàn cảnh và phân đoạn trường hợp).

Kỹ thuật nhắc nhở trực quan với mô hình SAM được đào tạo trước

May mắn thay, SAM hỗ trợ cung cấp lời nhắc đầu vào và chúng ta có thể sử dụng điểm, mảng điểm và hộp giới hạn làm đầu vào. Với những hướng dẫn cụ thể này, chúng tôi kỳ vọng SAM sẽ làm tốt hơn với các phân đoạn tập trung vào các điểm hoặc khu vực cụ thể. Điều này có thể được so sánh với mẫu lời nhắc ngôn ngữ
"What is a good name for a company that makes {product}?"
trong đó đầu vào cùng với mẫu lời nhắc này từ người dùng là {product}. {product} là một khe đầu vào. Trong lời nhắc trực quan, các hộp, điểm hoặc mặt nạ giới hạn là các vị trí đầu vào.

Hình ảnh sau đây cung cấp hộp giới hạn thực tế mặt đất ban đầu xung quanh các phương tiện và bản vá khu vực có thể lái xe từ dữ liệu thực tế mặt đất BDD100K. Hình ảnh cũng hiển thị điểm đầu vào (dấu X màu vàng) ở giữa hộp giới hạn màu xanh lá cây mà chúng ta sẽ đề cập đến trong một số phần tiếp theo.

Các mô hình tầm nhìn cơ bản và kỹ thuật nhắc nhở trực quan cho các ứng dụng lái xe tự động | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.

Hãy thử tạo mặt nạ cho ô tô ở bên trái với hộp giới hạn màu xanh lá cây làm đầu vào cho SAM. Như được hiển thị trong ví dụ sau, mô hình cơ sở của SAM thực sự không tìm thấy gì. Điều này cũng được thấy ở điểm phân khúc thấp. Khi xem xét kỹ hơn các mặt nạ phân đoạn, chúng tôi thấy rằng có những vùng nhỏ được trả về dưới dạng mặt nạ (chỉ vào bằng mũi tên màu đỏ) không thực sự hữu dụng cho bất kỳ ứng dụng tiếp theo nào.

Các mô hình tầm nhìn cơ bản và kỹ thuật nhắc nhở trực quan cho các ứng dụng lái xe tự động | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.

Hãy thử kết hợp hộp giới hạn và một điểm làm dấu nhắc trực quan đầu vào. Chữ thập màu vàng trong hình ảnh trước là tâm của hộp giới hạn. Việc cung cấp tọa độ (x, y) của điểm này làm dấu nhắc cùng với ràng buộc hộp giới hạn sẽ mang lại cho chúng ta mặt nạ sau và điểm cao hơn một chút. Điều này vẫn không thể sử dụng được bằng mọi cách.

Các mô hình tầm nhìn cơ bản và kỹ thuật nhắc nhở trực quan cho các ứng dụng lái xe tự động | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.

Cuối cùng, với mô hình được đào tạo trước cơ sở, chúng tôi chỉ có thể cung cấp điểm đầu vào dưới dạng lời nhắc (không có hộp giới hạn). Những hình ảnh sau đây cho thấy hai trong số ba chiếc mặt nạ hàng đầu mà chúng tôi cho là thú vị.

Các mô hình tầm nhìn cơ bản và kỹ thuật nhắc nhở trực quan cho các ứng dụng lái xe tự động | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.

Mặt nạ 1 phân đoạn toàn bộ ô tô, trong khi Mặt nạ 3 phân chia khu vực giữ biển số ô tô gần với chữ thập màu vàng (dấu nhắc nhập). Khẩu trang 1 vẫn chưa phải là khẩu trang kín, sạch quanh xe; điều này chỉ ra chất lượng của mô hình mà chúng ta có thể giả định rằng chất lượng này sẽ tăng theo kích thước mô hình.

Chúng ta có thể thử các mô hình được đào tạo trước lớn hơn với cùng một dấu nhắc đầu vào. Những hình ảnh sau đây cho thấy kết quả của chúng tôi. Khi sử dụng mô hình đào tạo trước SAM khổng lồ, Mask 3 là toàn bộ chiếc xe, còn Mask 1 và 2 có thể dùng để trích xuất biển số.

Các mô hình tầm nhìn cơ bản và kỹ thuật nhắc nhở trực quan cho các ứng dụng lái xe tự động | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.

Phiên bản lớn của mô hình SAM cũng cung cấp kết quả đầu ra tương tự.

Quá trình chúng tôi đã thực hiện ở đây tương tự như quy trình xử lý lời nhắc thủ công dành cho lời nhắc văn bản mà bạn có thể đã quen thuộc. Lưu ý rằng cải tiến gần đây trong mô hình SAM để phân đoạn mọi thứ có chất lượng cao sẽ cung cấp kết quả đầu ra theo đối tượng và ngữ cảnh cụ thể tốt hơn nhiều. Trong trường hợp của chúng tôi, chúng tôi nhận thấy rằng lời nhắc không bắn bằng văn bản và lời nhắc trực quan (đầu vào điểm, hộp, điểm và hộp) không cải thiện đáng kể kết quả như chúng tôi đã thấy ở trên.

Mẫu nhắc nhở và chuỗi trực quan

Như chúng ta có thể thấy từ các ví dụ về điểm không bắn trước đó, SAM gặp khó khăn trong việc xác định tất cả các vật thể trong cảnh. Đây là một ví dụ điển hình về nơi chúng ta có thể tận dụng các mẫu lời nhắc và chuỗi hình ảnh. Chuỗi trực quan được lấy cảm hứng từ khái niệm chuỗi trong khung LangChain phổ biến cho các ứng dụng ngôn ngữ. Nó giúp xâu chuỗi các nguồn dữ liệu và LLM để tạo ra đầu ra. Ví dụ: chúng ta có thể sử dụng chuỗi API để gọi API và gọi LLM để trả lời câu hỏi dựa trên phản hồi của API.

Lấy cảm hứng từ LangChain, chúng tôi đề xuất một chuỗi hình ảnh tuần tự trông giống như hình dưới đây. Chúng tôi sử dụng một công cụ (như mô hình phát hiện đối tượng được đào tạo trước) để lấy các hộp giới hạn ban đầu, tính điểm ở giữa hộp giới hạn và sử dụng công cụ này để nhắc mô hình SAM bằng hình ảnh đầu vào.

Các mô hình tầm nhìn cơ bản và kỹ thuật nhắc nhở trực quan cho các ứng dụng lái xe tự động | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.

Ví dụ: hình ảnh sau đây hiển thị mặt nạ phân đoạn do chạy chuỗi này.

Các mô hình tầm nhìn cơ bản và kỹ thuật nhắc nhở trực quan cho các ứng dụng lái xe tự động | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.

Một chuỗi ví dụ khác có thể liên quan đến việc nhập văn bản của đối tượng mà người dùng muốn xác định. Để thực hiện điều này, chúng tôi đã xây dựng một quy trình sử dụng nối đất DINO, một mô hình phát hiện đối tượng để nhắc SAM phân đoạn.

Các mô hình tầm nhìn cơ bản và kỹ thuật nhắc nhở trực quan cho các ứng dụng lái xe tự động | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.

Grounding DINO là mô hình phát hiện đối tượng không cần bắn, có thể thực hiện phát hiện đối tượng bằng văn bản cung cấp tên danh mục (chẳng hạn như “đèn giao thông” hoặc “xe tải”) và các biểu thức (chẳng hạn như “xe tải màu vàng”). Nó chấp nhận các cặp văn bản và hình ảnh để thực hiện phát hiện đối tượng. Nó dựa trên kiến ​​trúc máy biến áp và cho phép kết hợp nhiều phương thức với dữ liệu văn bản và hình ảnh. Để tìm hiểu thêm về Nối đất DINO, hãy tham khảo DINO nối đất: Kết hợp DINO với đào tạo trước nối đất để phát hiện đối tượng trong bối cảnh mở. Điều này tạo ra các hộp và nhãn giới hạn, đồng thời có thể được xử lý thêm để tạo điểm trung tâm, bộ lọc dựa trên nhãn, ngưỡng, v.v. Điều này được sử dụng (hộp hoặc điểm) làm lời nhắc SAM phân đoạn, tạo ra mặt nạ.

Sau đây là một số ví dụ hiển thị văn bản đầu vào, đầu ra DINO (hộp giới hạn) và đầu ra SAM cuối cùng (mặt nạ phân đoạn).

Những hình ảnh sau đây cho thấy kết quả đầu ra của “xe tải màu vàng”.

Các mô hình tầm nhìn cơ bản và kỹ thuật nhắc nhở trực quan cho các ứng dụng lái xe tự động | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.

Những hình ảnh sau đây hiển thị kết quả đầu ra cho “xe bạc”.

Các mô hình tầm nhìn cơ bản và kỹ thuật nhắc nhở trực quan cho các ứng dụng lái xe tự động | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.

Hình ảnh sau đây hiển thị đầu ra cho “làn đường lái xe”.

Các mô hình tầm nhìn cơ bản và kỹ thuật nhắc nhở trực quan cho các ứng dụng lái xe tự động | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.

Chúng ta có thể sử dụng quy trình này để xây dựng chuỗi hình ảnh. Đoạn mã sau giải thích khái niệm này:

pipeline = [object_predictor, segment_predictor]
image_chain = ImageChain.from_visual_pipeline(pipeline, image_store, verbose=True)
image_chain.run('All silver cars', image_id='5X3349')

Mặc dù đây là một ví dụ đơn giản nhưng khái niệm này có thể được mở rộng để xử lý nguồn cấp dữ liệu từ camera trên xe nhằm thực hiện theo dõi đối tượng, biên tập dữ liệu thông tin nhận dạng cá nhân (PII), v.v. Chúng ta cũng có thể lấy các hộp giới hạn từ các mô hình nhỏ hơn hoặc trong một số trường hợp bằng cách sử dụng các công cụ thị giác máy tính tiêu chuẩn. Khá đơn giản khi sử dụng mô hình được đào tạo trước hoặc dịch vụ như Amazon Rekognition để nhận nhãn (trực quan) ban đầu cho lời nhắc của bạn. Tại thời điểm viết bài này, có hơn 70 mô hình có sẵn trên Amazon SageMaker Jumpstart để phát hiện đối tượng và Nhận thức lại Amazon đã xác định được một số loại đối tượng hữu ích trong hình ảnh, bao gồm ô tô, người đi bộ và các phương tiện khác.

Tiếp theo, chúng ta xem xét một số kết quả định lượng liên quan đến hiệu suất của các mô hình SAM với tập hợp con dữ liệu BDD100K.

Kết quả định lượng

Mục tiêu của chúng tôi là so sánh hiệu suất của ba mô hình được đào tạo trước khi được cung cấp cùng một lời nhắc trực quan. Trong trường hợp này, chúng tôi sử dụng điểm trung tâm của vị trí đối tượng làm đầu vào trực quan. Chúng tôi so sánh hiệu suất theo kích thước đối tượng (tỷ lệ với kích thước hình ảnh)— nhỏ (diện tích <0.11%), trung bình (0.11% < diện tích < 1%) và lớn (diện tích > 1%). Ngưỡng diện tích hộp giới hạn được xác định bởi Đối tượng chung trong ngữ cảnh (COCO) số liệu đánh giá [Lin và cộng sự, 2014].

Việc đánh giá ở cấp độ pixel và chúng tôi sử dụng các số liệu đánh giá sau:

  • Độ chính xác = (số phiên bản liên quan và được truy xuất) / (tổng số phiên bản được truy xuất)
  • Thu hồi = (số lượng phiên bản liên quan và truy xuất) / (tổng số phiên bản liên quan)
  • Các trường hợp ở đây là mỗi pixel trong hộp giới hạn của đối tượng quan tâm

Bảng sau đây báo cáo hiệu suất của ba phiên bản khác nhau của mô hình SAM (cơ bản, lớn và khổng lồ). Các phiên bản này có ba bộ mã hóa khác nhau: ViT-B (cơ sở), ViT-L (lớn), ViT-H (rất lớn). Các bộ mã hóa có số lượng tham số khác nhau, trong đó mô hình cơ sở có ít tham số hơn mô hình lớn và mô hình lớn nhỏ hơn mô hình lớn. Mặc dù việc tăng số lượng tham số cho thấy hiệu suất được cải thiện với các đối tượng lớn hơn, nhưng điều này không đúng đối với các đối tượng nhỏ hơn.

Các mô hình tầm nhìn cơ bản và kỹ thuật nhắc nhở trực quan cho các ứng dụng lái xe tự động | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.

Tinh chỉnh SAM cho trường hợp sử dụng của bạn

Trong nhiều trường hợp, việc sử dụng trực tiếp mô hình SAM được huấn luyện trước có thể không hữu ích lắm. Ví dụ: chúng ta hãy xem một cảnh điển hình về giao thông—hình ảnh sau đây là đầu ra từ mô hình SAM với các điểm nhắc được lấy mẫu ngẫu nhiên làm đầu vào ở bên trái và các nhãn thực tế từ nhiệm vụ phân đoạn ngữ nghĩa từ BDD100K ở bên phải. Đây rõ ràng là rất khác nhau.

Các mô hình tầm nhìn cơ bản và kỹ thuật nhắc nhở trực quan cho các ứng dụng lái xe tự động | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.

Ngăn xếp nhận thức trong AV có thể dễ dàng sử dụng hình ảnh thứ hai, nhưng không phải hình ảnh đầu tiên. Mặt khác, có thể sử dụng một số kết quả đầu ra hữu ích từ hình ảnh đầu tiên và mô hình đó chưa được đào tạo rõ ràng, chẳng hạn như vạch kẻ làn đường, phân đoạn vỉa hè, mặt nạ biển số xe, v.v. Chúng tôi có thể tinh chỉnh mô hình SAM để cải thiện kết quả phân khúc. Để thực hiện tinh chỉnh này, chúng tôi đã tạo tập dữ liệu huấn luyện bằng cách sử dụng tập hợp con phân đoạn phiên bản (500 hình ảnh) từ tập dữ liệu BDD10K. Đây là một tập hợp con hình ảnh rất nhỏ nhưng mục đích của chúng tôi là chứng minh rằng các mô hình thị giác cơ bản (giống như LLM) có thể hoạt động tốt cho trường hợp sử dụng của bạn với số lượng hình ảnh nhỏ đáng ngạc nhiên. Hình ảnh sau đây hiển thị hình ảnh đầu vào, mặt nạ đầu ra (màu xanh lam, có viền màu đỏ cho ô tô ở bên trái) và các lời nhắc có thể có (hộp giới hạn màu xanh lá cây và điểm trung tâm X màu vàng).

Các mô hình tầm nhìn cơ bản và kỹ thuật nhắc nhở trực quan cho các ứng dụng lái xe tự động | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.

Chúng tôi đã thực hiện tinh chỉnh bằng thư viện Ôm Mặt trên Xưởng sản xuất Amazon SageMaker. Chúng tôi đã sử dụng phiên bản ml.g4dn.xlarge cho các thử nghiệm mô hình cơ sở SAM và ml.g4dn.2xlarge cho các thử nghiệm mô hình lớn SAM. Trong các thử nghiệm ban đầu, chúng tôi nhận thấy rằng việc tinh chỉnh mô hình cơ sở chỉ bằng các hộp giới hạn là không thành công. Các mô hình đã được tinh chỉnh và đào tạo trước không thể tìm hiểu mặt nạ sự thật mặt đất dành riêng cho ô tô từ bộ dữ liệu ban đầu. Việc thêm các điểm truy vấn vào phần tinh chỉnh cũng không cải thiện được việc đào tạo.

Tiếp theo, chúng ta có thể thử tinh chỉnh mô hình khổng lồ SAM trong 30 kỷ nguyên, với tập dữ liệu rất nhỏ (500 hình ảnh). Mặt nạ sự thật mặt đất ban đầu trông giống như hình ảnh sau đây cho loại xe có nhãn.

Các mô hình tầm nhìn cơ bản và kỹ thuật nhắc nhở trực quan cho các ứng dụng lái xe tự động | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.

Như được hiển thị trong các hình ảnh sau đây, phiên bản được đào tạo trước ban đầu của mô hình khổng lồ với dấu nhắc hộp giới hạn cụ thể (màu xanh lá cây) không cung cấp đầu ra, trong khi phiên bản tinh chỉnh cung cấp đầu ra (vẫn không chính xác nhưng tinh chỉnh đã bị cắt tắt sau 40 kỷ nguyên và với tập dữ liệu huấn luyện rất nhỏ gồm 500 hình ảnh). Mô hình khổng lồ ban đầu được đào tạo trước không thể dự đoán mặt nạ cho bất kỳ hình ảnh nào mà chúng tôi đã thử nghiệm. Là một ví dụ về ứng dụng xuôi dòng, mô hình tinh chỉnh có thể được sử dụng trong các quy trình công việc gắn nhãn trước, chẳng hạn như quy trình được mô tả trong Mô-đun tự động gắn nhãn cho Hệ thống hỗ trợ trình điều khiển nâng cao dựa trên deep learning trên AWS.

Các mô hình tầm nhìn cơ bản và kỹ thuật nhắc nhở trực quan cho các ứng dụng lái xe tự động | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.

Kết luận

Trong bài đăng này, chúng tôi đã thảo luận về mô hình tầm nhìn nền tảng được gọi là Mô hình bất kỳ phân khúc nào (SAM) và kiến ​​trúc của nó. Chúng tôi đã sử dụng mô hình SAM để thảo luận về gợi ý trực quan và các đầu vào khác nhau cho kỹ thuật gợi ý trực quan. Chúng tôi đã khám phá cách thức hoạt động của các lời nhắc trực quan khác nhau và những hạn chế của chúng. Chúng tôi cũng đã mô tả cách chuỗi trực quan tăng hiệu suất bằng cách chỉ sử dụng một lời nhắc, tương tự như API LangChain. Tiếp theo, chúng tôi đưa ra đánh giá định lượng về ba mô hình được đào tạo trước. Cuối cùng, chúng tôi đã thảo luận về mô hình SAM đã được tinh chỉnh và kết quả của nó so với mô hình cơ sở ban đầu. Tinh chỉnh các mô hình nền tảng giúp cải thiện hiệu suất của mô hình cho các nhiệm vụ cụ thể như phân đoạn. Cần lưu ý rằng mô hình SAM do yêu cầu về tài nguyên nên hạn chế mức sử dụng cho các trường hợp sử dụng theo thời gian thực và suy luận ở biên trong trạng thái hiện tại. Chúng tôi hy vọng với những lần lặp lại trong tương lai và các kỹ thuật cải tiến, sẽ giảm yêu cầu tính toán và cải thiện độ trễ.

Chúng tôi hy vọng rằng bài đăng này sẽ khuyến khích bạn khám phá lời nhắc trực quan cho các trường hợp sử dụng của bạn. Bởi vì đây vẫn là một hình thức kỹ thuật nhắc nhở mới nổi nên có nhiều điều cần khám phá về các gợi ý trực quan, chuỗi trực quan và hiệu suất của các công cụ này. Amazon SageMaker là một nền tảng ML được quản lý hoàn toàn cho phép các nhà xây dựng khám phá các mô hình ngôn ngữ và hình ảnh lớn cũng như xây dựng các ứng dụng AI tổng quát. Hãy bắt đầu xây dựng tương lai với AWS ngay hôm nay.


Giới thiệu về tác giả

Các mô hình tầm nhìn cơ bản và kỹ thuật nhắc nhở trực quan cho các ứng dụng lái xe tự động | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.Gopi Krishnamurthy là Kiến trúc sư giải pháp AI/ML cấp cao tại Amazon Web Services có trụ sở tại Thành phố New York. Anh ấy làm việc với các khách hàng Ô tô lớn với tư cách là cố vấn đáng tin cậy của họ để chuyển đổi khối lượng công việc Học máy của họ và di chuyển sang đám mây. Mối quan tâm cốt lõi của anh ấy bao gồm công nghệ học sâu và không có máy chủ. Ngoài công việc, anh ấy thích dành thời gian cho gia đình và khám phá nhiều thể loại âm nhạc.

Các mô hình tầm nhìn cơ bản và kỹ thuật nhắc nhở trực quan cho các ứng dụng lái xe tự động | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.Shreyas Subramanian là Kiến trúc sư giải pháp chuyên gia AI/ML chính và trợ giúp khách hàng bằng cách sử dụng Machine Learning để giải quyết các thách thức kinh doanh của họ bằng nền tảng AWS. Shreyas có kiến ​​thức nền tảng về tối ưu hóa quy mô lớn và Học máy, đồng thời sử dụng Học máy và Học tăng cường để tăng tốc các nhiệm vụ tối ưu hóa.

 Các mô hình tầm nhìn cơ bản và kỹ thuật nhắc nhở trực quan cho các ứng dụng lái xe tự động | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.Sujitha Martin là Nhà khoa học ứng dụng tại Trung tâm đổi mới AI sáng tạo (GAIIC). Chuyên môn của cô là xây dựng các giải pháp máy học liên quan đến thị giác máy tính và xử lý ngôn ngữ tự nhiên cho các ngành dọc khác nhau. Đặc biệt, cô có nhiều kinh nghiệm làm việc về nhận thức tình huống lấy con người làm trung tâm và học tập truyền tải kiến ​​thức cho các hệ thống có tính tự chủ cao.

Các mô hình tầm nhìn cơ bản và kỹ thuật nhắc nhở trực quan cho các ứng dụng lái xe tự động | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.Francisco Calderón là Nhà khoa học dữ liệu tại Trung tâm đổi mới AI sáng tạo (GAIIC). Với tư cách là thành viên của GAIIC, anh giúp khách hàng AWS khám phá nghệ thuật có thể bằng cách sử dụng công nghệ Generative AI. Trong thời gian rảnh rỗi, Francisco thích chơi nhạc và ghi-ta, chơi bóng đá với các con gái và tận hưởng thời gian bên gia đình.

Dấu thời gian:

Thêm từ Học máy AWS