Использование Amazon SageMaker с облаками точек: часть 1. Основные факты для 3D-маркировки

Переиздано Платоном

Читают: 0

В этой серии из двух частей мы демонстрируем, как маркировать и обучать модели для задач обнаружения 3D-объектов. В части 1 мы обсуждаем набор данных, который мы используем, а также любые шаги предварительной обработки для понимания и маркировки данных. Во второй части мы рассмотрим, как обучить модель на вашем наборе данных и развернуть ее в рабочей среде.

LiDAR (световое обнаружение и определение дальности) — это метод определения дальности путем наведения лазера на объект или поверхность и измерения времени, за которое отраженный свет возвращается к приемнику. Автономные транспортные компании обычно используют датчики LiDAR для получения трехмерного представления об окружающей среде вокруг своих автомобилей.

По мере того, как датчики LiDAR становятся более доступными и экономичными, клиенты все чаще используют данные облака точек в новых областях, таких как робототехника, картографирование сигналов и дополненная реальность. Некоторые новые мобильные устройства даже включают датчики LiDAR. Растущая доступность датчиков LiDAR повысила интерес к данным облака точек для задач машинного обучения (ML), таких как обнаружение и отслеживание 3D-объектов, 3D-сегментация, синтез и реконструкция 3D-объектов, а также использование 3D-данных для проверки 2D-оценки глубины.

В этой серии мы покажем вам, как обучить модель обнаружения объектов, работающую на данных облака точек, для прогнозирования местоположения транспортных средств в 3D-сцене. В этом посте мы уделяем особое внимание маркировке данных LiDAR. Выход стандартного датчика LiDAR представляет собой последовательность кадров трехмерного облака точек с типичной скоростью захвата 3 кадров в секунду. Чтобы пометить этот выход датчика, вам нужен инструмент для маркировки, который может обрабатывать 10D-данные. Amazon SageMaker - основа правды упрощает маркировку объектов в одном 3D-кадре или в последовательности 3D-кадров облака точек для создания наборов обучающих данных машинного обучения. Ground Truth также поддерживает слияние датчиков с камеры и данных LiDAR, используя до восьми входов для видеокамер.

Данные необходимы для любого проекта машинного обучения. В частности, 3D-данные могут быть трудными для получения, визуализации и маркировки. Мы используем Набор данных A2D2 в этом посте и проведу вас через шаги, чтобы визуализировать и пометить его.

A2D2 содержит 40,000 12,499 кадров с семантической сегментацией и метками облака точек, в том числе 3 12,499 кадров с метками ограничивающих 3D-рамок. Поскольку мы сосредоточены на обнаружении объектов, нас интересуют 14 XNUMX кадров с метками ограничительной XNUMXD-рамки. Эти аннотации включают XNUMX классов, относящихся к вождению, таких как автомобиль, пешеход, грузовик, автобус и т. д.

В следующей таблице показан полный список классов:

Индекс	Список классов
1	животное
2	велосипед
3	автобус
4	автомобиль
5	караванный транспортер
6	велосипедист
7	аварийный автомобиль
8	мотоциклист
9	мотоцикл
10	пешеход
11	трейлер
12	грузовик
13	внедорожник
14	фургон/внедорожник

Мы обучим наш детектор специально обнаруживать автомобили, поскольку это наиболее распространенный класс в нашем наборе данных (32616 из 42816 объектов в наборе данных помечены как автомобили).

Обзор решения

В этой серии мы расскажем, как визуализировать и пометить данные с помощью Amazon SageMaker Ground Truth, а также продемонстрируем, как использовать эти данные в учебном задании Amazon SageMaker для создания модели обнаружения объектов, развернутой на конечной точке Amazon SageMaker. В частности, мы будем использовать блокнот Amazon SageMaker для управления решением и запуска любых заданий по маркировке или обучению.

На следующей диаграмме показан общий поток данных датчика от маркировки до обучения и развертывания:

Архитектура

Вы узнаете, как обучать и развертывать модель обнаружения 3D-объектов в реальном времени с помощью Создатель мудреца Амазонки Ground Truth со следующими шагами:

Загрузите и визуализируйте набор данных облака точек
Подготовьте данные для маркировки Инструмент облака точек Amazon SageMaker Ground Truth
Запустите распределенное задание обучения Amazon SageMaker Ground Truth с ММдетектион3D
Оценивайте результаты своей учебной работы и профилируйте использование ресурсов с помощью Amazon SageMaker Отладчик
Разверните асинхронный Конечная точка SageMaker
Вызов конечной точки и визуализация прогнозов 3D-объектов

Сервисы AWS, используемые для реализации этого решения

Предпосылки

На следующей диаграмме показано, как создать частную рабочую силу. Письменные пошаговые инструкции см. Создайте рабочую силу Amazon Cognito с помощью страницы Labeling Workforces.

Использование Amazon SageMaker с облаками точек: Часть 1. Основы 3D-маркировки PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Запуск стека AWS CloudFormation

Теперь, когда вы ознакомились со структурой решения, вы можете развернуть его в своей учетной записи, чтобы запустить пример рабочего процесса. Все этапы развертывания, связанные с конвейером маркировки, управляются AWS CloudFormation. Это означает, что AWS Cloudformation создает экземпляр вашего ноутбука, а также любые роли или корзины Amazon S3 для поддержки запуска решения.

Вы можете запустить стек в AWS Region us-east-1 на консоли AWS CloudFormation с помощью Стек запуска
кнопка. Чтобы запустить стек в другом регионе, используйте инструкции в файле README. Репозиторий GitHub.

Создать стек

Создание всех ресурсов занимает примерно 20 минут. Вы можете отслеживать ход выполнения в пользовательском интерфейсе (UI) AWS CloudFormation.

Когда ваш шаблон CloudFormation будет готов, вернитесь в консоль AWS.

Открытие блокнота

Экземпляры Amazon SageMaker Notebook — это вычислительные инстансы машинного обучения, работающие в приложении Jupyter Notebook. Amazon SageMaker управляет созданием экземпляров и связанных ресурсов. Используйте записные книжки Jupyter в своем экземпляре записной книжки для подготовки и обработки данных, написания кода для обучения моделей, развертывания моделей на хостинге Amazon SageMaker, а также тестирования или проверки ваших моделей.

Выполните следующие действия, чтобы получить доступ к среде Amazon SageMaker Notebook:

В разделе услуги ищите Создатель мудреца Амазонки.
Под ноутбук, наведите на Экземпляры ноутбуков.
Должен быть подготовлен экземпляр Notebook. Выберите Открыть ЮпитерЛаб, который находится справа от предварительно подготовленного экземпляра Notebook в разделе Действия.
При загрузке страницы вы увидите такой значок:
Вы будете перенаправлены на новую вкладку браузера, которая выглядит следующим образом:
Как только вы войдете в пользовательский интерфейс средства запуска экземпляров блокнота Amazon SageMaker. На левой боковой панели выберите идти значок, как показано на следующей диаграмме.
Выберите Клонировать репозиторий опцию.
Введите URL-адрес GitHub (https://github.com/aws-samples/end-2-end-3d-ml) во всплывающем окне и выберите клонировать.
Выберите File Browser чтобы увидеть папку GitHub.
Откройте блокнот под названием 1_visualization.ipynb.

Работа с ноутбуком

Обзор

Первые несколько ячеек блокнота в разделе под названием Загруженные файлы рассказывается, как загрузить набор данных и проверить файлы в нем. После выполнения ячеек для завершения загрузки данных требуется несколько минут.

После загрузки вы можете просмотреть файловую структуру A2D2, которая представляет собой список сцен или дисков. Сцена — это короткая запись данных датчиков нашего автомобиля. A2D2 предоставляет нам для тренировки 18 таких сцен, каждая из которых идентифицируется уникальными датами. Каждая сцена содержит данные 2D-камеры, 2D-метки, аннотации 3D-прямоугольника и 3D-облака точек.

Вы можете просмотреть файловую структуру для набора данных A2D2 следующим образом:

├── 20180807_145028
├── 20180810_142822
│   ├── camera
│   │   ├── cam_front_center
│   │   │   ├── 20180807145028_lidar_frontcenter_000000091.png
│   │   │   ├── 20180807145028_lidar_frontcenter_000000091.json
│   │   │   ├── 20180807145028_lidar_frontcenter_000000380.png
│   │   │   ├── 20180807145028_lidar_frontcenter_000000380.json
│   │   │   ├── ...
│   ├── label
│   │   ├── cam_front_center
│   │   │   ├── 20180807145028_lidar_frontcenter_000000091.png
│   │   │   ├── 20180807145028_lidar_frontcenter_000000380.png
│   │   │   ├── ...
│   ├── label3D
│   │   ├── cam_front_center
│   │   │   ├── 20180807145028_lidar_frontcenter_000000091.json
│   │   │   ├── 20180807145028_lidar_frontcenter_000000380.json
│   │   │   ├── ...
│   ├── lidar
│   │   ├── cam_front_center
│   │   │   ├── 20180807145028_lidar_frontcenter_000000091.npz
│   │   │   ├── 20180807145028_lidar_frontcenter_000000380.npz
│   │   │   ├── ...

Настройка датчика A2D2

В следующем разделе рассматривается чтение некоторых данных этого облака точек, чтобы убедиться, что мы правильно интерпретируем их и можем визуализировать их в блокноте, прежде чем пытаться преобразовать их в формат, готовый для маркировки данных.

Для любого вида автономного вождения, где у нас есть данные датчиков 2D и 3D, сбор данных калибровки датчиков имеет важное значение. В дополнение к необработанным данным мы также загрузили cams_lidar.json. Этот файл содержит перевод и ориентацию каждого датчика относительно системы координат транспортного средства, это также может называться позицией датчика или положением в пространстве. Это важно для преобразования точек из системы координат датчика в систему координат автомобиля. Другими словами, это важно для визуализации 2D- и 3D-датчиков во время движения автомобиля. Система координат транспортного средства определяется как статическая точка в центре транспортного средства, с осью x в направлении движения транспортного средства вперед, осью y обозначает левое и правое, где левое положительное значение, а ось z- ось, направленная через крышу автомобиля. Точка (X,Y,Z) из (5,2,1) означает, что эта точка находится на 5 метров впереди нашего автомобиля, на 2 метра левее и на 1 метр выше нашего автомобиля. Наличие этих калибровок также позволяет нам проецировать 3D-точки на наше 2D-изображение, что особенно полезно для задач маркировки облаков точек.

Чтобы увидеть настройку датчика на транспортном средстве, проверьте следующую схему.

Данные облака точек, на которых мы тренируемся, специально выровнены с фронтальной камерой или камерой спереди по центру:
Автомобильные датчики-камеры

Это соответствует нашей визуализации датчиков камеры в 3D:
Сенсорная визуализация

В этой части записной книжки проверяется, соответствует ли набор данных A2D2 нашим ожиданиям относительно положения датчиков и что мы можем сопоставить данные с датчиков облака точек с кадром камеры. Не стесняйтесь запускать все ячейки через одну под названием Проекция из 3D в 2D чтобы увидеть наложение данных облака точек на следующее изображение с камеры.
Изображение камеры

Преобразование в Amazon SageMaker Ground Truth

SMGT-камера

После визуализации наших данных в нашей записной книжке мы можем с уверенностью преобразовать наши облака точек в Amazon. 3D-формат SageMaker Ground Truth для проверки и корректировки наших ярлыков. В этом разделе рассматривается преобразование формата данных A2D2 в формат данных Amazon. Файл последовательности SageMaker Ground Truth, с форматом ввода, используемым модальностью отслеживания объектов.

Формат файла последовательности включает в себя форматы облаков точек, изображения, связанные с каждым облаком точек, и все данные о положении и ориентации датчика, необходимые для совмещения изображений с облаками точек. Эти преобразования выполняются с использованием информации датчика, считанной из предыдущего раздела. Следующий пример представляет собой формат файла последовательности из Amazon SageMaker Ground Truth, который описывает последовательность только с одним временным шагом.

Облако точек для этого временного шага расположено в s3://sagemaker-us-east-1-322552456788/a2d2_smgt/20180807_145028_out/20180807145028_lidar_frontcenter_000000091.txt и имеет формат <x coordinate> <y coordinate> <z coordinate>.

С облаком точек связано изображение с одной камеры, расположенное в s3://sagemaker-us-east-1-322552456788/a2d2_smgt/20180807_145028_out/undistort_20180807145028_camera_frontcenter_000000091.png. Обратите внимание, что мы берем файл последовательности, который определяет все параметры камеры, чтобы обеспечить проекцию из облака точек на камеру и обратно.

 { "seq-no": 1, "prefix": "s3://sagemaker-us-east-1-322552456788/a2d2_smgt/20180807_145028_out/", "number-of-frames": 1, "frames": [ { "frame-no": 0, "unix-timestamp": 0.091, "frame": "20180807145028_lidar_frontcenter_000000091.txt", "format": "text/xyz", "ego-vehicle-pose": { "position": { "x": 0, "y": 0, "z": 0}, "heading": { "qw": 1, "qx": 0, "qy": 0, "qz": 0}}, "images": [ { "image-path": "undistort_20180807145028_camera_frontcenter_000000091.png", "unix-timestamp": 0.091, "fx": 1687.3369140625, "fy": 1783.428466796875, "cx": 965.4341405582381, "cy": 684.4193604186803, "position": { "x": 1.711045726422736, "y": -5.735179668849011e-09, "z": 0.9431449279047172}, "heading": { "qw": -0.4981871970275329, "qx": 0.5123971466375787, "qy": -0.4897950939891415, "qz": 0.4993590359047143}, "camera-model": "pinhole"}]}, } ]
}

Преобразование в этот формат ввода требует, чтобы мы написали преобразование из формата данных A2D2 в форматы данных, поддерживаемые Amazon SageMaker Ground Truth. Это тот же процесс, который должен пройти каждый, когда приносит свои данные для маркировки. Мы шаг за шагом рассмотрим, как работает это преобразование. Если вы будете следовать в блокноте, посмотрите на функцию с именем a2d2_scene_to_smgt_sequence_and_seq_label.

Преобразование облака точек

Первым шагом является преобразование данных из сжатого файла в формате Numpy (NPZ), который был сгенерирован с помощью numpy.знать метод, чтобы принятый необработанный формат 3D для Amazon SageMaker Ground Truth. В частности, мы создаем файл с одной строкой на точку. Каждая трехмерная точка определяется тремя координатами X, Y и Z с плавающей запятой. Когда мы указываем наш формат в файле последовательности, мы используем строку text/xyz для представления этого формата. Amazon SageMaker Ground Truth также поддерживает добавление значений интенсивности или точек Red Green Blue (RGB).

Файлы NPZ A2D2 содержат несколько массивов Numpy, каждый со своим именем. Чтобы выполнить преобразование, мы загружаем файл NPZ с помощью Numpy. загрузка метод, получить доступ к массиву с именем пунктов (т. е. массив Nx3, где N — количество точек в облаке точек) и сохранить как текст в новый файл с помощью Numpy. сохранить метод.

# input.npz is an A2D2 PointCloud file
lidar_frame_contents = np.load("a2d2_input.npz")
points = lidar_frame_contents["points"]
# output.txt is a text/xyz formatted SMGT file
np.savetxt("output.txt", points)

Предварительная обработка изображений

Далее мы подготавливаем наши файлы изображений. A2D2 предоставляет изображения PNG, а Amazon SageMaker Ground Truth поддерживает изображения PNG; однако эти изображения искажены. Искажение часто возникает из-за того, что объектив, принимающий изображение, не выровнен параллельно плоскости изображения, из-за чего некоторые области изображения выглядят ближе, чем ожидалось. Это искажение описывает разницу между физической камерой и идеализированная модель камеры-обскуры. Если не учитывать искажения, то Amazon SageMaker Ground Truth не сможет визуализировать наши 3D-точки поверх изображений с камеры, что усложняет выполнение маркировки. Учебное пособие по калибровке камеры см. в этой документации от OpenCV.

Хотя Amazon SageMaker Ground Truth поддерживает коэффициенты искажения во входном файле, вы также можете выполнять предварительную обработку перед заданием маркировки. Поскольку A2D2 предоставляет вспомогательный код для устранения искажений, мы применяем его к изображению и оставляем поля, связанные с искажением, вне нашего файла последовательности. Обратите внимание, что поля, связанные с искажением, включают k1, k2, k3, k4, p1, p2 и перекос.

from a2d2_helpers import undistort_image
# distorted_input.png comes from the A2D2 dataset
image_frame = cv2.imread("distorted_input.png")
# we undistort the front_center camera, and pass the cams_lidars dictionary
# which contains all camera distortion coefficients.
undistorted_image = undistort_image(image_frame, "front_center", cams_lidars)
# undistorted_output.png goes into SMGT's output path
cv2.imwrite("undistorted_output.png", undistorted_image)

Положение камеры, ориентация и преобразование проекции

Помимо файлов необработанных данных, необходимых для маркировки, файлу последовательности также требуется информация о положении и ориентации камеры для выполнения проецирования 3D-точек в 2D-виды камеры. Нам нужно знать, куда смотрит камера в 3D-пространстве, чтобы выяснить, как 3D-кубовидные метки и 3D-точки должны отображаться поверх наших изображений.

Поскольку мы загрузили позиции наших датчиков в общий диспетчер преобразований в разделе настройки датчиков A2D2, мы можем легко запросить у диспетчера преобразований нужную нам информацию. В нашем случае мы рассматриваем положение автомобиля как (0, 0, 0) в каждом кадре, потому что у нас нет информации о положении датчика, предоставляемой набором данных обнаружения объектов A2D2. Таким образом, относительно нашего автомобиля ориентация и положение камеры описываются следующим кодом:

# The format of pq = [x, y, z, qw, qx, qy, qz] where (x, y, z) refer to object
# position while the remaining (qw, qx, qy, qz) correspond to camera orientation.
pq = transform_manager.get_transform("cam_front_center_ext", "vehicle")
# pq can then be extracted into SMGT's sequence file format as below:
{
... "position": {"x": pq[0],"y": pq[1],"z": pq[2]}, "heading": {"qw": pq[3],"qx": pq[4],"qy": pq[5],"qz": pq[6],}
}

Теперь, когда положение и ориентация преобразованы, нам также необходимо указать значения для fx, fy, cx и cy, всех параметров для каждой камеры в формате файла последовательности.

Эти параметры относятся к значениям в матрице камеры. В то время как положение и ориентация описывают, в какую сторону смотрит камера, матрица камеры описывает поле зрения камеры и то, как именно 3D-точка относительно камеры преобразуется в местоположение 2D-пикселя на изображении.

A2D2 обеспечивает матрицу камеры. Матрица эталонной камеры показана в следующем коде вместе с тем, как наша записная книжка индексирует эту матрицу для получения соответствующих полей.

# [[fx,  0, cx]
#  [ 0, fy, cy]
#  [ 0,  0,  1]]
{
... "fx": camera_matrix[0, 0], "fy": camera_matrix[1, 1], "cx": camera_matrix[0, 2], "cy": camera_matrix[1, 2]
}

Со всеми полями, проанализированными из формата A2D2, мы можем сохранить файл последовательности и использовать его в Amazon. Входной файл манифеста SageMaker Ground Truth чтобы начать работу по маркировке. Это задание по маркировке позволяет нам создавать метки ограничивающих 3D-рамок, чтобы использовать их для обучения 3D-моделей.

Запустите все ячейки до конца записной книжки и убедитесь, что вы заменили workteam ARN с Amazon SageMaker Ground Truth workteam ARN вы создали необходимое условие. Примерно через 10 минут после маркировки времени создания задания вы сможете войти на рабочий портал и использовать маркировка пользовательского интерфейса визуализировать вашу сцену.

Убирать

Удалите стек AWS CloudFormation, который вы развернули с помощью Стек запуска кнопка с именем ThreeD в консоли AWS CloudFormation, чтобы удалить все ресурсы, используемые в этом посте, включая все запущенные экземпляры.

Ориентировочная стоимость

Ориентировочная стоимость 5$ за 2 часа.

Заключение

В этом посте мы продемонстрировали, как брать 3D-данные и преобразовывать их в форму, готовую для маркировки в Amazon SageMaker Ground Truth. С помощью этих шагов вы можете маркировать свои собственные 3D-данные для обучения моделей обнаружения объектов. В следующем посте этой серии мы покажем вам, как взять A2D2 и обучить модель детектора объектов на метках, уже имеющихся в наборе данных.

Счастливого строительства!

Об авторах

Исаак Привитера является старшим специалистом по данным в Лаборатория решений для машинного обучения Amazon, где он разрабатывает индивидуальные решения для машинного обучения и глубокого обучения для решения бизнес-задач клиентов. Он работает в основном в области компьютерного зрения, уделяя особое внимание предоставлению клиентам AWS распределенного обучения и активного обучения.

Видья Сагар Равипати является менеджером в Лаборатория решений для машинного обучения Amazon, где он использует свой обширный опыт работы с крупномасштабными распределенными системами и свою страсть к машинному обучению, чтобы помочь клиентам AWS из различных отраслевых вертикалей ускорить внедрение ИИ и облачных технологий. Ранее он был инженером по машинному обучению в службах подключения в Amazon, который помогал создавать платформы персонализации и профилактического обслуживания.

Джереми Фелтракко является инженером-разработчиком программного обеспечения в компании Лаборатория решений для машинного обучения Amazon в Amazon Web Services. Он использует свой опыт в области компьютерного зрения, робототехники и машинного обучения, чтобы помочь клиентам AWS ускорить внедрение ИИ.

SEO-контент и PR-распределение. Получите усиление сегодня.
Платоблокчейн. Интеллект метавселенной Web3. Расширение знаний. Доступ здесь.
Источник: https://aws.amazon.com/blogs/machine-learning/using-amazon-sagemaker-with-point-clouds-part-1-ground-truth-for-3d-labeling/

Отметка времени: 10 марта 2023

Отметка времени: Август 22, 2023

Переиздано Платоном

Сокращение энергопотребления рабочих нагрузок машинного обучения до 90 % с помощью специально разработанных ускорителей AWS | Веб-сервисы Амазонки

Amazon Comprehend Targeted Sentiment добавляет синхронную поддержку

Повысьте эффективность проверки и утверждения кода с помощью генеративного искусственного интеллекта с помощью Amazon Bedrock | Веб-сервисы Amazon

О Нас

Вертикальный поиск и AI

Платформа

Оставайтесь на связи

Учетная запись