Получите больший контроль над рабочими нагрузками Amazon SageMaker Data Wrangler с помощью параметризованных наборов данных и запланированных заданий PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Получите больший контроль над рабочими нагрузками Amazon SageMaker Data Wrangler с помощью параметризованных наборов данных и запланированных заданий

Данные трансформируют каждую область и каждый бизнес. Однако, учитывая, что данные растут быстрее, чем большинство компаний могут их отслеживать, сбор данных и извлечение из них полезной информации становится сложной задачей. А современная стратегия данных может помочь вам добиться лучших бизнес-результатов с помощью данных. AWS предоставляет наиболее полный набор сервисов для сквозной путь передачи данных , чтобы помочь вам разблокировать ценность ваших данных и превратить его в понимание.

Специалисты по данным могут тратить до 80 % своего времени на подготовку данных для проектов машинного обучения (ML). Этот процесс подготовки в значительной степени представляет собой однообразную и утомительную работу и может включать в себя несколько программных API и пользовательских библиотек. Обработчик данных Amazon SageMaker помогает специалистам по данным и инженерам данных упростить и ускорить подготовку табличных данных и данных временных рядов, а также разработку функций с помощью визуального интерфейса. Вы можете импортировать данные из нескольких источников данных, таких как Простой сервис хранения Amazon (Амазон С3), Амазонка Афина, Амазонка Redshiftили даже сторонние решения, такие как Снежинка or DataBricks, и обрабатывайте свои данные с помощью более 300 встроенных преобразований данных и библиотеки фрагментов кода, чтобы вы могли быстро нормализовать, преобразовывать и комбинировать функции без написания кода. Вы также можете использовать собственные преобразования в PySpark, SQL или Pandas.

В этом посте показано, как можно запланировать автоматический запуск заданий по подготовке данных. Мы также изучаем новую возможность Data Wrangler для параметризованных наборов данных, которая позволяет указывать файлы для включения в поток данных с помощью параметризованных URI.

Обзор решения

Data Wrangler теперь поддерживает импорт данных с использованием параметризованного URI. Это обеспечивает дополнительную гибкость, поскольку теперь вы можете импортировать все наборы данных, соответствующие указанным параметрам, которые могут иметь тип String, Number, Datetime и Pattern, в URI. Кроме того, теперь вы можете запускать задания преобразования Data Wrangler по расписанию.

В этом посте мы создаем пример потока с набором данных Titanic, чтобы показать, как вы можете начать экспериментировать с этими двумя новыми функциями Data Wrangler. Чтобы загрузить набор данных, см. «Титаник» — машинное обучение на основе катастроф.

Предпосылки

Чтобы получить все функции, описанные в этом посте, вам необходимо использовать последнюю версию ядра Data Wrangler. Для получения дополнительной информации см. Обновление обработчика данных. Кроме того, вам нужно запустить Студия Amazon SageMaker JupyterLab 3. Чтобы просмотреть текущую версию и обновить ее, см. Версии JupyterLab.

Файловая структура

Для этой демонстрации мы используем простую файловую структуру, которую вы должны реплицировать, чтобы воспроизвести шаги, описанные в этом посте.

  1. В студии, создать новый блокнот.
  2. Запустите следующий фрагмент кода, чтобы создать структуру папок, которую мы используем (убедитесь, что вы находитесь в нужной папке в дереве файлов):
    !mkdir titanic_dataset
    !mkdir titanic_dataset/datetime_data
    !mkdir titanic_dataset/datetime_data/2021
    !mkdir titanic_dataset/datetime_data/2022
    
    !mkdir titanic_dataset/datetime_data/2021/01 titanic_dataset/datetime_data/2021/02 titanic_dataset/datetime_data/2021/03 
    !mkdir titanic_dataset/datetime_data/2021/04 titanic_dataset/datetime_data/2021/05 titanic_dataset/datetime_data/2021/06
    !mkdir titanic_dataset/datetime_data/2022/01 titanic_dataset/datetime_data/2022/02 titanic_dataset/datetime_data/2022/03 
    !mkdir titanic_dataset/datetime_data/2022/04 titanic_dataset/datetime_data/2022/05 titanic_dataset/datetime_data/2022/06
    
    !mkdir titanic_dataset/datetime_data/2021/01/01 titanic_dataset/datetime_data/2021/02/01 titanic_dataset/datetime_data/2021/03/01 
    !mkdir titanic_dataset/datetime_data/2021/04/01 titanic_dataset/datetime_data/2021/05/01 titanic_dataset/datetime_data/2021/06/01
    !mkdir titanic_dataset/datetime_data/2022/01/01 titanic_dataset/datetime_data/2022/02/01 titanic_dataset/datetime_data/2022/03/01 
    !mkdir titanic_dataset/datetime_data/2022/04/01 titanic_dataset/datetime_data/2022/05/01 titanic_dataset/datetime_data/2022/06/01
    
    !mkdir titanic_dataset/train_1 titanic_dataset/train_2 titanic_dataset/train_3 titanic_dataset/train_4 titanic_dataset/train_5
    !mkdir titanic_dataset/train titanic_dataset/test

  3. Скопируйте train.csv и test.csv файлы из исходного набора данных Титаника в папки titanic_dataset/train и titanic_dataset/test, Соответственно.
  4. Запустите следующий фрагмент кода, чтобы заполнить папки необходимыми файлами:
    import os
    import math
    import pandas as pd
    batch_size = 100
    
    #Get a list of all the leaf nodes in the folder structure
    leaf_nodes = []
    
    for root, dirs, files in os.walk('titanic_dataset'):
        if not dirs:
            if root != "titanic_dataset/test" and root != "titanic_dataset/train":
                leaf_nodes.append(root)
                
    titanic_df = pd.read_csv('titanic_dataset/train/train.csv')
    
    #Create the mini batch files
    for i in range(math.ceil(titanic_df.shape[0]/batch_size)):
        batch_df = titanic_df[i*batch_size:(i+1)*batch_size]
        
        #Place a copy of each mini batch in each one of the leaf folders
        for node in leaf_nodes:
            batch_df.to_csv(node+'/part_{}.csv'.format(i), index=False)

Мы разделили train.csv файл набора данных Титаника на девять разных файлов, названных part_x, где х - номер детали. Часть 0 содержит первые 100 записей, часть 1 — следующие 100 и так далее до части 8. Каждая папка узла дерева файлов содержит копию девяти частей обучающих данных, за исключением train и test папки, которые содержат train.csv и test.csv.

Параметризованные наборы данных

Пользователи Data Wrangler теперь могут указывать параметры для наборов данных, импортированных из Amazon S3. Параметры набора данных указываются в URI ресурса, и его значение может быть изменено динамически, что обеспечивает большую гибкость при выборе файлов, которые мы хотим импортировать. Параметры могут быть четырех типов данных:

  • Номер регистрации - Может принимать значение любого целого числа
  • строка - Может принимать значение любой текстовой строки
  • шаблон - Может принимать значение любого регулярного выражения
  • Datetime – Может принимать значение любого из поддерживаемых форматов даты/времени.

В этом разделе мы представляем пошаговое руководство по этой новой функции. Это доступно только после импорта набора данных в текущий поток и только для наборов данных, импортированных из Amazon S3.

  1. В потоке данных выберите знак плюс (+) рядом с шагом импорта и выберите Изменить набор данных.
  2. Предпочтительный (и самый простой) способ создания новых параметров — выделение раздела вашего URI и выбор Создать специальный параметр в раскрывающемся меню. Вам нужно указать четыре вещи для каждого параметра, который вы хотите создать:
    1. Фамилия
    2. Тип
    3. Значение по умолчанию
    4. Описание

    Получите больший контроль над рабочими нагрузками Amazon SageMaker Data Wrangler с помощью параметризованных наборов данных и запланированных заданий PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
    Здесь мы создали параметр типа String с именем filename_param со значением по умолчанию train.csv. Теперь вы можете видеть имя параметра, заключенное в двойные скобки, заменяя часть URI, которую мы ранее выделили. Поскольку определенное значение для этого параметра было train.csv, теперь мы видим файл train.csv перечислены в таблице импорта.
    Получите больший контроль над рабочими нагрузками Amazon SageMaker Data Wrangler с помощью параметризованных наборов данных и запланированных заданий PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

  3. Когда мы пытаемся создать задание преобразования, на Настроить задание шаг, теперь мы видим параметры раздел, где мы можем увидеть список всех наших определенных параметров.
  4. Выбор параметра дает нам возможность изменить значение параметра, в данном случае изменив набор входных данных для преобразования в соответствии с определенным потоком.
    Предположим, что мы изменили значение filename_param от train.csv в part_0.csv, задание преобразования теперь занимает part_0.csv (при условии, что файл с именем part_0.csv находится в той же папке), что и его новые входные данные.
    Получите больший контроль над рабочими нагрузками Amazon SageMaker Data Wrangler с помощью параметризованных наборов данных и запланированных заданий PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
  5. Кроме того, если вы попытаетесь экспортировать свой поток в пункт назначения Amazon S3 (через блокнот Jupyter), вы увидите новую ячейку, содержащую определенные вами параметры.
    Обратите внимание, что параметр принимает значение по умолчанию, но вы можете изменить его, заменив его значение в parameter_overrides словарь (при этом ключи словаря оставляем без изменений).
    Получите больший контроль над рабочими нагрузками Amazon SageMaker Data Wrangler с помощью параметризованных наборов данных и запланированных заданий PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
    Кроме того, вы можете создавать новые параметры из параметры UI.
  6. Откройте его, выбрав значок параметров ({{}}) находится рядом с Go вариант; оба они расположены рядом со значением пути URI.
    Получите больший контроль над рабочими нагрузками Amazon SageMaker Data Wrangler с помощью параметризованных наборов данных и запланированных заданий PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.Откроется таблица со всеми параметрами, которые в настоящее время существуют в вашем файле потока (filename_param в этот момент).
  7. Вы можете создать новые параметры для своего потока, выбрав Создать параметр.
    Получите больший контроль над рабочими нагрузками Amazon SageMaker Data Wrangler с помощью параметризованных наборов данных и запланированных заданий PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
    Откроется всплывающее окно, в котором можно создать новый настраиваемый параметр.
  8. Здесь мы создали новый example_parameter как числовой тип со значением по умолчанию 0. Этот вновь созданный параметр теперь указан в параметры стол. При наведении курсора на параметр отображаются параметры Редактировать, Удалитьи Вставить.Получите больший контроль над рабочими нагрузками Amazon SageMaker Data Wrangler с помощью параметризованных наборов данных и запланированных заданий PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
  9. Изнутри параметры пользовательского интерфейса, вы можете вставить один из ваших параметров в URI, выбрав нужный параметр и выбрав Вставить.
    Это добавит параметр в конец вашего URI. Вам нужно переместить его в нужный раздел вашего URI.
    Получите больший контроль над рабочими нагрузками Amazon SageMaker Data Wrangler с помощью параметризованных наборов данных и запланированных заданий PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
  10. Измените значение параметра по умолчанию, примените изменение (из модального), выберите Goи выберите значок обновления, чтобы обновить список предварительного просмотра, используя выбранный набор данных на основе вновь определенного значения параметра.Получите больший контроль над рабочими нагрузками Amazon SageMaker Data Wrangler с помощью параметризованных наборов данных и запланированных заданий PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.Давайте теперь рассмотрим другие типы параметров. Предположим, теперь у нас есть набор данных, разделенный на несколько частей, где каждый файл имеет номер части.
  11. Если мы хотим динамически изменять номер файла, мы можем определить параметр Number, как показано на следующем снимке экрана.Получите больший контроль над рабочими нагрузками Amazon SageMaker Data Wrangler с помощью параметризованных наборов данных и запланированных заданий PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.Обратите внимание, что выбран файл, который соответствует номеру, указанному в параметре.
    Получите больший контроль над рабочими нагрузками Amazon SageMaker Data Wrangler с помощью параметризованных наборов данных и запланированных заданий PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.Теперь давайте продемонстрируем, как использовать параметр Pattern. Предположим, мы хотим импортировать все part_1.csv файлы во всех папках под titanic-dataset/ папка. Параметры шаблона могут принимать любое допустимое регулярное выражение; в качестве примеров показаны некоторые шаблоны регулярных выражений.
  12. Создайте параметр шаблона с именем any_pattern чтобы соответствовать любой папке или файлу в titanic-dataset/ папка со значением по умолчанию .*.Обратите внимание, что подстановочный знак — это не одна * (звездочка), а точка.
  13. Выделить titanic-dataset/ часть пути и создайте настраиваемый параметр. На этот раз мы выбираем шаблон тип.Получите больший контроль над рабочими нагрузками Amazon SageMaker Data Wrangler с помощью параметризованных наборов данных и запланированных заданий PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.Этот шаблон выбирает все файлы с именем part-1.csv из любой из папок в titanic-dataset/.
    Получите больший контроль над рабочими нагрузками Amazon SageMaker Data Wrangler с помощью параметризованных наборов данных и запланированных заданий PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.Параметр может использоваться более одного раза в пути. В следующем примере мы используем наш вновь созданный параметр any_pattern дважды в нашем URI, чтобы соответствовать любому файлу детали в любой из папок в titanic-dataset/.
    Получите больший контроль над рабочими нагрузками Amazon SageMaker Data Wrangler с помощью параметризованных наборов данных и запланированных заданий PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.Наконец, давайте создадим параметр Datetime. Параметры даты и времени полезны, когда мы имеем дело с путями, разделенными по дате и времени, например, сгенерированными Пожарный шланг данных Amazon Kinesis (См. Динамическое секционирование в Kinesis Data Firehose). Для этой демонстрации мы используем данные из папки datetime-data.
  14. Выберите часть вашего пути, которая является датой/временем, и создайте настраиваемый параметр. Выбрать Datetime тип параметра.
    При выборе типа данных Datetime необходимо указать дополнительные сведения.
  15. Прежде всего, вы должны указать формат даты. Вы можете выбрать любой из предопределенных форматов даты/времени или создать собственный.
    Для предопределенных форматов даты/времени в легенде приводится пример даты, соответствующей выбранному формату. Для этой демонстрации мы выбираем формат гггг / ММ / дд.Получите больший контроль над рабочими нагрузками Amazon SageMaker Data Wrangler с помощью параметризованных наборов данных и запланированных заданий PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
  16. Затем укажите часовой пояс для значений даты/времени.
    Например, текущая дата может быть 1 января 2022 года в одном часовом поясе, но может быть 2 января 2022 года в другом часовом поясе.
  17. Наконец, вы можете выбрать временной диапазон, который позволяет выбрать диапазон файлов, которые вы хотите включить в свой поток данных.
    Вы можете указать временной диапазон в часах, днях, неделях, месяцах или годах. Для этого примера мы хотим получить все файлы за последний год.
  18. Введите описание параметра и выберите Создавай.
    Если вы используете несколько наборов данных с разными часовыми поясами, время не преобразуется автоматически; вам необходимо предварительно обработать каждый файл или источник, чтобы преобразовать его в один часовой пояс.Получите больший контроль над рабочими нагрузками Amazon SageMaker Data Wrangler с помощью параметризованных наборов данных и запланированных заданий PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.Выбранные файлы — это все файлы в папках, соответствующих прошлогодним данным.Получите больший контроль над рабочими нагрузками Amazon SageMaker Data Wrangler с помощью параметризованных наборов данных и запланированных заданий PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
  19. Теперь, если мы создадим задание преобразования данных, мы сможем увидеть список всех определенных нами параметров и можем переопределить их значения по умолчанию, чтобы наши задания преобразования выбирали указанные файлы.Получите больший контроль над рабочими нагрузками Amazon SageMaker Data Wrangler с помощью параметризованных наборов данных и запланированных заданий PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
    Получите больший контроль над рабочими нагрузками Amazon SageMaker Data Wrangler с помощью параметризованных наборов данных и запланированных заданий PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Расписание заданий обработки

Теперь вы можете запланировать задания обработки, чтобы автоматизировать выполнение заданий преобразования данных и экспорт преобразованных данных в Amazon S3 или Магазин функций Amazon SageMaker. Вы можете запланировать задания со временем и периодичностью, которые соответствуют вашим потребностям.

Использование запланированных заданий обработки Amazon EventBridge условиями, чтобы запланировать выполнение задания. Поэтому в качестве предварительного условия необходимо убедиться, что Управление идентификацией и доступом AWS (IAM), используемая Data Wrangler, а именно Создатель мудреца Амазонки роль исполнения экземпляра Studio имеет разрешения на создание правил EventBridge.

Настройка IAM

Внесите следующие обновления в роль исполнения IAM SageMaker, соответствующую экземпляру Studio, в котором запущен поток Data Wrangler:

  1. Прикрепите AmazonEventBridgeFullAccess управляемая политика.
  2. Прикрепите политику, чтобы предоставить разрешение на создание задания обработки:
    {
    	"Version": "2012-10-17",
    	"Statement": [
    		{
    			"Effect": "Allow",
    			"Action": "sagemaker:StartPipelineExecution",
    			"Resource": "arn:aws:sagemaker:Region:AWS-account-id:pipeline/data-wrangler-*"
    		}
    	]
    }

  3. Предоставьте EventBridge разрешение на использование роли, добавив следующую политику доверия:
    {
    	"Effect": "Allow",
    	"Principal": {
    		"Service": "events.amazonaws.com"
    	},
    	"Action": "sts:AssumeRole"
    }

В качестве альтернативы, если вы используете другую роль для запуска задания обработки, примените политики, описанные в шагах 2 и 3, к этой роли. Для получения подробной информации о конфигурации IAM см. Создайте расписание для автоматической обработки новых данных.

Составьте расписание

Чтобы создать расписание, откройте поток в редакторе потоков Data Wrangler.

  1. На Поток данных , выберите Создать работу.
  2. Настройте необходимые поля и выберите Далее 2. Настройка задания.
    Получите больший контроль над рабочими нагрузками Amazon SageMaker Data Wrangler с помощью параметризованных наборов данных и запланированных заданий PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
  3. Расширьте Ассоциированные расписания.
  4. Выберите Создать новое расписание.
    Получите больший контроль над рабочими нагрузками Amazon SageMaker Data Wrangler с помощью параметризованных наборов данных и запланированных заданий PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
    Ассоциация Создать новое расписание открывается диалоговое окно, в котором вы определяете подробности расписания задания обработки.
    Диалог предлагает большую гибкость, чтобы помочь вам определить расписание. Например, задание обработки может выполняться в определенное время или каждые X часов в определенные дни недели.Получите больший контроль над рабочими нагрузками Amazon SageMaker Data Wrangler с помощью параметризованных наборов данных и запланированных заданий PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
    Периодичность может быть гранулирована до минут.Получите больший контроль над рабочими нагрузками Amazon SageMaker Data Wrangler с помощью параметризованных наборов данных и запланированных заданий PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
  5. Определите имя расписания и периодичность, затем выберите Создавай чтобы сохранить расписание.
  6. У вас есть возможность сразу же запустить задание обработки вместе с планированием, которое позаботится о будущих запусках, или оставить задание выполняться только в соответствии с расписанием.
  7. Вы также можете определить дополнительное расписание для того же задания обработки.
    Получите больший контроль над рабочими нагрузками Amazon SageMaker Data Wrangler с помощью параметризованных наборов данных и запланированных заданий PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
  8. Чтобы завершить расписание задания обработки, выберите Создавай.
    Вы видите сообщение «Задание запланировано успешно». Кроме того, если вы решили оставить задание для выполнения только по расписанию, вы увидите ссылку на только что созданное правило EventBridge.Получите больший контроль над рабочими нагрузками Amazon SageMaker Data Wrangler с помощью параметризованных наборов данных и запланированных заданий PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Если вы выберете ссылку расписания, в браузере откроется новая вкладка с правилом EventBridge. На этой странице вы можете вносить дополнительные изменения в правило и отслеживать историю его вызовов. Чтобы остановить выполнение запланированного задания обработки, удалите правило событий, содержащее имя расписания.

Получите больший контроль над рабочими нагрузками Amazon SageMaker Data Wrangler с помощью параметризованных наборов данных и запланированных заданий PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Правило EventBridge показывает в качестве цели конвейер SageMaker, который запускается в соответствии с заданным расписанием, а задание обработки вызывается как часть конвейера.

Получите больший контроль над рабочими нагрузками Amazon SageMaker Data Wrangler с помощью параметризованных наборов данных и запланированных заданий PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Чтобы отслеживать выполнение конвейера SageMaker, вы можете вернуться в Studio, выбрать Ресурсы SageMaker значок, выберите Трубопроводыи выберите имя конвейера, который вы хотите отслеживать. Теперь вы можете увидеть таблицу со всеми текущими и прошлыми запусками и состоянием этого конвейера.

Получите больший контроль над рабочими нагрузками Amazon SageMaker Data Wrangler с помощью параметризованных наборов данных и запланированных заданий PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Вы можете просмотреть дополнительные сведения, дважды щелкнув определенную запись.

Получите больший контроль над рабочими нагрузками Amazon SageMaker Data Wrangler с помощью параметризованных наборов данных и запланированных заданий PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Убирать

Если вы не используете Data Wrangler, рекомендуется закрыть экземпляр, на котором он работает, чтобы избежать дополнительных сборов.

Чтобы не потерять работу, сохраните поток данных перед закрытием Data Wrangler.

  1. Чтобы сохранить поток данных в Studio, выберите Файл, а затем выберите Сохранить поток данных Wrangler. Data Wrangler автоматически сохраняет ваш поток данных каждые 60 секунд.
  2. Чтобы закрыть экземпляр Data Wrangler, в Studio выберите Запуск экземпляров и ядер.
  3. Под ЗАПУСК ПРИЛОЖЕНИЙ, выберите значок выключения рядом с sagemaker-data-wrangler-1.0 приложениеПолучите больший контроль над рабочими нагрузками Amazon SageMaker Data Wrangler с помощью параметризованных наборов данных и запланированных заданий PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
  4. Выберите Выключи все , чтобы подтвердить действие.Получите больший контроль над рабочими нагрузками Amazon SageMaker Data Wrangler с помощью параметризованных наборов данных и запланированных заданий PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Data Wrangler работает на экземпляре ml.m5.4xlarge. Этот экземпляр исчезает из ЗАПУСК ИНСТАНСОВ когда вы закрываете приложение Data Wrangler.

После закрытия приложения Data Wrangler его необходимо перезапустить при следующем открытии файла потока Data Wrangler. Это может занять несколько минут.

Заключение

В этом посте мы продемонстрировали, как вы можете использовать параметры для импорта наборов данных с помощью потоков Data Wrangler и создания для них заданий преобразования данных. Параметризованные наборы данных обеспечивают большую гибкость используемых наборов данных и позволяют повторно использовать потоки. Мы также продемонстрировали, как можно настраивать запланированные задания для автоматизации преобразования и экспорта данных в Amazon S3 или Feature Store в нужное время и с периодичностью непосредственно из пользовательского интерфейса Data Wrangler.

Чтобы узнать больше об использовании потоков данных с Data Wrangler, см. Создание и использование потока обработчика данных и Цены на Amazon SageMaker. Чтобы начать работу с Data Wrangler, см. Подготовка данных машинного обучения с помощью Amazon SageMaker Data Wrangler.


Об авторах

Получите больший контроль над рабочими нагрузками Amazon SageMaker Data Wrangler с помощью параметризованных наборов данных и запланированных заданий PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.Дэвид Ларедо является архитектором прототипов в группе прототипирования и облачной инженерии в Amazon Web Services, где он помог разработать несколько прототипов машинного обучения для клиентов AWS. Последние 6 лет он занимается машинным обучением, обучает и настраивает модели машинного обучения, а также внедряет сквозные конвейеры для производства этих моделей. В сферу его интересов входят НЛП, приложения машинного обучения и сквозное машинное обучение.

Получите больший контроль над рабочими нагрузками Amazon SageMaker Data Wrangler с помощью параметризованных наборов данных и запланированных заданий PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.Дживанильдо Алвес является архитектором прототипов в группе прототипирования и облачной инженерии в Amazon Web Services, помогая клиентам внедрять инновации и ускоряться, демонстрируя искусство возможного на AWS, уже внедрив несколько прототипов на основе искусственного интеллекта. У него долгая карьера в области разработки программного обеспечения, а ранее он работал инженером по разработке программного обеспечения в Amazon.com.br.

Получите больший контроль над рабочими нагрузками Amazon SageMaker Data Wrangler с помощью параметризованных наборов данных и запланированных заданий PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.Адриан Фуэнтес является менеджером программы в команде прототипирования и облачной инженерии в Amazon Web Services, предлагая клиентам инновации в области машинного обучения, Интернета вещей и блокчейна. У него более 15 лет опыта управления и реализации проектов и 1 год работы в AWS.

Отметка времени:

Больше от Машинное обучение AWS