Використовуйте зразки Github із Amazon SageMaker Data Wrangler

Перевидано Платоном

читають: 0

Amazon SageMake r Data Wrangler це інструмент підготовки даних на основі інтерфейсу користувача, який допомагає виконувати аналіз даних, попередню обробку та візуалізацію з функціями очищення, трансформації та підготовки даних швидше. Попередньо створені шаблони потоків Data Wrangler допомагають пришвидшити підготовку даних для спеціалістів із обробки даних і машинного навчання (ML), допомагаючи вам прискорити та зрозуміти шаблони найкращих практик для потоків даних із використанням загальних наборів даних.

Ви можете використовувати потоки Data Wrangler для виконання таких завдань:

Візуалізація даних – Вивчення статистичних властивостей для кожного стовпця в наборі даних, побудова гістограм, вивчення викидів
Очищення даних – Видалення дублікатів, видалення або заповнення записів пропущеними значеннями, видалення викидів
Збагачення даних і розробка функцій – Обробка стовпців для створення більш виразних функцій, вибір підмножини функцій для навчання

Ця публікація допоможе вам зрозуміти Data Wrangler за допомогою наведених нижче зразків попередньо створених потоків GitHub. Репозиторій демонструє перетворення табличних даних, перетворення даних часових рядів і перетворення об’єднаного набору даних. Кожен вимагає різного типу перетворень через свою основну природу. Стандартні табличні або перехресні дані збираються в певний момент часу. Навпаки, дані часових рядів збираються неодноразово протягом певного часу, причому кожна наступна точка даних залежить від її минулих значень.

Давайте розглянемо приклад того, як ми можемо використовувати зразок потоку даних для табличних даних.

Передумови

Data Wrangler – це Amazon SageMaker функція доступна в межах Студія Amazon SageMaker, тому нам потрібно стежити за процесом адаптації Studio, щоб розкрутити середовище Studio та блокноти. Хоча ви можете вибрати один з кількох методів автентифікації, найпростішим способом створення домену Studio є дотримання Швидкий початок інструкції. Швидкий старт використовує ті самі налаштування за замовчуванням, що й стандартне налаштування Studio. Ви також можете вибрати використання на борту Центр ідентифікації AWS IAM (наступник AWS Single Sign-On) для автентифікації (див Підключення до домену Amazon SageMaker за допомогою IAM Identity Center).