Amazon SageMaker Canvas PlatoBlockchain Data Intelligence로 코드 없는 ML 모델을 구축하면서 일반적인 데이터 문제를 식별하고 방지합니다. 수직 검색. 일체 포함.

Amazon SageMaker Canvas로 코드 없는 ML 모델을 구축하면서 일반적인 데이터 문제 식별 및 방지

비즈니스 분석가는 데이터로 작업하고 효과적인 비즈니스 결과를 달성하기 위해 데이터를 분석, 탐색 및 이해하는 것을 좋아합니다. 비즈니스 문제를 해결하기 위해 그들은 종종 데이터 과학자와 같은 기계 학습(ML) 실무자에게 의존하여 ML을 활용하여 기존 데이터를 사용하여 모델을 구축하고 예측을 생성하는 것과 같은 기술을 지원합니다. 그러나 데이터 과학자는 일반적으로 작업에 묶여 있고 분석가를 도울 대역폭이 없기 때문에 항상 가능한 것은 아닙니다.

독립적이고 비즈니스 분석가로서 목표를 달성하려면 세부 사항을 알고 코드를 사용할 필요 없이 ML을 사용하는 사용하기 쉽고 직관적이며 시각적인 도구로 작업하는 것이 이상적입니다. 이러한 도구를 사용하면 비즈니스 문제를 해결하고 원하는 결과를 얻을 수 있습니다.

귀하와 귀하의 조직이 보다 효율적이 되고 코드를 작성하지 않고 ML을 사용하도록 돕는 목표를 가지고 우리는 Amazon SageMaker Canvas 도입. 이것은 ML 알고리즘 및 평가 메트릭과 같은 기술적 세부 사항에 대해 배울 필요 없이 정확한 ML 모델을 구축하는 데 도움이 되는 코드 없는 ML 솔루션입니다. SageMaker Canvas는 데이터 가져오기, ML 모델 교육, 모델 분석 수행, ML 예측 생성을 코드 한 줄도 작성하지 않고도 수행할 수 있는 시각적이고 직관적인 인터페이스를 제공합니다.

SageMaker Canvas를 사용하여 실험할 때 누락된 값이나 잘못된 문제 유형과 같은 데이터 품질 문제가 발생할 수 있습니다. 이러한 문제는 ML 모델을 교육한 후 프로세스 후반까지 발견되지 않을 수 있습니다. 이 문제를 완화하기 위해 SageMaker Canvas는 이제 데이터 검증을 지원합니다. 이 기능은 데이터의 문제를 사전에 확인하고 해결 방법에 대한 지침을 제공합니다.

이 게시물에서는 모델 구축 전에 SageMaker Canvas 내에서 데이터 검증 기능을 사용하는 방법을 시연합니다. 이름에서 알 수 있듯이 이 기능은 데이터 세트의 유효성을 검사하고 문제를 보고하며 문제를 해결하기 위한 유용한 포인터를 제공합니다. 더 나은 품질의 데이터를 사용하면 더 나은 성능의 ML 모델을 얻게 됩니다.

SageMaker Canvas에서 데이터 검증

데이터 유효성 검사는 잠재적인 데이터 품질 문제를 사전에 확인하는 SageMaker Canvas의 새로운 기능입니다. 데이터를 가져오고 대상 열을 선택하면 다음과 같이 데이터를 검증할 수 있는 선택 사항이 제공됩니다.

데이터 유효성 검사를 선택하면 Canvas는 다음과 같은 다양한 조건에 대해 데이터를 분석합니다.

  • 타겟 열에 고유 라벨이 너무 많습니다. – 범주 예측 모델 유형의 경우
  • 데이터의 행 수에 비해 타겟 열에 고유 라벨이 너무 많습니다. – 범주 예측 모델 유형의 경우
  • 데이터에 대한 잘못된 모델 유형 – 모델 유형이 대상 열에서 예측하는 데이터에 맞지 않습니다.
  • 유효하지 않은 행이 너무 많습니다. – 대상 열의 누락된 값
  • 모든 기능 열은 텍스트 열입니다. 표준 빌드에서는 삭제됩니다.
  • 열이 너무 적음 – 데이터에 열이 너무 적음
  • 완전한 행 없음 – 데이터의 모든 행에 결측값이 있음
  • 하나 이상의 열 이름에 이중 밑줄이 포함되어 있습니다. – SageMaker는 열 헤더에서 (__)를 처리할 수 없습니다.

각 유효성 검사 기준에 대한 자세한 내용은 이 게시물의 뒷부분에서 제공됩니다.

모든 검사를 통과하면 다음과 같은 확인 메시지가 표시됩니다. "데이터 세트에서 문제가 발견되지 않았습니다."

Amazon SageMaker Canvas PlatoBlockchain Data Intelligence로 코드 없는 ML 모델을 구축하면서 일반적인 데이터 문제를 식별하고 방지합니다. 수직 검색. 일체 포함.

문제가 발견되면 보고 이해할 수 있도록 알림을 받게 됩니다. 이를 통해 데이터 품질 문제를 조기에 파악하고 프로세스에서 시간과 리소스를 낭비하기 전에 즉시 문제를 해결할 수 있습니다.

Amazon SageMaker Canvas PlatoBlockchain Data Intelligence로 코드 없는 ML 모델을 구축하면서 일반적인 데이터 문제를 식별하고 방지합니다. 수직 검색. 일체 포함. Amazon SageMaker Canvas PlatoBlockchain Data Intelligence로 코드 없는 ML 모델을 구축하면서 일반적인 데이터 문제를 식별하고 방지합니다. 수직 검색. 일체 포함.

모든 문제가 해결될 때까지 조정하고 데이터 세트를 계속 검증할 수 있습니다.

대상 열 및 모델 유형 유효성 검사

SageMaker Canvas에서 ML 모델을 구축할 때 다음과 관련된 몇 가지 데이터 품질 문제가 발생합니다. 대상 열 모델 빌드가 실패할 수 있습니다. SageMaker Canvas는 사용자에게 영향을 줄 수 있는 다양한 종류의 문제를 확인합니다. 대상 열.

Amazon SageMaker Canvas PlatoBlockchain Data Intelligence로 코드 없는 ML 모델을 구축하면서 일반적인 데이터 문제를 식별하고 방지합니다. 수직 검색. 일체 포함.

  1. 대상 열에 대해 다음을 확인하십시오. 데이터에 대한 잘못된 모델 유형. 예를 들어 2카테고리 예측 모델이 선택되었지만 대상 열에 2개 이상의 고유 레이블이 있는 경우 SageMaker Canvas는 다음과 같은 유효성 검사 경고를 제공합니다.
    Amazon SageMaker Canvas PlatoBlockchain Data Intelligence로 코드 없는 ML 모델을 구축하면서 일반적인 데이터 문제를 식별하고 방지합니다. 수직 검색. 일체 포함.
  2. 모델 유형이 2개 또는 3개 이상의 범주 예측인 경우 유효성을 검사해야 합니다. 너무 많은 고유 라벨 대상 열. 최대 고유 클래스 수는 2000개입니다. 대상 열에서 고유 값이 2000개 이상인 열을 선택하면 Canvas에서 다음과 같은 유효성 검사 경고를 제공합니다.
    Amazon SageMaker Canvas PlatoBlockchain Data Intelligence로 코드 없는 ML 모델을 구축하면서 일반적인 데이터 문제를 식별하고 방지합니다. 수직 검색. 일체 포함.
  3. 고유한 대상 레이블이 너무 많을 뿐만 아니라 다음 사항도 주의해야 합니다. 데이터의 행 수에 대한 많은 고유 대상 레이블. SageMaker Canvas는 총 행 수에 대한 대상 레이블의 비율을 10% 미만으로 적용합니다. 이렇게 하면 고품질 모델의 각 범주에 대한 충분한 표현이 있는지 확인하고 과적합 가능성을 줄일 수 있습니다. 모델이 교육 데이터에 대해 잘 예측하지만 이전에 본 적이 없는 새 데이터에 대해서는 그렇지 않은 경우 과적합으로 간주됩니다. 나타내다 여기에서 지금 확인해 보세요. 드리겠습니다.
    Amazon SageMaker Canvas PlatoBlockchain Data Intelligence로 코드 없는 ML 모델을 구축하면서 일반적인 데이터 문제를 식별하고 방지합니다. 수직 검색. 일체 포함.
  4. 마지막으로 대상 열에 대한 마지막 확인은 유효하지 않은 행이 너무 많음. 대상 열에 누락되거나 잘못된 데이터가 10% 이상 있는 경우 모델 성능에 영향을 미치고 경우에 따라 모델 빌드가 실패할 수 있습니다. 다음 예에서는 대상 열에 많은 누락된 값(>90% 누락)이 있으며 다음과 같은 유효성 검사 경고가 표시됩니다.
    Amazon SageMaker Canvas PlatoBlockchain Data Intelligence로 코드 없는 ML 모델을 구축하면서 일반적인 데이터 문제를 식별하고 방지합니다. 수직 검색. 일체 포함.
    Amazon SageMaker Canvas PlatoBlockchain Data Intelligence로 코드 없는 ML 모델을 구축하면서 일반적인 데이터 문제를 식별하고 방지합니다. 수직 검색. 일체 포함.

대상 열에 대해 위의 경고 중 하나라도 표시되면 다음 단계를 사용하여 문제를 완화하십시오.

  1. 올바른 대상 열을 사용하고 있습니까?
  2. 올바른 모델 유형을 선택했습니까?
  3. 대상 레이블당 데이터 세트의 행 수를 늘릴 수 있습니까?
  4. 유사한 레이블을 함께 통합/그룹화할 수 있습니까?
  5. 누락된/잘못된 값을 채울 수 있습니까?
  6. 누락된/잘못된 값을 삭제할 수 있는 충분한 데이터가 있습니까?
  7. 위의 모든 옵션으로 경고가 지워지지 않으면 다른 데이터 세트를 사용하는 것을 고려해야 합니다.

자세한 내용은 SageMaker Canvas 데이터 변환 설명서 위에서 언급한 대치 단계를 수행합니다.

모든 열의 유효성 검사

대상 열 외에도 다른 데이터 열(기능 열)에서도 데이터 품질 문제가 발생할 수 있습니다. 기능 열은 ML 예측을 수행하는 데 사용되는 입력 데이터입니다.

  • 모든 데이터 세트에는 최소 1개의 기능 열과 1개의 대상 열(총 2개 열)이 있어야 합니다. 그렇지 않으면 SageMaker Canvas에서 데이터에 열이 너무 적음 경고. 모델 구축을 진행하려면 먼저 이 요구 사항을 충족해야 합니다.
    Amazon SageMaker Canvas PlatoBlockchain Data Intelligence로 코드 없는 ML 모델을 구축하면서 일반적인 데이터 문제를 식별하고 방지합니다. 수직 검색. 일체 포함.
  • 그런 다음 데이터에 숫자 열이 1개 이상 있는지 확인해야 합니다. 그렇지 않은 경우 다음을 얻을 수 있습니다. 모든 기능 열은 텍스트 열입니다. 경고. 텍스트 열은 일반적으로 표준 빌드 중에 삭제되어 학습할 기능이 없는 모델이 되기 때문입니다. 따라서 이로 인해 모델 구축이 실패하게 됩니다. SageMaker Canvas를 사용하여 일부 텍스트 열을 숫자로 인코딩하거나 표준 빌드 대신 빠른 빌드를 사용할 수 있습니다.
    Amazon SageMaker Canvas PlatoBlockchain Data Intelligence로 코드 없는 ML 모델을 구축하면서 일반적인 데이터 문제를 식별하고 방지합니다. 수직 검색. 일체 포함.
  • 기능 열에 대해 받을 수 있는 세 번째 유형의 경고는 다음과 같습니다. 완전한 행 없음. 이 유효성 검사는 누락된 값이 없는 행이 하나 이상 있는지 확인합니다. SageMaker Canvas에는 하나 이상의 완전한 행이 필요합니다. 빠른 빌드 실패합니다. 모델을 구축하기 전에 누락된 값을 채우십시오.
    Amazon SageMaker Canvas PlatoBlockchain Data Intelligence로 코드 없는 ML 모델을 구축하면서 일반적인 데이터 문제를 식별하고 방지합니다. 수직 검색. 일체 포함.
  • 마지막 유효성 검사 유형은 다음과 같습니다. 하나 이상의 열 이름에 이중 밑줄이 포함되어 있습니다.. 이것은 SageMaker Canvas 특정 요구 사항입니다. 열 머리글에 이중 밑줄(__)이 있으면 빠른 빌드 실패. 열의 이름을 변경하여 이중 밑줄을 제거한 다음 다시 시도하십시오.
    Amazon SageMaker Canvas PlatoBlockchain Data Intelligence로 코드 없는 ML 모델을 구축하면서 일반적인 데이터 문제를 식별하고 방지합니다. 수직 검색. 일체 포함.

정리

미래에 발생하지 않도록 세션 요금, SageMaker Canvas에서 로그아웃합니다.

Amazon SageMaker Canvas PlatoBlockchain Data Intelligence로 코드 없는 ML 모델을 구축하면서 일반적인 데이터 문제를 식별하고 방지합니다. 수직 검색. 일체 포함.

결론

SageMaker Canvas는 비즈니스 분석가가 시각적인 포인트 앤 클릭 인터페이스를 통해 정확한 ML 모델을 생성하고 예측을 생성할 수 있는 코드 없는 ML 솔루션입니다. SageMaker Canvas가 데이터 세트를 사전에 검증하여 데이터 품질을 확인하고 데이터 문제를 완화하는 데 어떻게 도움이 되는지 보여 드렸습니다. 문제를 조기에 식별함으로써 SageMaker Canvas는 데이터 과학 및 프로그래밍에 대한 전문 지식 없이도 고품질 ML 모델을 구축하고 구축 반복을 줄이는 데 도움이 됩니다. 이 새로운 기능에 대한 자세한 내용은 다음을 참조하십시오. SageMaker 캔버스 설명서.

SageMaker Canvas를 시작하고 자세히 알아보려면 다음 리소스를 참조하십시오.


저자 소개

Amazon SageMaker Canvas PlatoBlockchain Data Intelligence로 코드 없는 ML 모델을 구축하면서 일반적인 데이터 문제를 식별하고 방지합니다. 수직 검색. 일체 포함. 하리하란 수레시 AWS의 선임 솔루션 아키텍트입니다. 그는 데이터베이스, 기계 학습 및 혁신적인 솔루션 설계에 열정적입니다. AWS에 합류하기 전에 Hariharan은 제품 설계자, 코어 뱅킹 구현 전문가 및 개발자였으며 ​​11년 이상 BFSI 조직과 함께 일했습니다. 기술 외에 그는 패러글라이딩과 사이클링을 즐깁니다.

Amazon SageMaker Canvas PlatoBlockchain Data Intelligence로 코드 없는 ML 모델을 구축하면서 일반적인 데이터 문제를 식별하고 방지합니다. 수직 검색. 일체 포함.사이나스 미리얄라 미국의 자동차 고객을 위해 일하는 AWS의 선임 기술 계정 관리자입니다. Sainath는 AI/ML을 사용하여 대규모 분산 애플리케이션을 설계하고 구축하는 데 열정적입니다. 여가 시간에 Sainath는 가족 및 친구들과 시간을 보냅니다.

Amazon SageMaker Canvas PlatoBlockchain Data Intelligence로 코드 없는 ML 모델을 구축하면서 일반적인 데이터 문제를 식별하고 방지합니다. 수직 검색. 일체 포함.제임스 우 AWS의 수석 AI/ML 전문가 솔루션 아키텍트입니다. 고객이 AI/ML 솔루션을 설계하고 구축할 수 있도록 지원합니다. James의 작업은 컴퓨터 비전, 딥 러닝, 기업 전반에 걸친 ML 확장에 대한 주요 관심과 함께 광범위한 ML 사용 사례를 다룹니다. AWS에 합류하기 전에 James는 엔지니어링 분야에서 10년, 마케팅 및 광고 산업 분야에서 6년을 포함하여 4년 넘게 건축가, 개발자 및 기술 리더였습니다.

타임 스탬프 :

더보기 AWS 기계 학습