Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence를 사용하여 텍스트 데이터의 패턴을 감지합니다. 수직 검색. 일체 포함.

Amazon SageMaker Data Wrangler로 텍스트 데이터의 패턴 감지

이 포스트에서 우리는 새로운 분석을 소개합니다. 데이터 품질 및 통찰력 보고서 of Amazon SageMaker 데이터 랭글러. 이 분석은 텍스트 기능의 정확성을 확인하고 수정하거나 누락된 잘못된 행을 찾는 데 도움이 됩니다.

Data Wrangler는 머신 러닝(ML)을 위해 데이터를 집계하고 준비하는 데 걸리는 시간을 몇 주에서 몇 분으로 단축합니다. 단일 시각적 인터페이스에서 데이터 준비 및 기능 엔지니어링 프로세스를 단순화하고 데이터 선택, 정리, 탐색 및 시각화를 포함한 데이터 준비 워크플로의 각 단계를 완료할 수 있습니다.

솔루션 개요

데이터 사전 처리에는 종종 이메일 주소, 전화 번호 및 제품 이름과 같은 텍스트 데이터를 정리하는 작업이 포함됩니다. 이 데이터에는 정규식으로 설명할 수 있는 기본 무결성 제약 조건이 있을 수 있습니다. 예를 들어, 유효한 것으로 간주되려면 현지 전화번호가 다음과 같은 패턴을 따라야 할 수 있습니다. [1-9][0-9]{2}-[0-9]{4}, XNUMX이 아닌 숫자, XNUMX개의 숫자, 대시, XNUMX개의 추가 숫자와 일치합니다.

잘못된 데이터를 초래하는 일반적인 시나리오에는 다양한 형식의 전화번호(5551234 vs. 555 1234 vs. 555-1234) 또는 0, 911 또는 411과 같은 예상치 못한 데이터와 같이 사람이 일관되지 않게 입력하는 경우가 있습니다. 고객 콜 센터의 경우, 0, 911 또는 411과 같은 숫자를 생략하고 5551234 또는 555 1234와 같은 항목의 유효성을 검사하고 잠재적으로 수정하는 것이 중요합니다.

불행히도 텍스트 제약 조건이 있지만 데이터와 함께 제공되지 않을 수 있습니다. 따라서 데이터 세트를 준비하는 데이터 과학자는 데이터를 보고 수동으로 제약 조건을 밝혀야 합니다. 이는 지루하고 오류가 발생하기 쉬우며 시간이 많이 소요될 수 있습니다.

패턴 학습은 데이터를 자동으로 분석하고 데이터세트에 적용될 수 있는 텍스트 제약 조건을 표시합니다. 전화번호가 있는 예의 경우 패턴 학습은 데이터를 분석하고 대다수의 전화번호가 텍스트 제약 조건을 따른다는 것을 식별할 수 있습니다. [1-9][0-9]{2}-[0-9][4]. 또한 이를 제외하거나 수정할 수 있도록 잘못된 데이터의 예가 있음을 경고할 수 있습니다.

다음 섹션에서는 제품 범주 및 SKU(재고 보관 단위) 코드의 가상 데이터 세트를 사용하여 Data Wrangler에서 패턴 학습을 사용하는 방법을 보여줍니다.

이 데이터 세트에는 회사, 브랜드 및 에너지 소비별로 제품을 설명하는 기능이 포함되어 있습니다. 특히 형식이 잘못된 기능 SKU가 포함되어 있습니다. 이 데이터 세트의 모든 데이터는 가상이며 임의의 브랜드 이름과 기기 이름을 사용하여 무작위로 생성됩니다.

사전 조건

Data Wrangler 사용을 시작하기 전에 다운로드 샘플 데이터세트를 만들고 다음 위치에 업로드합니다. 아마존 단순 스토리지 서비스 (아마존 S3). 지침은 다음을 참조하십시오. 개체 업로드.

데이터세트 가져오기

데이터세트를 가져오려면 다음 단계를 완료하세요.

  1. 데이터 랭글러에서 다음을 선택합니다. ML용 데이터 가져오기 및 탐색.
  2. 왼쪽 메뉴에서 수입.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence를 사용하여 텍스트 데이터의 패턴을 감지합니다. 수직 검색. 일체 포함.
  3. 럭셔리 데이터 가져 오기선택한다. 아마존 S3.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence를 사용하여 텍스트 데이터의 패턴을 감지합니다. 수직 검색. 일체 포함.
  4. Amazon S3에서 파일을 찾아 선택합니다. 수입.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence를 사용하여 텍스트 데이터의 패턴을 감지합니다. 수직 검색. 일체 포함.

가져온 후 데이터 흐름으로 이동할 수 있습니다.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence를 사용하여 텍스트 데이터의 패턴을 감지합니다. 수직 검색. 일체 포함.

데이터 인사이트 얻기

이 단계에서는 데이터 품질에 대한 정보가 포함된 데이터 통찰력 보고서를 만듭니다. 자세한 내용은 데이터 및 데이터 품질에 대한 통찰력 얻기. 다음 단계를 완료하십시오.

  1. 데이터 흐름 탭에서 옆에 있는 더하기 기호를 선택합니다. 자료형.
  2. 왼쪽 메뉴에서 데이터 인사이트 얻기.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence를 사용하여 텍스트 데이터의 패턴을 감지합니다. 수직 검색. 일체 포함.
  3. 럭셔리 분석 유형선택한다. 데이터 품질 및 통찰력 보고서.
  4. 이 게시물을 위해 떠나십시오 대상 열문제 유형 공백입니다. 대상 기능이 있는 회귀 또는 분류 작업에 데이터 세트를 사용하려는 경우 해당 옵션을 선택할 수 있으며 보고서에는 입력 기능이 대상과 관련되는 방식에 대한 분석이 포함됩니다. 예를 들어 대상 누출에 대한 보고서를 생성할 수 있습니다. 자세한 내용은 대상 열.
  5. 왼쪽 메뉴에서 만들기.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence를 사용하여 텍스트 데이터의 패턴을 감지합니다. 수직 검색. 일체 포함.

이제 데이터 품질 및 데이터 통찰력 보고서가 있습니다. 아래로 스크롤하면 SKU 섹션에서 SKU를 설명하는 패턴 학습의 예를 볼 수 있습니다. 이 기능에는 일부 잘못된 데이터가 있는 것으로 보이며 실행 가능한 수정이 필요합니다.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence를 사용하여 텍스트 데이터의 패턴을 감지합니다. 수직 검색. 일체 포함.

SKU 기능을 정리하기 전에 브랜드 섹션을 참조하여 더 많은 정보를 확인하세요. 여기서 우리는 브랜드 이름의 대부분이 단어 문자 또는 알파벳 문자로 구성된 단일 단어임을 나타내는 두 가지 패턴이 밝혀진 것을 볼 수 있습니다. ㅏ 단어 문자 모든 언어의 단어에 나타날 수 있는 밑줄 또는 문자입니다. 예를 들어, 문자열 Hello_worldécoute 둘 다 단어 문자로 구성됩니다. Hé.

이 게시물에서는 이 기능을 정리하지 않습니다.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence를 사용하여 텍스트 데이터의 패턴을 감지합니다. 수직 검색. 일체 포함.

패턴 학습 인사이트 보기

SKU 청소로 돌아가 패턴과 경고 메시지를 확대해 보겠습니다.

다음 스크린샷에서 볼 수 있듯이 패턴 학습은 데이터의 97.78%와 일치하는 고정밀 패턴을 나타냅니다. 또한 패턴과 일치하는 몇 가지 예와 패턴과 일치하지 않는 예를 표시합니다. 일치하지 않는 항목에는 잘못된 SKU가 있습니다.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence를 사용하여 텍스트 데이터의 패턴을 감지합니다. 수직 검색. 일체 포함.

표면 패턴 외에도 높은 정확도 패턴과 패턴을 따르지 않는 일부 데이터가 있는 경우 데이터를 정리하기 위한 잠재적인 작업을 나타내는 경고가 나타날 수 있습니다.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence를 사용하여 텍스트 데이터의 패턴을 감지합니다. 수직 검색. 일체 포함.

유효하지 않은 데이터는 생략할 수 있습니다. 정규 표현식을 선택(오른쪽 클릭)하면 표현식을 복사할 수 있습니다. [A-Z]{3}-[0-9]{4,5}.

잘못된 데이터 제거

이 패턴과 일치하지 않는 부적합 데이터를 생략하는 변환을 만들어 보겠습니다.

  1. 데이터 흐름 탭에서 옆에 있는 더하기 기호를 선택합니다. 자료형.
  2. 왼쪽 메뉴에서 변형 추가.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence를 사용하여 텍스트 데이터의 패턴을 감지합니다. 수직 검색. 일체 포함.
  3. 왼쪽 메뉴에서 단계 추가.
  4. 에 대한 검색 regex 선택하고 검색 및 편집.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence를 사용하여 텍스트 데이터의 패턴을 감지합니다. 수직 검색. 일체 포함.
  5. 럭셔리 변환선택한다. 일치하지 않는 항목을 누락된 항목으로 변환.
  6. 럭셔리 입력 열선택한다. SKU.
  7. 럭셔리 무늬, 정규 표현식을 입력합니다.
  8. 왼쪽 메뉴에서 시사다음을 선택 추가.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence를 사용하여 텍스트 데이터의 패턴을 감지합니다. 수직 검색. 일체 포함.
    이제 기능에서 불필요한 데이터가 제거되었습니다.
  9. 행을 제거하려면 단계를 추가하세요. 핸들 누락 그리고 변형을 선택하십시오 드롭 누락.
  10. 왼쪽 메뉴에서 SKU 입력 열로.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence를 사용하여 텍스트 데이터의 패턴을 감지합니다. 수직 검색. 일체 포함.

잘못된 데이터가 제거된 데이터 흐름으로 돌아갑니다.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence를 사용하여 텍스트 데이터의 패턴을 감지합니다. 수직 검색. 일체 포함.

결론

이 게시물에서는 데이터 인사이트의 패턴 학습 기능을 사용하여 데이터 세트에서 잘못된 텍스트 데이터를 찾는 방법과 해당 데이터를 수정하거나 생략하는 방법을 보여주었습니다.

이제 텍스트 열을 정리했으므로 다음을 사용하여 데이터세트를 시각화할 수 있습니다. 분석 또는 당신은 신청할 수 있습니다 기본 제공 변환 귀하의 데이터를 추가로 처리합니다. 데이터에 만족하면 다음을 수행할 수 있습니다. 모델을 훈련시키다Amazon SageMaker 자동 조종 장치데이터 내보내기 Amazon S3와 같은 데이터 소스에

사려 깊은 검토에 대해 Nikita Ivkin에게 감사드립니다.


저자 소개

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence를 사용하여 텍스트 데이터의 패턴을 감지합니다. 수직 검색. 일체 포함.비샤알 카푸르 AWS AI의 수석 응용 과학자입니다. 그는 고객이 Data Wrangler에서 데이터를 이해하도록 돕는 데 열정을 쏟고 있습니다. 여가 시간에는 산악 자전거와 스노보드를 타고 가족과 시간을 보냅니다.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence를 사용하여 텍스트 데이터의 패턴을 감지합니다. 수직 검색. 일체 포함.조하르 카르닌 Amazon AI의 수석 과학자입니다. 그의 연구 관심 분야는 대규모 및 온라인 기계 학습 알고리즘입니다. 그는 Amazon SageMaker를 위해 무한히 확장 가능한 기계 학습 알고리즘을 개발합니다.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence를 사용하여 텍스트 데이터의 패턴을 감지합니다. 수직 검색. 일체 포함.아자이 샤르마 Amazon SageMaker의 수석 제품 관리자로 데이터 과학자를 위한 시각적 데이터 준비 도구인 Data Wrangler에 중점을 두고 있습니다. AWS에 합류하기 전에 Ajai는 McKinsey and Company에서 데이터 과학 전문가로 재직하면서 전 세계 주요 금융 및 보험 회사의 ML 중심 업무를 이끌었습니다. Ajai는 데이터 과학에 열정적이며 최신 알고리즘과 기계 학습 기술을 탐구하는 것을 좋아합니다.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence를 사용하여 텍스트 데이터의 패턴을 감지합니다. 수직 검색. 일체 포함. 데릭 배런 Amazon SageMaker Data Wrangler의 소프트웨어 개발 관리자입니다.

타임 스탬프 :

더보기 AWS 기계 학습