Amazon Rekognition 사용자 지정 레이블 모델을 개선하기 위한 팁

플라톤에 의해 재발행

팔로워 : 0

이 게시물에서는 다음을 사용하여 컴퓨터 비전 모델의 성능을 개선하기 위한 모범 사례에 대해 논의합니다. Amazon Rekognition 사용자 지정 레이블. Rekognition Custom Labels는 이미지 분류 및 객체 감지 사용 사례를 위한 맞춤형 컴퓨터 비전 모델을 구축하기 위한 완전 관리형 서비스입니다. Rekognition Custom Labels는 사전 훈련된 모델을 기반으로 구축됩니다. 아마존 인식, 이미 많은 카테고리에 걸쳐 수천만 개의 이미지에 대해 학습되었습니다. 수천 개의 이미지 대신 사용 사례에 특정한 작은 훈련 이미지 세트(수백 개 이하)로 시작할 수 있습니다. Rekognition Custom Labels는 사용자 지정 모델 구축과 관련된 복잡성을 추상화합니다. 훈련 데이터를 자동으로 검사하고, 올바른 ML 알고리즘을 선택하고, 인스턴스 유형을 선택하고, 다양한 하이퍼파라미터 설정으로 여러 후보 모델을 훈련하고, 가장 잘 훈련된 모델을 출력합니다. Rekognition Custom Labels는 또한 AWS 관리 콘솔 이미지 레이블 지정, 모델 교육, 모델 배포 및 테스트 결과 시각화를 포함하여 전체 ML 워크플로를 관리합니다.

모델의 정확도가 가장 좋지 않고 모델의 구성 매개변수를 조정할 수 있는 옵션이 많지 않은 경우가 있습니다. 이면에는 다음과 같이 고성능 모델을 구축하는 데 핵심적인 역할을 하는 여러 요소가 있습니다.

사진 각도
이미지 해상도
이미지 종횡비
빛 노출
배경의 선명도와 선명도
색 대비
샘플 데이터 크기

다음은 프로덕션 등급의 Rekognition Custom Labels 모델을 교육하기 위해 따라야 하는 일반적인 단계입니다.

분류 검토 – 이것은 이미지에서 식별하려는 속성/항목의 목록을 정의합니다.
관련 데이터 수집 – 프로덕션 환경에서 볼 수 있는 것과 유사한 관련 이미지를 수집해야 하는 가장 중요한 단계입니다. 여기에는 배경, 조명 또는 카메라 각도가 다양한 물체의 이미지가 포함될 수 있습니다. 그런 다음 수집된 이미지를 분할하여 훈련 및 테스트 데이터 세트를 생성합니다. 테스트 데이터 세트의 일부로 실제 이미지만 포함해야 하며 합성적으로 생성된 이미지는 포함하지 않아야 합니다. 수집한 데이터의 주석은 모델 성능에 매우 중요합니다. 경계 상자가 개체 주위에 꽉 조이고 레이블이 정확한지 확인합니다. 이 게시물 뒷부분에서 적절한 데이터 세트를 구축할 때 고려할 수 있는 몇 가지 팁에 대해 설명합니다.
교육 측정항목 검토 – 이전 데이터 세트를 사용하여 모델을 교육하고 F1 점수, 정밀도 및 재현율에 대한 교육 메트릭을 검토합니다. 이 게시물의 뒷부분에서 훈련 지표를 분석하는 방법에 대해 자세히 논의할 것입니다.
훈련 된 모델 평가 – 예측을 평가하기 위해 알려진 레이블이 있는 보이지 않는 이미지 세트(모델 교육에 사용되지 않음)를 사용합니다. 모델이 프로덕션 환경에서 예상대로 작동하는지 확인하려면 이 단계를 항상 수행해야 합니다.
재교육(선택사항) – 일반적으로 모든 기계 학습 모델을 교육하는 것은 원하는 결과를 얻기 위한 반복적인 프로세스이며 컴퓨터 비전 모델도 다르지 않습니다. 4단계의 결과를 검토하여 훈련 데이터에 더 많은 이미지를 추가해야 하는지 확인하고 위의 3~5단계를 반복합니다.

이 게시물에서는 관련 데이터를 수집(2단계)하고 훈련된 지표를 평가(3단계)하여 모델 성능을 개선하는 모범 사례에 중점을 둡니다.

관련 데이터 수집

이것은 프로덕션 등급의 Rekognition Custom Labels 모델을 교육하는 가장 중요한 단계입니다. 특히 훈련과 테스트라는 두 가지 데이터 세트가 있습니다. 훈련 데이터는 모델 훈련에 사용되며 적절한 훈련 세트를 구축하는 데 노력을 기울여야 합니다. Rekognition Custom Labels 모델은 다음을 위해 최적화되었습니다. F1 점수 테스트 데이터 세트에서 프로젝트에 가장 정확한 모델을 선택합니다. 따라서 실제 세계와 유사한 테스트 데이터 세트를 큐레이팅하는 것이 필수적입니다.

이미지 수

라벨당 최소 15-20개의 이미지를 사용하는 것이 좋습니다. 사용 사례를 반영하는 더 많은 변형이 있는 더 많은 이미지가 있으면 모델 성능이 향상됩니다.

균형 잡힌 데이터 세트

이상적으로는 데이터 세트의 각 레이블에 비슷한 수의 샘플이 있어야 합니다. 레이블당 이미지 수에 큰 차이가 없어야 합니다. 예를 들어, 레이블에 대한 가장 많은 이미지 수가 1,000개이고 다른 레이블에 대해 50개 이미지인 데이터세트는 불균형 데이터세트와 유사합니다. 가장 적은 수의 이미지가 있는 레이블과 가장 많은 수의 이미지가 있는 레이블 간의 편향 비율이 1:50인 시나리오는 피하는 것이 좋습니다.

다양한 유형의 이미지

실제 세계에서 사용할 것과 유사한 이미지를 훈련 및 테스트 데이터 세트에 포함합니다. 예를 들어, 거실과 침실의 이미지를 분류하려면 두 방의 비어 있고 가구가 비치된 이미지를 포함해야 합니다.

다음은 가구가 비치된 거실의 예시 이미지입니다.

대조적으로, 다음은 가구가 없는 거실의 예입니다.

다음은 가구가 비치된 침실의 예시 이미지입니다.

다음은 가구가 없는 침실의 예시 이미지입니다.

다양한 배경

배경이 다른 이미지를 포함합니다. 자연스러운 맥락이 있는 이미지는 일반 배경보다 더 나은 결과를 제공할 수 있습니다.

다음은 주택 앞마당의 예시 이미지입니다.

다음은 배경이 다른 다른 집 앞마당의 예시 이미지입니다.

다양한 조명 조건

다양한 조명이 있는 이미지를 포함하여 추론 중에 발생하는 다양한 조명 조건을 포함합니다(예: 플래시 사용 여부). 채도, 색조 및 밝기가 다양한 이미지를 포함할 수도 있습니다.

다음은 일반 조명 아래에서 꽃의 예시 이미지입니다.

대조적으로 다음 이미지는 밝은 조명 아래에서 같은 꽃입니다.

다양한 각도

사물의 다양한 각도에서 촬영한 이미지를 포함합니다. 이는 모델이 객체의 다양한 특성을 학습하는 데 도움이 됩니다.

다음 이미지는 다른 각도에서 같은 침실입니다.

Amazon Rekognition Custom Labels 모델 PlatoBlockchain Data Intelligence를 개선하기 위한 팁. 수직 검색. 일체 포함.

다양한 유형의 이미지를 획득할 수 없는 경우가 있을 수 있습니다. 이러한 시나리오에서 합성 이미지는 훈련 데이터 세트의 일부로 생성될 수 있습니다. 일반적인 이미지 확대 기술에 대한 자세한 내용은 다음을 참조하십시오. 데이터 보강.

제외 라벨 추가

이미지 분류의 경우 음수 레이블을 추가하면 모델 정확도를 높이는 데 도움이 될 수 있습니다. 예를 들어 필수 레이블과 일치하지 않는 제외 레이블을 추가할 수 있습니다. 다음 이미지는 완전히 자란 꽃을 식별하는 데 사용되는 다양한 레이블을 나타냅니다.

제외 라벨 추가 not_fully_grown 모델의 일부가 아닌 특성을 학습하는 데 도움이 됩니다. fully_grown 상표.

레이블 혼동 처리

테스트 데이터 세트의 결과를 분석하여 훈련 또는 테스트 데이터 세트에서 누락된 패턴을 인식합니다. 때로는 이미지를 시각적으로 검사하여 이러한 패턴을 쉽게 식별할 수 있습니다. 다음 이미지에서 모델은 뒤뜰 레이블과 안뜰 레이블 사이에서 해결하기 위해 고군분투하고 있습니다.

이 시나리오에서 데이터 세트의 이러한 레이블에 더 많은 이미지를 추가하고 레이블을 재정의하여 각 레이블이 고유하도록 하면 모델의 정확도를 높이는 데 도움이 될 수 있습니다.

데이터 확대

Rekognition Custom Labels 내에서 이미지의 무작위 자르기, 색상 지터링, 무작위 가우스 노이즈 등을 포함하여 모델 교육을 위한 다양한 데이터 증대를 수행합니다. 특정 사용 사례를 기반으로 훈련 데이터에 보다 명시적인 데이터 증강을 추가하는 것도 도움이 될 수 있습니다. 예를 들어 컬러 및 흑백 이미지 모두에서 동물을 감지하는 데 관심이 있는 경우 동일한 이미지의 흑백 및 컬러 버전을 훈련 데이터에 추가하여 잠재적으로 더 나은 정확도를 얻을 수 있습니다.

보강이 프로덕션 사용 사례를 반영하지 않는 한 테스트 데이터에 대한 보강을 권장하지 않습니다.

교육 측정항목 검토

F1 점수, 정밀도, 재현율 및 가정된 임계값은 통계 Rekognition Custom Labels를 사용하여 모델을 훈련한 결과로 생성됩니다. 모델은 제공된 테스트 데이터 세트를 기반으로 최고의 F1 점수에 최적화되어 있습니다. 가정된 임계값도 테스트 데이터 세트를 기반으로 생성됩니다. 정밀도 또는 재현율 측면에서 비즈니스 요구 사항에 따라 임계값을 조정할 수 있습니다.

가정된 임계값은 테스트 데이터 세트에 설정되기 때문에 적절한 테스트 세트는 실제 프로덕션 사용 사례를 반영해야 합니다. 테스트 데이터 세트가 사용 사례를 대표하지 않는 경우 실제 이미지에서 인위적으로 높은 F1 점수와 낮은 모델 성능을 볼 수 있습니다.

이러한 메트릭은 모델의 초기 평가를 수행할 때 유용합니다. 프로덕션 등급 시스템의 경우 실제 세계를 나타내는 외부 데이터 세트(500–1,000개의 보이지 않는 이미지)에 대해 모델을 평가하는 것이 좋습니다. 이렇게 하면 모델이 프로덕션 시스템에서 어떻게 수행되는지 평가하고 누락된 패턴을 식별하고 모델을 재교육하여 수정하는 데 도움이 됩니다. F1 점수와 외부 평가가 일치하지 않는 경우 테스트 데이터가 실제 사용 사례를 반영하는지 검토하는 것이 좋습니다.

결론

이 게시물에서는 Rekognition Custom Labels 모델을 개선하기 위한 모범 사례를 안내했습니다. 에 대해 자세히 알아보도록 권장합니다. Rekognition 사용자 정의 레이블 비즈니스별 데이터세트에 사용해 보십시오.

저자 소개

아미 굽타 AWS의 수석 AI 서비스 솔루션 아키텍트입니다. 그는 규모에 맞게 잘 설계된 기계 학습 솔루션을 통해 고객을 지원하는 데 열정적입니다.

요게시 차투르베디 컴퓨터 비전에 중점을 둔 AWS의 솔루션 아키텍트입니다. 그는 고객과 협력하여 클라우드 기술을 사용하여 비즈니스 문제를 해결합니다. 일 외에는 하이킹, 여행, 스포츠 관전을 즐깁니다.

하오양 Amazon Rekognition Custom Labels 팀의 수석 응용 과학자입니다. 그의 주요 연구 관심사는 객체 감지 및 제한된 주석으로 학습하는 것입니다. 작품 밖에서 Hao는 영화 감상, 사진 촬영, 야외 활동을 즐깁니다.

파시민 미스트리 Amazon Rekognition Custom Labels의 수석 제품 관리자입니다. 직장 밖에서 Pashmeen은 모험적인 하이킹, 사진 촬영, 가족과 함께 시간을 보내는 것을 즐깁니다.

타임 스탬프 : 2022 년 9 월 9 일2022 년 9 월 10 일

Mendix가 생성 AI와 Amazon Bedrock을 통해 고객 경험을 혁신하는 방법 | 아마존 웹 서비스

AWS 기계 학습

소스 노드 : 1913698

타임 스탬프 : 11월 15, 2023

Amazon EKS에서 PyTorch 2.0 FSDP를 사용하여 LLM 확장 – 2부 | 아마존 웹 서비스

소스 클러스터 :

AWS 기계 학습

소스 노드 : 1960833

타임 스탬프 : 1년 2024월 XNUMX일

Amazon Rekognition Custom Labels 모델을 개선하기 위한 팁

플라톤에 의해 재발행

관련 데이터 수집

이미지 수

균형 잡힌 데이터 세트

다양한 유형의 이미지

다양한 배경

다양한 조명 조건

다양한 각도

제외 라벨 추가

레이블 혼동 처리

데이터 확대

교육 측정항목 검토

결론

저자 소개

더보기 AWS 기계 학습

Amazon SageMaker의 TensorFlow 이미지 분류 모델에 대한 전이 학습

Renate로 신경망 자동 재훈련

Amazon Forecast를 사용하여 소매업의 지속 가능성 및 재정적 결과를 개선하기 위해 음식물 쓰레기를 줄입니다.

Amazon SageMaker Data Wrangler를 사용하여 기계 학습을 위해 Amazon EMR에서 데이터 준비

Amazon SageMaker에서 앙상블 ML 모델 실행

회사 소개

수직 검색 및 인공 지능

플랫폼

연결 유지

계정