텍스트 분류 PlatoBlockchain 데이터 인텔리전스에서 기능 선택 방법 사용. 수직 검색. 일체 포함.

텍스트 분류에서 기능 선택 방법 사용

텍스트 분류에서 기능 선택은 트레이닝 세트의 용어 중 특정 서브 세트를 선택하고 분류 알고리즘에서만 사용하는 프로세스입니다. 기능 선택 프로세스는 분류기 교육 전에 수행됩니다.

업데이트 : Datumbox Machine Learning Framework는 이제 오픈 소스이며 무료로 제공됩니다. 다운로드. com.datumbox.framework.machinelearning.featureselection 패키지를 확인하여 Java에서 카이-제곱 및 상호 정보 기능 선택 방법의 구현을 확인하십시오.

기능 선택 알고리즘 사용의 주요 장점은 데이터의 크기를 줄이고 훈련 속도를 높이고 노이즈 기능을 제거하여 정확도를 향상시킬 수 있다는 사실입니다. 결과적으로 기능을 선택하면 과적 합을 피할 수 있습니다.

k 개의 최상의 기능을 선택하기위한 기본 선택 알고리즘은 다음과 같습니다 (매닝 외, 2008):

텍스트 분류 PlatoBlockchain 데이터 인텔리전스에서 기능 선택 방법 사용. 수직 검색. 일체 포함.

다음 섹션에서는 Mutual Information과 Chi Square라는 두 가지 기능 선택 알고리즘을 제공합니다.

상호 정보

가장 일반적인 기능 선택 방법 중 하나는 클래스 c에서 용어 t의 상호 정보입니다 (매닝 외, 2008). 이 용어는 특정 용어의 유무가 c에 대한 올바른 분류 결정을 내리는 데 얼마나 많은 정보를 제공하는지 측정합니다. 상호 정보는 다음 공식을 사용하여 계산할 수 있습니다.

텍스트 분류 PlatoBlockchain 데이터 인텔리전스에서 기능 선택 방법 사용. 수직 검색. 일체 포함.[1]

계산에서 확률의 최대 가능성 추정값을 사용하므로 다음 방정식을 사용할 수 있습니다.

텍스트 분류 PlatoBlockchain 데이터 인텔리전스에서 기능 선택 방법 사용. 수직 검색. 일체 포함.[2]

여기서 N은 총 문서 수입니다. Ntce 값을 가진 문서의 개수t (문서에서 용어 t의 발생; 값 1 또는 0을 취함) 및 ec(아래 클래스 c에서 문서의 발생; 값 1 또는 0을 취함) 텍스트 분류 PlatoBlockchain 데이터 인텔리전스에서 기능 선택 방법 사용. 수직 검색. 일체 포함.텍스트 분류 PlatoBlockchain 데이터 인텔리전스에서 기능 선택 방법 사용. 수직 검색. 일체 포함.. 마지막으로 위에서 언급 한 모든 변수는 음이 아닌 값을 취합니다.

치 광장

또 다른 일반적인 기능 선택 방법은 치 광장. x2 테스트는 무엇보다도 통계에서 두 가지 사건의 독립성을 테스트하는 데 사용됩니다. 보다 구체적으로 기능 선택에서 특정 용어의 발생과 특정 클래스의 발생이 독립적인지 여부를 테스트하는 데 사용합니다. 따라서 각 항에 대해 다음 수량을 추정하고 점수별로 순위를 매 깁니다.

텍스트 분류 PlatoBlockchain 데이터 인텔리전스에서 기능 선택 방법 사용. 수직 검색. 일체 포함.[3]

x에서 높은 점수2 귀무 가설 (H)이0)의 독립성을 거부해야하므로 용어 및 클래스의 발생이 종속적이어야합니다. 그것들이 의존적이라면 우리는 텍스트 분류를위한 기능을 선택합니다.

위의 공식은 다음과 같이 다시 작성할 수 있습니다.

텍스트 분류 PlatoBlockchain 데이터 인텔리전스에서 기능 선택 방법 사용. 수직 검색. 일체 포함.[4]

Chi Square 방법을 사용하는 경우 도끼가있는 미리 정의 된 수의 피쳐 만 선택해야합니다.2 10.83 수준에서 통계적 유의성을 나타내는 0.001보다 큰 시험 점수.

마지막으로, 우리는 통계적 관점에서 한 자유도 및 카이 제곱 특성으로 인해 카이 제곱 피처 선택이 부정확하다는 점에 유의해야합니다. 예이츠 수정 대신 통계적 중요성에 도달하기 어렵게해야합니다. 따라서 우리는 선택된 전체 기능 중에서 작은 부분이 클래스와 독립적이라는 것을 예상해야합니다. 따라서 우리는 선택된 전체 기능 중에서 작은 부분이 클래스와 무관하다는 것을 기대해야합니다. 그럼에도 불구하고 매닝 등 (2008) 시끄러운 기능은 분류기의 전체 정확도에 심각한 영향을 미치지 않습니다.

시끄러운 / 드문 기능 제거

과적 합을 피하고 메모리 소비를 줄이고 속도를 향상시키는 데 도움이되는 또 다른 기술은 어휘에서 모든 희귀 용어를 제거하는 것입니다. 예를 들어 모든 범주에서 한 번만 발생한 모든 용어를 제거 할 수 있습니다. 이러한 용어를 제거하면 메모리 사용량이 크게 줄어들고 분석 속도가 향상 될 수 있습니다. 마지막으로이 기법을 위의 기능 선택 알고리즘과 함께 사용할 수 없습니다.

기사가 마음에 드 셨나요? 트위터에서 공유하기 위해 잠시 시간을 내십시오. 🙂

타임 스탬프 :

더보기 데이텀 박스