Uzyskaj znaczenie funkcji dla losowych lasów za pomocą Pythona i Scikit-Learn

Opublikowane ponownie przez Plato

Obserwuje: 0

Wprowadzenie

Połączenia Losowy las Algorytm jest opartym na drzewach algorytmem uczenia nadzorowanego, który wykorzystuje zespół predykcji wielu drzew decyzyjnych, aby sklasyfikować punkt danych lub określić jego przybliżoną wartość. Oznacza to, że może być używany do klasyfikacji lub regresji.

Podczas składania wniosku o klasyfikację klasa punktu danych jest wybierana na podstawie klasy, na którą drzewa głosowały najczęściej; a po zastosowaniu do regresji wartość punktu danych jest średnią wszystkich wartości wyprowadzanych przez drzewa.

Ważną rzeczą do zapamiętania podczas korzystania z losowych lasów jest to, że liczba drzew jest hiperparametrem i zostanie zdefiniowana przed uruchomieniem modelu.

Podczas pracy w data science jednym z powodów, dla których wybrano model lasu losowego dla konkretnego projektu, może być umiejętność patrzenia na drzewa zespołowe i rozumienia dlaczego dokonano klasyfikacji lub dlaczego została podana wartość – to tzw wyjaśnialność.

Biorąc pod uwagę algorytmy oparte na drzewach, próbę wyjaśnienia modelu można wykonać na kilka sposobów, wyświetlając i przeglądając każde drzewo (może to być trudne, jeśli model ma 200 lub więcej drzew), używając wartości Shapleya (lub SHAP)., patrząc na cechy, które były najczęściej brane pod uwagę przez model, używając LIME w celu zbadania relacji między danymi wejściowymi i wyjściowymi modelu itp. Zwykle stosuje się kombinację wszystkich metod.

W tym krótkim przewodniku skupimy się na stworzeniu wykresu cech, które zostały uznane za ważne dla modelu przy podejmowaniu decyzji podczas klasyfikacji pingwinów. Jest to znane jako badanie znaczenie funkcjii mogą być przekazywane innym członkom zespołu (technicznym i nietechnicznym), aby dać wgląd w sposób podejmowania decyzji.

Aby to zrobić, zaimportujmy niezbędne biblioteki, załadujmy zestaw danych Palmer Penguins, podzielmy dane, utwórzmy model, uzyskajmy ważność funkcji i użyjmy Seaborn do ich wykreślenia! Nie będziemy się zbytnio zagłębiać w dane, EDA czy sam model – to temat dedykowanego poradnika.

Uwaga: Możesz pobrać zbiór danych z GitHub lub bezpośrednio z kodu.

Importowanie bibliotek

Zacznijmy od zaimportowania kilku bibliotek, których będziemy używać:


import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier


raw_data_url = "https://gist.githubusercontent.com/cassiasamp/197b4e070f5f4da890ca4d226d088d1f/raw/38c9d4906ed121481b4dc201fa2004f2b3d0065f/penguins.csv"
df = pd.read_csv(raw_data_url)

Dzielenie danych

Podzielmy dane na trening i testowanie:


df = df.dropna().drop("rowid", axis=1)


y = df["species"]
X = df[["bill_length_mm", "bill_depth_mm", "flipper_length_mm"]]


X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

Uzyskiwanie ważności funkcji

Wreszcie – możemy wytrenować model i wyeksportować ważność funkcji za pomocą:


rf = RandomForestClassifier()


rf.fit(X_train, y_train)


rf.feature_importances_

To daje:

array([0.41267633, 0.30107056, 0.28625311])

To są wartości funkcji, aby zobaczyć nazwy funkcji, uruchom:


rf.feature_names_in_

Powoduje to odpowiednią nazwę każdej funkcji:

array(['bill_length_mm', 'bill_depth_mm', 'flipper_length_mm'],
      dtype=object)

Oznacza to, że najważniejszą cechą decydującą o klasach peguin dla tego konkretnego modelu była bill_length_mm!

Znaczenie zależy od miary tego, jak dobrze dane są rozdzielane w każdym podziale węzła — w tym przypadku miarę podaje Indeks Giniego – wartość Gini jest następnie ważona przez liczbę wierszy, które zostały podzielone podczas korzystania z bill_length_mm cechy i uśrednione dla 100 drzew w zespole. Wynik tych kroków stanowi 0.41267633lub więcej niż 40% w tym przypadku.

Wizualizacja znaczenia funkcji

Powszechnym sposobem przedstawiania wartości ważności jest używanie czatów na pasku. Najpierw stwórzmy ramkę danych z nazwami funkcji i odpowiadającymi im ważnościami, a następnie zwizualizujmy je za pomocą Seaborn barplot():


importances_df = pd.DataFrame({"feature_names" : rf.feature_names_in_, 
                               "importances" : rf.feature_importances_})
                             

g = sns.barplot(x=importances_df["feature_names"], 
                y=importances_df["importances"])
g.set_title("Feature importances", fontsize=14);

Rada: Dobrą praktyką przy prezentowaniu informacji jest porządkowanie wartości w porządku rosnącym lub malejącym. W tym przypadku dane są już uporządkowane, a pierwsza wartość jest pierwszą, którą chcemy poznać. Jeśli tak nie jest, możesz zamówić ramkę danych z sort_values. Można to zrobić na dowolnej kolumnie w porządku rosnącym lub malejącym: importances_df.sort_values(by="importances", ascending=False).

Patrząc na ten pierwszy wykres, trudniej jest zinterpretować wartość ważności każdej cechy. Oczywiste jest, że długość dzioba jest większa niż w przypadku pozostałych dwóch słupków, ale nie do końca bill_depth_mm odpowiada 0.30107056i że flipper_length_mm wynosi 0.28625311. Tak więc ten pierwszy wykres można ulepszyć, wyświetlając wartość każdego słupka. Można to zrobić, uzyskując dostęp do Seaborn's containers obiekt. Przechowuje informacje o każdym słupku i przekazuje wartości jako etykiety słupków:

Zapoznaj się z naszym praktycznym, praktycznym przewodnikiem dotyczącym nauki Git, zawierającym najlepsze praktyki, standardy przyjęte w branży i dołączoną ściągawkę. Zatrzymaj polecenia Google Git, a właściwie uczyć się to!

g = sns.barplot(data=importances_df, 
                x="importances", 
                y="feature_names")
g.set_title("Feature importances", fontsize=14)
for value in g.containers:
    g.bar_label(value)