Obtenga la importancia de las funciones para bosques aleatorios con Python y Scikit-Learn

Reeditado por Platón

seguidores: 0

Introducción

El Bosque al azar El algoritmo es un algoritmo de aprendizaje supervisado basado en árboles que utiliza un conjunto de predicciones de muchos árboles de decisión, ya sea para clasificar un punto de datos o determinar su valor aproximado. Esto significa que puede usarse para clasificación o regresión.

Cuando se solicita la clasificación, la clase del punto de datos se elige en función de la clase que fue más votada por los árboles; y cuando se aplica para la regresión, el valor del punto de datos es el promedio de todos los valores generados por los árboles.

Una cosa importante que debe recordar al usar Random Forests es que la cantidad de árboles es un hiperparámetro y se definirá antes de ejecutar el modelo.

Cuando se trabaja en ciencia de datos, una de las razones por las que se eligió un modelo Random Forest para un proyecto específico podría tener que ver con la capacidad de observar árboles ensamblados y comprender porque se hizo una clasificación, o porque se le dio un valor – esto se llama explicabilidad.

Teniendo en cuenta los algoritmos basados en árboles, intentar explicar un modelo se puede hacer de varias maneras, mostrando y mirando cada árbol (puede ser difícil si el modelo tiene 200 árboles o más), usando Valores Shapley (o SHAP), observando las características que más se tuvieron en cuenta en el modelo, utilizando LIME para investigar las relaciones entre la entrada y la salida del modelo, etc. Por lo general, se emplea una combinación de todos los métodos.

En esta guía rápida, nos centraremos en crear un cuadro de las características que se consideraron importantes para que el modelo tomara una decisión al clasificar a los pingüinos. Esto se conoce como investigar el importancia de la característica, y se puede transmitir a otros miembros del equipo (técnicos y no técnicos) para ofrecer una idea de cómo se toman las decisiones.

Para hacer esto, importemos las bibliotecas necesarias, carguemos el conjunto de datos de Palmer Penguins, dividamos los datos, creemos el modelo, obtengamos las características importantes y usemos Seaborn para trazarlas. No profundizaremos mucho en los datos, EDA o el modelo en sí; esos son el tema de la guía dedicada.

Nota: Puede descargar el conjunto de datos desde GitHub o directamente desde el código.

Importando Bibliotecas

Comencemos importando algunas bibliotecas que usaremos:


import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier


raw_data_url = "https://gist.githubusercontent.com/cassiasamp/197b4e070f5f4da890ca4d226d088d1f/raw/38c9d4906ed121481b4dc201fa2004f2b3d0065f/penguins.csv"
df = pd.read_csv(raw_data_url)

División de datos

Dividamos los datos para entrenamiento y prueba:


df = df.dropna().drop("rowid", axis=1)


y = df["species"]
X = df[["bill_length_mm", "bill_depth_mm", "flipper_length_mm"]]


X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

Obtención de la importancia de las características

Finalmente, podemos entrenar un modelo y exportar las características importantes con:


rf = RandomForestClassifier()


rf.fit(X_train, y_train)


rf.feature_importances_

Esto produce:

array([0.41267633, 0.30107056, 0.28625311])

Esos son los valores de las funciones, para ver los nombres de las funciones, ejecute:


rf.feature_names_in_

Esto da como resultado el nombre correspondiente de cada función:

array(['bill_length_mm', 'bill_depth_mm', 'flipper_length_mm'],
      dtype=object)

Esto significa que la característica más importante para decidir las clases de peguin para este modelo en particular fue la bill_length_mm!

La importancia es relativa a la medida de qué tan bien se están separando los datos en cada división de nodo; en este caso, la medida está dada por el Índice de Gini – el valor de Gini se pondera luego por cuántas filas se han dividido al usar el bill_length_mm característica y promediado sobre los 100 árboles en el conjunto. El resultado de esos pasos explica 0.41267633, o más del 40% en este caso.

Visualización de la importancia de las funciones

Una forma común de representar valores de importancia es usar chats de barra. Primero vamos a crear un marco de datos con los nombres de las características y sus correspondientes importancias, y luego visualízalos usando Seaborn. barplot():


importances_df = pd.DataFrame({"feature_names" : rf.feature_names_in_, 
                               "importances" : rf.feature_importances_})
                             

g = sns.barplot(x=importances_df["feature_names"], 
                y=importances_df["importances"])
g.set_title("Feature importances", fontsize=14);

Consejo: Una buena práctica al presentar información es ordenar los valores en orden ascendente o descendente. En este caso, los datos ya están ordenados, siendo el primer valor el primero que queremos saber. Cuando este no es el caso, puede ordenar el marco de datos con sort_values. Esto se puede hacer en cualquier columna en orden ascendente o descendente: importances_df.sort_values(by="importances", ascending=False).

Al mirar este primer gráfico, es más difícil interpretar el valor de la importancia de cada característica. Es obvio que la longitud del billete es mayor que las otras dos barras, pero no exactamente que el bill_depth_mm es equivalente a 0.30107056y que el flipper_length_mm es 0.28625311. Entonces, este primer gráfico se puede mejorar mostrando el valor de cada barra. Esto se puede hacer accediendo a Seaborn's containers objeto. Almacena la información de cada barra y pasa los valores como etiquetas de barra:

Consulte nuestra guía práctica y práctica para aprender Git, con las mejores prácticas, los estándares aceptados por la industria y la hoja de trucos incluida. Deja de buscar en Google los comandos de Git y, de hecho, aprenden ella!

g = sns.barplot(data=importances_df, 
                x="importances", 
                y="feature_names")
g.set_title("Feature importances", fontsize=14)
for value in g.containers:
    g.bar_label(value)