Python jeden gorący kodowanie pandy

Python jeden gorący kodowanie pandy
W tym artykule nauczy Cię, jak wykonywać gorące kodowanie w Python za pomocą pandy i scikit uczyć się.

Hot kodowanie odnosi się do konwersji danych kategorycznych w modele, z których mogą korzystać algorytmy uczenia maszynowego. W większości przypadków wymaga to przekształcenia każdej wartości kategorii na wartość binarną 1 lub 0.

Poniższy obraz ilustruje jeden gorący kodowanie.

Źródło: Kaggle

Możesz zbadać jeden gorący kodowanie w poniższym zasobie:

https: // en.Wikipedia.Org/Wiki/One-Hot

Przykładowe dane

Zacznijmy od utworzenia przykładowych danych. Najpierw użyj przykładowego kodu, jak pokazano poniżej:

importować pandy jako PD
df = pd.Ramka danych(
„Kategorie”: [„cat1”, „cat2”, „cat3”, „cat2”, „cat1”, „cat1”, „cat3”],
„Wartości”: [10,20,20,40,24,34,23]
)
df

Importuj OneHotencoder z SCI-KIT-Learn, aby wykonać jeden upalny kodowanie, aby wykonać jeden upały kodowanie, jak pokazano:

ze Sklearn.Przedrożenie do importu OneHotencoder
# instancja
e = onehotencoder (uchwyt_inknown = „ignor”)
# ENCODE
e_df = pd.Dataframe (e.fit_transform (df [['kategorie']]).toarray ())
e_df

W powyższym przykładzie zaczynamy od zaimportowania OneHotencoder z Sci-Kit-Learn. Następnie tworzymy instancję enkodera i przekazujemy parametr HANDE_UNKNOWN, aby zignorować.

Na koniec tworzymy nową ramkę danych z zakodowanych danych. Powyższy kod powinien zwrócić nową ramkę danych, jak pokazano:

Możesz także połączyć zakodowaną ramkę danych do oryginalnej ramki danych przy użyciu metody połączenia jako:

df = df.dołącz (e_df)
df

Powyższy kod powinien zwrócić:

Wniosek

W tym artykule obejmuje minimum wykonywania podstawowego jednego gorącego kodowania pandasframe za pomocą biblioteki SCI-KIT-learn.