Co to jest algorytm drzewa decyzyjnego?
Modele klasyfikacji i regresji są konstruowane przy użyciu techniki drzewa decyzyjnego. Mapuje wektory wartości do etykiet i reprezentuje klasyfikator jako drzewo decyzyjne. Takie drzewo można porównać do zagnieżdżonych instrukcji IF-Then-Else, w których warunek jest zawsze prostym testem wartości w wektorze. A następnie gałęzie są albo dalsze instrukcje IF-Then-Then-Intee, albo zapewniają etykietę kategoryzacji. Drzewo decyzyjne uczy się na podstawie danych, znajduje najbardziej odpowiednie funkcje do różnicowania wyjścia i rekurencyjnie sprawdza podane dane wejściowe, aby przewidzieć etykietę. Drzewo decyzyjne może wyglądać tak, na przykład, jeśli wektor wejściowy to (A, B, C):
Jeśli A> 10Zauważ, że inne drzewa decyzyjne mają tę cechę oprócz tego. W związku z tym problemem jest nie tylko zlokalizowanie takiego drzewa decyzyjnego, ale także zidentyfikowanie najbardziej odpowiedniego. Fakt, że dane wejściowe jest próbką z znacznej kolekcji rzeczywistego i że drzewo decyzyjne jest zbudowane w celu zidentyfikowania wektorów w tym bardziej obszernym zestawie, dokładnie określa, co „odpowiednie” oznacza w tym przypadku. Dlatego definicja „odpowiedniego” zależy od (1) właściwości tego szerszego zestawu (na przykład prawdopodobieństwa dla każdego wektora) i (2) wpływ finansowego błędnego klasyfikacji w każdym konkretnym przypadku.
Terminologie związane z drzewem decyzyjnym
Węzeł główny: Węzeł główny drzewa decyzyjnego to miejsce, w którym wszystko zaczyna się. Cały zestaw danych jest reprezentowany, który jest następnie podzielony na dwa lub więcej jednorodnych zestawów.
Węzeł liścia: Węzły liści są ostatnimi węzłami wyjściowymi drzewa. Po czym drzewo nie można dalej podzielić.
Rozdzielać: Podział węzła decyzyjnego/węzła root na podnody zgodnie z określonymi warunkami jest znany jako podział.
Oddział: Gałąź lub poddrzewa to drzewo utworzone z węzła drzewa nadrzędnego.
Przycinanie: Przycinanie to procedura usuwania niepożądanych gałęzi drzewa.
Węzły rodziców i dzieci: Węzeł główny drzewa jest określany jako węzeł nadrzędny, podczas gdy węzły, które się z niego pochodzą.
Wdrażanie drzew decyzyjnych w Sklearn
Import bibliotek:
ze Sklearn.Zestawy danych importuj Make_classificationTworzenie zestawu danych:
X, y = Make_classification (Random_State = 42)Wyjście:
Dane pociągu to [[-2.02514259 0.0291022 -0.47494531… -0.33450124 0.86575519Tworzenie modelu:
Model = decyzyjna klasę (Random_State = 0)Wyjście:
tablica ([0.9, 1. , 0.8, 1. , 1. , 0.9, 0.9, 1. , 0.9, 1. ])Wniosek
Omówiliśmy modele drzew decyzyjnych w Sklearn, które tworzą strukturę przypominającą drzewo do klasyfikacji lub przewidywania etykiet wyjściowych. Dzielą węzły, aby zmniejszyć głębokość drzewa. Widzieliśmy także różne terminy związane z drzewami decyzyjnymi, takimi jak węzeł liściowy, węzły nadrzędne, przycinanie itp. Następnie omówiliśmy wdrożenie Sklearn.