Searorn to niezwykły moduł wizualizacji dla Pythona, który pozwala wykreślić statystyczne wizualizacje. Opiera się na oprogramowaniu MATPlotlib i jest ściśle związany ze strukturami danych pandy. W uczeniu się bez nadzoru techniki grupowania pomagają w pozyskiwaniu danych ustrukturyzowanych. W tym artykule zobaczymy, czym jest mapa klastra i jak konstruować ją i używać do różnych celów.
Składnia mapy klastra w Seborn
Mamy prostą składnię do mapy klastra Seaorn:
1 | Seorborn.clusterMap (dane ,, standard_scale = brak, rysunek = (6, 8), ** kwargs) |
Below, we explained the parameter passed inside the Seaborn cluster function along with some optional parameters.
dane: Do klastrowania używane są prostokątne dane. NAS nie jest dozwolone.
Pivot_kws: Jeśli dane są w uporządkowanej ramce danych, możesz użyć parametrów słów kluczowych, aby stworzyć prostokątną ramkę danych z obrotem.
metoda: Aby obliczyć klastry, zastosuj podejście powiązane. Aby uzyskać więcej informacji, zobacz dokumentację dla Scipy.grupa.hierarchia.połączenie().
metryczny: Dane powinny być mierzone pod względem odległości. Więcej parametrów można znaleźć w Scipy.przestrzenny.dystans.dokumentacja pdist (). Możesz utworzyć każdą macierz łącza ręcznie i dostarczyć ją jako rząd. Połączenie col wykorzystuje wskaźniki (lub metodologie) dla wierszy i kolumn.
Z_Score: Czy wyniki Z powinny być obliczone dla kolumn lub wierszy. Wyniki Z są obliczane jako z = (x - średnia)/std, co oznacza, że wartości każdego wiersza (kolumny) zostaną odejmowane ze średniej (kolumny) rzędu (kolumny), a następnie podzielone przez odchylenie standardowe (kolumna) (kolumna) (kolumna). Gwarantuje to średnią 0 i zmianę 1 dla każdego wiersza (kolumna).
standard_scale: Niezależnie od tego, czy normalizować ten wymiar, oznacza odejmowanie minimum i dzielenie każdego wiersza lub kolumny przez jego maksimum.
Rysuj: Ogólny rozmiar figur, który obejmuje szerokość i wysokość.
wiersz, col _cluster: Jeśli prawda, wiersze i kolumny będą skupione razem.
Row, col _Colors: Kolory do etykietowania wierszy lub kolumn. Można go użyć, aby sprawdzić, czy dane wewnątrz kolekcji są grupowane zbiorowo. W przypadku kilku kolorowych poziomów etykietowania możesz użyć ułożonych list lub ramki danych, jeśli zostanie dostarczone w formie pandy. Dataframe lub pandy to dobre opcje. Etykiety kolorów pochodzą z nazwy pola DataFrame lub nazwy serii. Kolory w serii danych/serii są również skorelowane z zestawem danych według indeksu, zapewniając, że kolory są prezentowane we właściwej sekwencji.
dendrogram, kolory _ratio: Procent wielkości graficznej jest dedykowany dwóch sekcjach granicznych. Po określaniu para odnosi się do współczynników rządu i koloru.
CBAR_POS: Na schemacie osie koloru są we właściwych pozycjach. Kolorowy pasek jest wyłączony, jeśli nie ustawisz go na żaden.
KWARGS: HeatMap odbiera wszystkie inne parametry słów kluczowych ().
Będziemy zbudować mapę cieplną za pomocą hierarchicznych klastrów przez funkcję klastermap. KlasterMap Seorborn jest naprawdę przydatną funkcją. Pokażemy Ci, jak użyć go z kilkoma przykładami:
Mapa klastra Seaorn to grafika macierzy, która umożliwia wizualizację elementów macierzy jako mapy ciepła, jednocześnie wyświetlając grupowanie wierszy i kolumn. W kolejnym przykładzie wprowadziliśmy wymagane biblioteki. Następnie stworzyliśmy ramę danych pracowników, które zawierają ich nazwiska, identyfikatory, wiek i pensję. Następnie przekonwertowaliśmy tę ramkę danych na pandy za pomocą PD.Funkcja DataFrame. Ustawiamy indeks pracownika_data według pola nazwy za pośrednictwem funkcji SET.
Następnie utworzyliśmy mapę klastra tej ramki danych, wywołując funkcję klastra Seaorn i przekazując pracownik_data do tej funkcji. Kolejny argument słów kluczowych, adnot, jest używany i jest ustawiony na true. Ten parametr pozwala nam zobaczyć liczby rzeczywiste wyświetlane na mapie cieplnej mapy klastra.
Wyjście mapy klastra znajduje się na poniższym rysunku. Zauważ, że nasze rzędy i kolumny są przełożone przez Seaorn:
Użyjmy przykładowego zestawu danych „MPG”, aby utworzyć mapę klastra. Musimy odfiltrować dane, które wysyłamy do tych map klastra do liczby kolumn tylko w ramce danych.
Zacznij od importowania niezbędnych bibliotek. Załadowaliśmy zestaw danych „MPG” w zmiennej „DataFrame_MPG”. Użyliśmy również funkcji Dropna do usunięcia zerowych wierszy wewnątrz ramki danych. Wydrukowaliśmy nazwę kolumny w ramach danych „mpg” wraz z rozmiarem kolumny. Następnie mamy funkcję mapy klastra, w której cała oprawa danych „MPG” jest przekazywana z określonymi kolumnami.
Trzy kolumny są pokazane w konsoli.
Kiedy wykonaliśmy poprzedni kod, widzimy mapę klastra z tylko jedną kolumną o jasnym kolorze. Wynika to z faktu, że skale dla tych kilku kolumn są różne.
Przykład 3:
Istnieje kilka opcji skalowania danych w funkcji mapy klastra. Ale jedną prostą metodą jest wykorzystanie standardowego argumentu skali. Jeśli chcemy skalować każdy wiersz, musimy przekazać wartość zerową jako argument. Jeśli chcemy skalować każdą kolumnę, wartość wyniesie 1. Teraz mamy wartość skali 1. Ponadto przekazaliśmy argument metody w funkcji klastra, która przypisała wartość jako pojedynczą. Ciąg można przekazać jako pojedynczą wartość, co jest minimalnym połączeniem.
Mapa klastra „Iris” ramka danych jest nieco inna na rysunku, gdy przekazaliśmy parametry skali i metody.
Przykład 4:
Tutaj dodaliśmy parametr Row_Color w funkcji mapy klastra Seaorn. Przypisaliśmy każdy kolor do gatunków polowych i wyciągnęliśmy informacje z kolumny gatunkowej pingwinów ramy danych.
Wniosek
Teraz możesz ustanowić mapę klastra morskiego, ponieważ wyjaśniliśmy ją z niektórymi przykładami różnych parametrów. SEABORD's ClusterMap ma również wiele alternatyw do obliczania długości lub podobieństwa siatki z danych, aby stworzyć mapę cieplną.