Histogramy to wizualne reprezentacje gromadzenia ciągłego rozkładu danych. Histogram dzieli dane na przedziały lub pojemniki (zwykle na osi x), przy czym liczba punktów danych wpada do każdego pojemnika równa wysokości paska poza tym pojemnikiem. Te pojemniki nie mają tego samego rozmiaru, ale są blisko siebie (bez luk). Ponadto szerokości tych pojemników niekoniecznie są równe, ale są blisko siebie (bez luk).
W tym artykule omówimy Wyjaśnienie Histogramu Seaborn, które pomoże wizualizować dystrybucję danych w aplikacjach do nauki danych i uczenia maszynowego. W tym artykule pokaże, jak korzystać z Seaorn.metoda histplot () w celu utworzenia różnych różnych rodzajów wyświetlaczy histogramu. Wyjaśnimy również, co oznacza każdy z argumentów funkcji histogramu Seaorn.
Innym narzędziem do badania rozkładów danych jest wykres gęstości, a wykres gęstości jądra to inna nazwa tego. To wygładzony histogram. Piki wykresu gęstości pokazują, gdzie wartości są gromadzone przez cały czas. Metody wygładzania są dostępne w różnych rozmiarach i kształtach. Jedną z metod wygładzania histogramu jest oszacowanie gęstości jądra (KDE).
Składnia historyki morskiej
Metoda Histplot Searorn ma bardzo prostą składnię. Seorborn.Metoda histplot () jest specjalistyczną funkcją do wytwarzania histogramów w Seorn.
Sns.Hisplot (data = dataFrame_name, x = x-osi)Zwykle używamy argumentu danych w nawiasie, aby zidentyfikować ramkę danych, nad którymi chcemy pracować, oraz argument x w celu określenia konkretnej zmiennej, którą chcemy wykreślić. Jest jeszcze kilka argumentów, których moglibyśmy użyć do zmiany zachowania funkcji histplot ().
KDE: Możesz wstawić linię „oszacowanie gęstości jądra” na swoim histogramie za pomocą opcji KDE. Linia KDE to ciągła linia, która przedstawia gęstość danych. Linie KDE są wizualną reprezentacją sposobu rozkładu danych, które można użyć zamiast histogramów. Jednak linie KDE są czasami używane w połączeniu z histogramami. Jako argument, ta opcja przyjmuje wyrażenie logiczne (i.mi., Prawda czy fałsz).
odcień: Ten parametr pomaga w mapowaniu kolorów zmiennych dla wykresów.
Wagi: Wagi pomagają w określaniu wpływu każdego zestawu danych na liczbę każdego kosza.
STAT: Cztery kategorie metod statystycznych zastosowane do obliczania wartości bin to „liczba”, „częstotliwość”, „gęstość” i „prawdopodobieństwo”.
Kosze: Parametr pojemnika, który określa liczbę pojemników do użycia.
BinWidth: Szerokość pojemnika można tutaj dostosować.
Binrange: Za pomocą tej opcji można ustawić najniższe i największe wartości krawędzi.
paleta: W przypadku mapowania semantycznego Hue możemy wybrać nasze odcienie.
kolor: Jeśli nie jest dostępne mapowanie odcieni, ten argument pozwala nam wybrać pojedynczy kolor z matplotlib.
Przykład 1:
Tutaj stworzyliśmy prosty histogram za pomocą domyślnych parametrów. Zaimportowaliśmy biblioteki, które pomagają nam wygenerować działkę. Następnie ustawiamy styl dla Searorn, używając parametru stylu jako DarkGrid w funkcji zestawu. W przypadku Histplot załadowaliśmy zestaw danych „MPG”. Następnie wywoływana jest funkcja Histplot Seaborn, gdy dane dane i X są przekazywane i przypisywane wartość. Parametr x pobiera przyspieszenie nazwy pola z zestawu danych „MPG”.
Prosta reprezentacja wykresu histogramu jest następująca:
Przykład 2:
Używamy funkcji Randn do wizualizacji wykresu histogramu. W tym celu uwzględniliśmy niezbędne biblioteki wymagane do implementacji kodu. Następnie utworzyliśmy zestaw danych dla liczby losowej, a funkcja Randn generuje liczby losowe w określonym zakresie. Funkcja Histplot Seaborn przyjmuje parametr danych jako „liczbę”, który jest zestawem danych utworzonych z funkcją Randn i wartości parametru KDE do True.
Poniżej znajduje się wizualizacja histogramu za pomocą linii krzywej KDE:
Przykład 3:
Przykładowy przykładowy zestaw danych „Iris” z pakietu Seaorn jest używany. Dodaliśmy biblioteki Matplotlib, Searn, Panda i Numpy niezbędne do stworzenia działki histogramu. Następnie utworzyliśmy zmienną DF_IRIS, w której ładowany jest zestaw danych IRIS. Seaorn Histplot bierze w nim tęczówkę danych i ustawia parametr X jako długość sepal_dens z zestawu danych IRIS, wartość KDE na true, a gatunki zmiennej semantycznej są mapowane przy użyciu parametru odcienia.
Wiele gatunków rozkłady długości sepalu są widoczne na następującym wykresie z pojedynczym histogramem:
Przykład 4:
W tym przykładzie histogram jest znormalizowany, aby wysokość każdego paska reprezentuje prawdopodobieństwo, a nie liczbę punktów danych. Tutaj załadowaliśmy przykładowy zestaw danych „kropki”, który ma różne cechy. Wśród tych cech ustawiamy parametr x jako furning_rate w funkcji histplot z kropek zestawu danych. Określiliśmy również parametr STAT jako prawdopodobieństwo i wartość dyskretną do True, która łączy pęknięcia pojemnika z prętami wyśrodkowanymi na ich odpowiedniej wartości, aby przedstawić odrębne wartości w zestawie danych. W końcu parametr koloru jest ustawiony na zielony kolor.
Reprezentacja wykresu histogramu z prawdopodobieństwem wynosi następującą migawkę:
Przykład 5:
Możemy skonstruować drugą formę histogramu. Dwuwymiarowy histogram przedstawia dwie zmienne za pomocą osi x i y. Ten przykład ilustruje dwuwymiarowy histogram z paskiem kolorów, aby wskazać wartości. Colormap służy do wyświetlania paska kolorów. Jako zestaw danych wstawiliśmy ramkę danych pingwinów. Zmienne x i y, a także pojemniki, parametry skali dyskretnej i logarytmi. Aby połączyć pasek kolorów z fabułą, dodatkowo podaliśmy opcję CBAR. Dyskretny parametr służy do obsługi luk histogramu, a skala dziennika służy do ustawienia skali dziennika na osi danych.
Wizualizacja dwuwymiarowego wykresu histogramu pokazano na poniższym rysunku:
Wniosek
Wyjaśniliśmy Histplot w Seorbor. W tym poście użyliśmy funkcji Histplot (), aby przejść przez przewodnik wykresu histogramu Seaorn. Przeanalizowaliśmy różne przypadki tworzenia histogramu pod kątem wielowymiarowych okoliczności statystycznych, a także strategii biningowych.