Jak używać pudełka w Python

Jak używać pudełka w Python
Wykres pola służy do podsumowania zestawów danych za pomocą metody wykresu pudełka i wąsa. Ta funkcja pomaga użytkownikom poprawnie zrozumieć podsumowanie danych. Wykresy pudełkowe mogą być bardzo przydatne, gdy chcemy wiedzieć, w jaki sposób dane są dystrybuowane i rozpowszechniane. W wykresie danych używanych jest trzy typy kwartyli do wykreślenia danych. Wartości te obejmują medianę, maksimum, minimum, wyższe i niższe wartości statystyczne. Działka pola podsumowuje te dane w 25th, 50th, i 75th percentyle. Ten samouczek pokaże, jak tworzyć wykresy pudełkowe na podstawie danego zestawu danych za pomocą Pandy I Seorborn Biblioteki Pythona.

Warunek wstępny

Jeśli jesteś nowym użytkownikiem Pythona, najpierw będziesz musiał skonfigurować środowisko, aby pokazać wyjście wykresu pudełka. Możesz użyć dowolnego interpretera Python do wykonywania kodu. W tym samouczku użyję Spyder3 Aby wykonać kod. Jeśli nie zainstalowałeś Pandy I Seorborn Biblioteki wcześniej, następnie należy uruchomić następujące polecenie z terminala, aby zainstalować te biblioteki:

$ PIP3 Zainstaluj pandy morskie

Działki z pandami

boksplot () metoda Pandy służy do generowania cyfr wykresu opartych na ramce danych. Ta metoda zawiera wiele argumentów; Niektóre z tych argumentów są używane w poniższych przykładach. Ta część samouczka będzie zawierać dwa przykłady, które pokażą, jak tworzyć wykresy pudełkowe Pandy. Możesz użyć losowo wygenerowanych danych w bibliotece Numpy lub danych z pliku CSV, aby wygenerować wykres pudełkowy Pandy.

Przykład 1: Wykresy pudełkowe na podstawie losowych wartości

Wykresy pudełka w poniższym przykładzie zostały wygenerowane przy użyciu za pomocą Numpy I Pandy. Biblioteka Numpy jest używana w skrypcie do utworzenia obiektu ramki danych poprzez generowanie dwuwymiarowej tablicy losowych wartości, które zawierają 5 wierszy i 5 kolumn. Zawartość ramki danych zostanie wydrukowana za pomocą głowa() metoda. Następnie boksplot () Metoda służy do generowania wykresów pudełkowych o niebieskim kolorze, wielkości czcionki 10 i 30 stopni obrotowego do wyświetlania wartości kolumny.

#!/usr/bin/env python3
# Importuj bibliotekę pandas
importować pandy jako PD
# Importuj bibliotekę Numpy, aby utworzyć losowe liczby dla tablicy
importować Numpy jako NP
"
Generuj zestaw danych na podstawie losowo utworzonej tablicy Numpy
i pięć wartości kolumn
"
DataFrame = PD.DataFrame (NP.losowy.Randn (5,5), kolumny = [„2016”, „2017”, „2018”,
„2019”, „2020”])
# Wydrukuj wartości DataFrame
Drukuj (DataFrame.głowa())
# Wyświetl wykres pola na podstawie wartościFrame DataFrame
ramka danych.boxplot (grid = „false”, color = „blue”, fontsize = 10, rot = 30)

Wyjście

Następujące dane wyjściowe pojawią się po wykonaniu kodu.

Przykład 2: Wykresy pudełkowe na podstawie danych CSV

Wykresy pudełka w poniższym przykładzie zostały wygenerowane na podstawie danych CSV. Utwórz plik CSV o nazwie Bank.CSV Korzystanie z następujących danych.

Bank.CSV

SL, nazwa_ klienta, konto_typ, płeć, saldo
1, Maria Hernandez, Saving, kobieta, 120000
2, Mary Smith, obecna, kobieta, 40000
3, David Smith, obecny, mężczyzna, 379000
4, Maria Rodriguez, Saving, kobieta, 56000
5, Mark Lee, Saving, Male, 93500
6, Jonathan Bing, obecny, mężczyzna, 5900
7, Daniel Williams, Saving, Male, 2300
8, Mike Brown, prąd, mężczyzna, 124888
9, Paul Smith, obecny, mężczyzna, 59450
10, Maria Lopez, Saving, kobieta, 487600

W poniższym skrypcie matplotlib Biblioteka została użyta do skonfigurowania rozmiaru figury wykresu pudełka i do wyświetlenia wyjściowego. Wszystkie zapisy bank.CSV Plik załadowano za pomocą read_csv () metoda Pandy. Pierwsze 8 rekordów ramki danych zostały następnie wydrukowane za pomocą głowa() metoda. boksplot () Metodę zastosowano w poniższej instrukcji, aby narysować figurę pola przy użyciu czerwonego koloru w oparciu o 'Typ konta' z kolumną nazwaną 'Balansować.'

#!/usr/bin/env python3
# Importuj pandy do generowania wykresu pudełkowego
importować pandy jako PD
# Importuj matplotlib, aby skonfigurować rozmiar figury wykresu pudełka
importować matplotlib.Pyplot as Plt
# Importuj get_ipython do formatu wyjścia wbudowany
z IPython import get_ipython
get_ipython ().run_line_magic („matplotlib”, „inline”)
# Skonfiguruj rozmiar figury
plt.rcparams ['rysunek.rysunek '] = (8,4)
# Załaduj zestaw danych z pliku CSV
df = pd.read_csv ("bank.CSV ”)
# Wydrukuj pierwsze 8 rzędów załadowanych danych
Wydrukuj (DF.głowa (8))
# Wyświetl wykresy pola na podstawie użytego parametru
df.boxplot (według = 'concT_Type', grid = 'true', kolumna = ['bilans'], color = 'czerwony')

Wyjście

Następujące dane wyjściowe pojawią się po wykonaniu kodu.

Działki z Seborn

Kolejną biblioteką Python powszechnie używaną do rysowania działek jest biblioteka Seorborn. Jedną z ważnych funkcji tej biblioteki jest to, że ma ona wiele wbudowanych przykładowych zestawów danych do testowania różnych zadań. Następne dwa przykłady obejmują użycie dwóch różnych przykładowych zestawów danych do rysowania wykresów pudełkowych za pomocą Seorborn biblioteka.

Przykład 3: Wykresy pudełkowe oparte na parametrze x

Poniższy przykład używa przykładowego zestawu danych, o nazwie 'Diamenty, ' z Seorborn Biblioteka do wygenerowania działki pudełkowej. Tutaj styl siatki jest zdefiniowany za pomocą set_style () metoda. load_dataset () Metoda jest używana do załadowania danych ''diamenty ' Zestaw danych. Pierwsze pięć rekordów jest wydrukowane z zestawu danych i boksplot () Następnie stosuje się metodę do narysowania wykresu pola na podstawie nazwy kolumny 'głębokość,„Z niebieskim kolorem.

# Importuj bibliotekę morską, aby wygenerować fabułę pudełka
Importuj Seaorn jako SNS
# Importuj matplotlib, aby skonfigurować rozmiar figury wykresu pudełka
importować matplotlib.Pyplot as Plt
# Importuj get_ipython do formatu wyjścia wbudowany
z IPython import get_ipython
get_ipython ().run_line_magic („matplotlib”, „inline”)
# Skonfiguruj styl siatki
Sns.set_style („Whitegrid”)
# Skonfiguruj rozmiar figury
plt.rcparams ['rysunek.rysunek '] = (8,4)
# Załaduj przykładowy zestaw danych
Diamond_Dataset = Sns.Load_Dataset („Diamonds”)
# Wyświetl pierwsze 5 rekordów zestawu danych
Drukuj (Diamond_Dataset.głowa())
# Narysuj wykresy pudełka Rysunek
Sns.boxplot (x = diamond_dataset ['głębokość'], color = 'blue')

Wyjście

Następujące dane wyjściowe pojawią się po wykonaniu kodu.

Przykład 4: Wykresy pudełkowe na podstawie parametrów x i y

Poniższy przykład używa przykładowego zestawu danych o nazwie 'loty„Aby narysować fabułę pudełka. Tutaj, zarówno parametry x i y The Boxplot () Metoda służy do narysowania rysunku. Pozostałe stwierdzenia są podobne do poprzedniego przykładu.

# Importuj bibliotekę morską, aby wygenerować fabułę pudełka
Importuj Seaorn jako SNS
# Importuj matplotlib, aby skonfigurować rozmiar figury wykresu pudełka
importować matplotlib.Pyplot as Plt
# Importuj get_ipython do formatu wyjścia wbudowany
z IPython import get_ipython
get_ipython ().run_line_magic („matplotlib”, „inline”)
# Skonfiguruj styl siatki
Sns.set_style („DarkGrid”)
# Skonfiguruj rozmiar figury
plt.rcparams ['rysunek.rysunek '] = (12,4)
# Załaduj przykładowy zestaw danych
Flight_Dataset = SNS.load_dataset („loty”)
# Wyświetl pierwsze 5 rekordów zestawu danych
Drukuj (Flight_Dataset.głowa())
# Narysuj wykresy pudełka Rysunek
Sns.boxplot (x = „miesiąc”, y = „pasażerowie”, data = flight_dataset, color = „blue”)

Wyjście

Następujące dane wyjściowe pojawią się po wykonaniu kodu.

Wniosek

Podczas pracy z dużą ilością danych możesz chcieć podsumować dane za pomocą schematu, takiego jak wykres pudełkowy. W tym samouczku wykorzystano kilka przykładów, aby pokazać, jak generować wykresy pudełkowe z dwiema bibliotekami Python.