Pojemniki na pand

Pojemniki na pand
W tym samouczku dowiesz się o funkcjach CUT () i QCUT (), dwóch różnych metodach pandów, aby wyrzucić dane. Możesz przerzucić dane do kosza równej i niestandardowej. Podczas umieszczania danych w niestandardowych pojemnikach może pomóc w uzyskaniu wglądu w logiczne klasyfikacje kategoryzacji, pojemniki na równe rozmiary ułatwiają zrozumienie rozkładu. Binowanie danych można wykonać za pomocą funkcji CUT () i QCUT ().

CUT () Funkcja

Gdy wymagane jest sortowanie i segment wartości danych na pojemnikach, użyjesz metody cut (). Metoda cut () działa tylko z obiektami, takimi jak tablice jednowymiarowe. Metoda CUT () przeprowadza analizę statystyczną na dużym zestawie danych skalarnych/numerycznych. Ta funkcja może również przekonwertować elementy tablicy na różne pojemniki.

Składnia:

Pandy.cięcie (dane, pojemniki, po prawej, etykiety, retbiny)

Parametry:

  1. X: Tablica jednowymiarowa; tablica, którą chcemy binować.
  2. pojemniki: Krawędzie bin są zdefiniowane dla segmentacji.
  3. Prawidłowy: Domyślnie jest to ustawione na true. Wskazuje, czy uwzględniono najbardziej prawą krawędź pojemników, czy nie
  4. etykiety: Może być bool lub macierz i jest to opcjonalne. Określono etykiety do napełnionych pojemników. Długość musi pasować do wyprodukowanych pojemników. Jeśli jest to fałszywe, zwracane są tylko wskaźniki pojemników całkowitych.
  5. retbiny: Bool, domyślnie fałsz. Czy pojemniki są zwracane, czy nie. Gdy pojemniki są dostarczane jako skalar, jest to przydatne.

Przykład 1: z parametrem pojemników
Miejmy ramkę danych, która zawiera 12 liczb całkowitych w kolumnie „wartości1”. Utwórz 8 pojemników w zakresie 15 i przechowuj pojemniki w kolumnie „Bins”.

importować pandy
numeryczne = pandy.DataFrame ('wartości
Drukuj (numeryczne)
# Utwórz 8 pojemników
numeryczne [„pojemniki”] = pandy.CUT (numeryczne [„wartości1 '], pojemniki = [1,15,30,45,60,75,90,105]))
wydrukować()
Drukuj (numeryczne)
wydrukować()
Drukuj (numeryczne [„pojemniki”].unikalny())

Wyjście:

Wyjaśnienie:
Pojemniki są tworzone dla wszystkich wartości. Wyświetlamy również rozmiary pojemników za pomocą funkcji unikalnej (). Teraz widać, że jeden kosz jest przydzielany dla każdej wartości.

Przykład 2: z parametrem etykiet
Utwórz 5 pojemników w zakresie po 10 i przechowuj pojemniki w kolumnie „pojemniki” dla kompletu danych o 7 wierszy.

importować pandy
numeryczne = pandy.DataFrame ('wartości1': [2,5,12,32,20,3,10]))
# Utwórz 5 pojemników i określ etykiety dla każdego kosza.
numeryczne [„pojemniki”] = pandy.cut (numeryczne [„wartości
wydrukować()
Drukuj (numeryczne)

Wyjście:

Wyjaśnienie:
Pojemniki są tworzone dla wszystkich wartości.

  1. W przypadku kosza [1-10] etykieta jest „pierwsza”. Wartości 2, 5, 3 i 10 należą do pierwszego pojemnika.
  2. W przypadku kosza [11-20] etykieta jest „druga”. Wartości 12 i 20 należą do drugiego pojemnika.
  3. W przypadku kosza [21-30] etykieta jest „trzeci”. W tym zakresie nie ma żadnych wartości.
  4. W przypadku bin [31-40] etykieta jest „ostatnia”. Wartość 32 należy do tego kosza.

QCUT () funkcja

Funkcja QCUT () jest znana jako metoda „dyskretyzacji opartej na kwantylu”. Oznacza to, że QCUT () służy do tworzenia pojemników o równej wielkości poprzez dzielenie danych podstawowych. Funkcja QCUT () jest również znana jako „funkcja dyskretyzacji opartej na kwantylu”. Oznacza to, że QCUT () służy do podziału danych podstawowych na pojemniki o równych rozmiarach.

Składnia:

Pandy.Cut (dane, q, po prawej, etykiety, retbiny)

Parametry:

  1. X: Tablica jednowymiarowa, tablica, którą chcemy binować.
  2. Q: Liczba kwantyli.
  3. Prawidłowy: Domyślnie jest to ustawione na true. Wskazuje, czy uwzględniono najbardziej prawą krawędź pojemników, czy nie.
  4. etykiety: Może być bool lub macierz i jest to opcjonalne. Określono etykiety do napełnionych pojemników. Długość musi pasować do wyprodukowanych pojemników. Jeśli jest to fałszywe, zwracane są tylko wskaźniki pojemników całkowitych.
  5. retbiny: Bool, domyślnie fałsz. Czy pojemniki są zwracane, czy nie. Gdy pojemniki są dostarczane jako skalar, jest to przydatne.

Przykład 1:
Miejmy ramkę danych, która zawiera 12 liczb całkowitych zarówno w kolumnach „wartości1”, jak i „wartości2”. Utwórz 2 kwantyle dla obu kolumn.

importować pandy
numeryczne = pandy.DataFrame („wartości,
„Wartości2”: [11 22,33,44,55,66,77,88,99,100,12,12]))
Drukuj (numeryczne)
# Utwórz 2 kwantyle dla wartości
numeryczne [„wartości bin 1 '] = pandy.QCUT (numeryczne [„wartości1 '], 2)
# Utwórz 2 pojemniki dla wartości 1
numeryczne [„wartości bin 2 '] = pandy.QCUT (numeryczne [„wartości 2 '], 2)
wydrukować()
Drukuj (numeryczne)

Wyjście:

Wyjaśnienie:
Stworzyliśmy 2 kwantyle dla każdej kolumny. Teraz widać, że każdy kwant ma równą liczbę wartości.

  1. W kolumnie „wartości1” kwantyle to (11.999, 44.5] i (44.5, 100.0]. Jest 6 dla obu kwantów.
  2. W kolumnie „wartości2” kwantyle to (10.999, 49.5] i (49.5, 100.0]. Jest 6 dla obu kwantów.

Przykład 2: qcut () vs cut ()
Miejmy ramkę danych, która zawiera 12 liczb całkowitych zarówno w kolumnach „wartości1”, jak i „wartości2”. Teraz, używając CUT (), utwórz dwa pojemniki. I za pomocą QCUT () utwórz 2 kwantyle dla kolumny „Wartości2”.

importować pandy
numeryczne = pandy.DataFrame („wartości,
„Wartości2”: [11 22,33,44,55,66,77,88,99,100,12,12]))
# Utwórz 2 kwantyle dla wartości 2 kolumny
numeryczne ['qcut ()'] = pandy.qcut (numeryczne ['wartości2'], q = 2)
# Utwórz 2 pojemniki dla wartości 2 kolumny
numeryczne ['cut ()'] = pandy.CUT (numeryczne [„wartości2 '], pojemniki = 2)
print (numeryczne ['qcut ()'])
wydrukować()
print (numeryczne ['cut ()'])

Wyjście:

Wyjaśnienie:
Teraz widzisz faktyczną różnicę:

QCUT () grupuje dane w równe części. Sześć (6) wartości ma (10.999, 49.5] i kolejne 6 poniżej (49.5, 100.0]. Podczas gdy w CUT () 7 wartości ma (10.911, 55.5] i kolejne 5 wartości (10.911, 55.5].

Wniosek

Omówiliśmy funkcje CUT () i QCUT (), aby wyrzucić dane w Pythonie Pandas. Widzieliśmy składnię obu funkcji i opisali ich parametry, aby pomóc Ci podczas korzystania z tych funkcji. W przykładach tego samouczka pokazaliśmy, jak podzielić dane na pojemniki, oznaczyć pojemniki i jak korzystać z równych danych biningowych za pomocą funkcji CUT () i QCUT (). Teraz możesz być w stanie samodzielnie wyrzucić dane za pomocą tych funkcji.