Pandy kategoryczne

Pandy kategoryczne
Zmienne kategoryczne stosowane w statystykach są reprezentowane przez typ danych danych kategorii pandas. Dane w czasie rzeczywistym zwykle zawierają kolumny tekstowe z powtarzającymi się danymi. Zawsze jest pewne powtórzenie w funkcjach, takich jak płeć, grupa krwi i kody. Można je traktować jako przykłady kategorycznego. Istnieje tylko stała i ograniczona liczba lub zakres możliwych wartości dla zmiennych kategorycznych. Dane kategoryczne mogą mieć zamówienie oprócz stałej długości, ale nie mogą wykonać operacji numerycznych. W tym samouczku dowiemy się, jak tworzyć kategoryczne w pandy i zmienić różne danych na kategoryczne.

Kiedy używać kategorycznego?

W poniższych scenariuszach możemy użyć kategorycznego danych:

  • Zmienna łańcuchowa z zaledwie kilkoma wyraźnymi wartościami. Aby zapisać pamięć, zmienną można przenieść na zmienną kategorii.
  • Logiczna zmienna zamówienia („jeden”, „dwa” i „trzy”) i zmienna o kolejności leksykalnej nie są takie same. Sortowanie i minimum/maksimum zastosuje kolejność logiczną w przeciwieństwie do kolejności leksykalnej, jeżeli problem zostanie przekonwertowany na kategorię, a kategorie otrzymują zamówienie.
  • Inne biblioteki Pythona powinny traktować kolumny jako zmienne kategoryczne (na przykład w celu użycia odpowiednich typów lub funkcji wykresów statystycznych).

Jak tworzyć kategorie pand?

Istnieje szeroki zakres sposobów tworzenia kategorycznego w pandy. Niektóre funkcje i atrybuty tworzenia kategorycznych w pandy zostaną omówione w następujących przykładach:

Przykład nr 1: Tworzenie kategorycznego za pomocą serii pandy

Kategoryczne można utworzyć w pandy za pomocą PD.Funkcja serii (). Do tworzenia serii najpierw zaimportujemy moduł pandas.

Użyliśmy listy ciągów [„ASD”, „123”, „def”, „456”] w PD.Seria () funkcjonuje jako argument. Określiliśmy również parametr „Dtype” do „kategorii” do przechowywania danych jako kategorycznych. Zobaczmy kategorię, drukując zmienną „ciąg”.

Jak widać na wyjściu, nasza seria jest przekonwertowana na kategoryczne, określając dType = „kategoria”.

Przykład nr 2: Tworzenie kategorycznej ramki danych w pandy

Za pomocą pandy.DataFrame (dType = ”kategoria”), można skonstruować dane kategoryczne. Podobnie jak seria, atrybut DType funkcji DataFrame () jest ustawiony na „kategorię”, aby utworzyć kategoryczną ramkę danych. Ustawiając DTYPE = ”kategorię” w konstruktorze DataFrame, wszystkie kolumny w ramce danych mogą być kategoryczne podczas budowy lub po budowie. Utwórzmy przykładową ramkę danych, aby pokazać różnicę między zwykłymi i kategorycznymi ramkami danych.

Aby stworzyć naszą „DF”, najpierw zaimportowaliśmy moduły pandy i numpy, aby używać ich funkcji i funkcji. Po zaimportowaniu modułów stworzyliśmy słownik „dane” o dwóch klawiszach, „col1” i „col2”. Słownik „danych” jest następnie przekazywany do PD.Funkcja dataFrame () w celu utworzenia „DF” DataFrame.

Jest to zwykła ramka danych pand z kolumnami przechowującymi dane numeryczne. Aby określić tytuł danych kolumn w „DF” DataFrame, zostanie użyty atrybut Dtypes.

Data danych kolumn „col1” i „col2” to „int64”. Teraz pokażemy, jak utworzyć kategoryczną ramkę danych z tymi samymi etykietami i wartościami kolumn.

Jak widać w tym ramie danych, określliśmy DTYPE do „kategorii”. Sprawdźmy dane dotyczące tego danych danych:

Jak pokazano, danych danych kolumn tej DataFrame to „kategoria”. Jest to kategoryczna ramka danych.

Przykład nr 3: Tworzenie kategorycznej za pomocą funkcji ASTYPE ()

Obiekt Panda można przekonwertować na konkretny DTYPE za pomocą „DataFrame.Metoda asype () ”. Dodatkowo metoda Astype () zapewnia możliwość zmiany odpowiedniej istniejącej kolumny na typ kategorii. Kiedy jesteśmy zobowiązani do konwersji danych określonej kolumny DataFrame na inny danych, DataFrame.Można użyć funkcji ASTYPE (). Najpierw utworzymy przykładową ramkę danych. Następnie przekonwertujemy kolumny DataFrame na kategoryczne.

Stworzyliśmy naszą ramkę danych, przekazując słownik w PD.DataFrame () funkcja jako argument.

Jak widać w poprzednim „DF”, istnieją trzy kolumny, A, B i C, przechowywanie wartości [1, 3, 5, 7], [2.1, 4.2, 8.3, 16.4] i [„John”, „Tim”, „Clay”, „Mike”] odpowiednio]. Aby określić danych z każdej kolumny, użyjemy atrybutu DTYPES.

Data danych kolumny „A” to „INT64”, podczas gdy dane z danych kolumny „B” i „C” to odpowiednio „float64” i „obiekt”. Teraz użyjemy funkcji ASTYPE () do zmiany danych określonych kolumn.

Wewnątrz DF.Astype () funkcja, przekazaliśmy słownik Python zawierający etykiety kolumn „a” i „c” jako klawisze, a „kategoria danych” jest określona jako wartość dla obu etykiet kolumnowych. Sprawdźmy, czy dane danych zostały zmienione na kategorię, czy nie.

Zauważ, że kolumny „a” i „c” zostały pomyślnie przekonwertowane na kategorię.

Przykład nr 4: Korzystanie z funkcji kategorii () do utworzenia kategorycznego

Możemy tworzyć zmienne kategoryczne w pandy za pomocą funkcji kategorii (). Najpierw przyjrzymy się składni funkcji (), a następnie użyjemy go do utworzenia kategorycznego.

Składnia:

Pandy.Kategoria (val, kategorie = brak, uporządkowane = brak, dtype = brak)

Parametry:

kategorie: Indeksowy. Charakterystyczne kategorie kategorii. Zakłada się, że kategorie są odrębnymi wartościami „wartości”, jeśli nie są określone.

Zamówiono (opcjonalnie): Jeśli ten kategoryczny jest uważany za uporządkowany kategoryczny. Jeśli prawda, kategoryczne wyjście zostanie posortowane. Po posortowaniu uporządkowany kategoryczny szanuje zamówienie atrybutu.

DTYPE: CategoricalDtype. Instancja do użycia dla kategorycznego.
Teraz stwórzmy kategoryczne pand za pomocą PD.Funkcja kategorii (). Po pierwsze, zaimportujemy moduł pandas, aby stworzyć nasz kategoryczny.

Jak widać, stworzyliśmy dwie kategorie, „Cat1” i „Cat2”, przekazując listę wartości w nawiasach funkcji kategorii (). W wyjściu zauważysz, że kategoryczne „CAT1” składają się z 3 kategorii [1, 3, 4, 6], podczas gdy kategoryczne „CAT2” składa się z 6 kategorii [„a”, „d”, „g”, „j” , 'południowy zachód'].

Teraz sprawdźmy dane wyjściowe, określając parametr „uporządkowany” do „True”.

Jak można zauważyć, określając uporządkowane = true, kategoryczne wyjście jest teraz sortowane [1 < 3 < 4 < 6].

Teraz wypróbujmy inny przykład, gdy określono parametr „kategorii”.

Wewnątrz PD.Funkcja kategorii (), lista [„1”, „2”, „3”, „2”, „1”, „4”, „2”] jest przekonwertowany na kategoryczne, podczas gdy lista ['3 „,„ 1 ”,„ 2 ”] jest określony jako parametr„ kategorii ”. Wydrukujmy kategoryczne „CAT”, aby zobaczyć wyjście.

W rezultacie każda wartość, która nie istnieje na liście kategorii, zostanie uznana za NAN. Z listy „Val” wartość „4” nie jest obecna na liście argumentów „kategorii”, więc jest uważana za NAN.

Możesz także wykonywać różne funkcje z kategoryczną zmianą kategorii, dołączanie nowych kategorii, kategorie usuwania itp.

Wniosek

W tym samouczka. Zmienna kategoryczna ma ustalony, zwykle ograniczony zestaw możliwych wartości. Po przejściu przez ten samouczek możesz znać kategoryczne w pandy i możesz samodzielnie tworzyć kategoryczne. W tym samouczku zaimplementowaliśmy kilka przykładów, aby nauczyć Cię, jak tworzyć kategoryczne przy użyciu serii, kolumn DataFrame, funkcji Astype () i za pomocą funkcji kategorii ().