Unikalne wartości kolumny pandas

Unikalne wartości kolumny pandas
Najpopularniejsza biblioteka nauk danych Python nazywa się pandy. Oferuje wysokowydajne, przyjazne dla użytkownika struktury danych i narzędzia dla programistów Pythona. Po zrozumieniu fundamentalnych operacji i sposobu ich użycia, pandy jest przydatnym narzędziem do zmiany danych. Spójrzmy na jedną taką operację w tym samouczku, wraz z niektórymi przykładami i wyjściem, aby uzyskać wyraźne wartości w kolumnie pandasframe.

Jak wyodrębnić unikalne wartości z kolumny pandas?

Można użyć kilku sposobów na znalezienie unikalnych wartości w pandy. Najczęstszym sposobem wyodrębnienia unikalnych wartości z kolumny jest użycie funkcji unikalnej () i funkcji Drop_Duplicates (). Przed użyciem tych funkcji najpierw zobaczmy ich składnię.

Składnia funkcji unikalnej (): seria.unikalny( )

Zwroty: ndarray lub extensionArray

Składnia funkcji Drop_Duplicate ()

Ramka danych.Drop_duplicates (podzbiór = brak, keep = 'first', inplace = false)


Parametry:

podzbiór: Podzbiór wymaga listy etykiet kolumnowych lub kolumny. Brak jest dla niego wartością domyślną. Po przejściu kolumn uwzględni tylko duplikaty.

trzymać: Aby kontrolować, w jaki sposób rozważane są duplikaty wartości. Możemy użyć trzech odrębnych wartości; Domyślnie jest to „pierwszy”.

    1. Jeśli „pierwszy”, pierwsza wartość zostanie uznana za unikalną, a reszta tych samych lub powtarzających się wartości zostanie uznana za duplikat.
    2. Jeśli „ostatni”, ostatnia wartość zostanie uznana za unikalną, a reszta tych samych lub powtarzających się wartości będzie uważana za duplikat.
    3. W razie fałszu wszystkie te same wartości będą uważane za duplikat.

w miejscu: Wartość logiczna. Jeśli prawda, usuwa zduplikowane wiersze.

Zwroty: W zależności od argumentów typem zwrotu będzie ramka danych z eliminowanymi duplikatami wierszy.

Jak widzieliśmy składnię, przejdźmy do przykładów, aby dowiedzieć się, jak wyodrębnić unikalne wartości z kolumny pandas.

Przykład nr 01: Uzyskaj unikalne wartości z kolumn pandas za pomocą metody unikalnej ()

Podczas pracy z pojedynczą kolumną DataFrame, „Pandy.Ramka danych.stosowana jest metoda unikalnej () ”. Zwraca wszystkie unikalne elementy kolumny. Metoda generuje ramkę danych, która zawiera odrębne elementy kolumny i ich towarzyszące etykiety indeksu jako wyjście. Najpierw utwórzmy ramkę danych, abyśmy mogli użyć funkcji unikalnej () do wyodrębnienia unikalnych wartości z jej kolumn.


Po zaimportowaniu modułu PandaS utworzyliśmy naszą strumień za pomocą słownika pandas. Zdefiniowaliśmy klucze naszego słownika jako „imię” i „kursy” i przypisaliśmy ten słownik do zmiennej „DIC”. Zmienna „DIC” jest następnie przekazywana w parametrze PD.Metoda dataFrame () jako argument do utworzenia „DF” DataFrame. Możemy wyświetlić naszą frame za pomocą funkcji print ().


Załóżmy, że nasza strumienia danych składają się z nazwisk studentów i kursów, na które są one zapisane. W takiej sytuacji trudno jest policzyć każdy wiersz ramki danych, aby określić określoną kategorię kursu w celu ustalenia ogólnej liczby badanych kursów. W poprzedniej ramce danych kolumna „kursy” zawierająca nazwę kursów („angielski”, „matematyka”, „chemia”, „matematyka”, „statystyka”, „matematyka”, „angielski”, „dataScience”). Więcej niż jeden student studiuje niektóre kursy. Aby uzyskać unikalne kursy z kolumny „kursy”, użyjemy funkcji unikalnej ().


W wyniku otrzymujemy szereg elementów zawierających unikalne kursy w naszym ramie danych. Załóżmy, że chcesz policzyć całkowitą liczbę odrębnych elementów zamiast szukać nazw unikalnych wartości w kolumnach DataFrame. W tym celu możemy użyć funkcji Nunique (). Całkowita liczba różnych wartości dla każdej kolumny jest zwracana metodą Nunique ().


Funkcja Nunique () zwróciła „5”, co oznacza, że ​​w kolumnie „DF” jest w sumie 5 unikalnych wartości.

Przykład nr 02: Za pomocą metody unikalnej () uzyskaj unikalne wartości z kolumn numerycznych

Aby utworzyć ramkę danych, najpierw zaimportujemy moduł pandas. Następnie utworzymy naszą ramkę danych za pomocą PD.Funkcja dataFrame ().

Jak widać powyżej, stworzyliśmy ramkę danych, przekazując słownik wewnątrz funkcji DataFrame (). Aby wizualizować nowo utworzoną ramkę danych, użyjemy funkcji print ().


W tym ramie danych mamy dwie etykiety, „wiek” i „wynagrodzenie”, posiadające dane liczbowe. W kolumnie „Wiek” mamy wiek jednostek jako („20”, „24”, „20”, „22”, „21”, „28”, „31”, „25”), podczas gdy The Kolumna „Wynagrodzenie” przechowuje pensje osób („1000”, „1000”, „1300”, „1100”, „1400”, „1000”, „1100”, „1400”). Teraz użyjemy funkcji unikalnej (), aby uzyskać odrębne wartości z kolumn z ramy danych.


Jak pokazuje poprzedni skrypt, użyliśmy funkcji unikalnej (), aby uzyskać odrębne wartości z kolumny „wynagrodzenie”. Funkcja zwróciła wyjście w postaci tablicy [„1000”, „1300”, „1100”, „1400”] zawierający wszystkie unikalne wartości z kolumny „Wynagrodzenie” w ramce danych. Możemy również użyć funkcji sort () do sortowania danych wyników w kolejności rosnącej.


Aby sortować tablicę wyjściową (z unikalnymi wartościami z kolumny pensji), przypisaliśmy tablicę do zmiennej „U”. Funkcja sort () jest stosowana do tablicy w celu sortowania wartości tablicy wyjściowej w kolejności rosnącej.

Przykład nr 03: Uzyskaj unikalne wartości z wielu kolumn za pomocą metody unikalnej ()

Nauczyliśmy się, jak wyodrębnić zestaw odrębnych wartości z pojedynczej kolumny DataFrame. Ale w niektórych sytuacjach. Możesz wymagać znalezienia różnych wartości w wielu kolumnach. W takich okolicznościach, przed użyciem funkcji unikalnej () w obiekcie serii (kolumna), połączymy wartości kolumn, z których chcemy uzyskać unikalne wartości. Użyjemy tej samej ramki danych, co utworzyliśmy w przykładzie nr 2.


Załóżmy, że chcemy uzyskać odrębne wartości z kolumn „wiek” i „wynagrodzenie”. Najpierw scalamy dane obu kolumn za pomocą następującego skryptu.


W poprzednim kodzie wybraliśmy dane z kolumny „wiek”, a następnie użyliśmy dodatku („wynagrodzenie”), aby scalić dane kolumny „Wynagrodzenie” z danymi kolumny „Age”. Po połączeniu danych użyliśmy funkcji unikalnej (), aby uzyskać odrębne wartości z obu kolumn.


Jak widać, pomyślnie wyodrębniliśmy unikalne wartości z obu kolumn.

Przykład nr 04: Za pomocą funkcji Drop_Duplicates (), aby uzyskać unikalne wartości z kolumn pandas

Funkcja Drop_Duplicates to wbudowana funkcja biblioteki PandaS. Można go użyć do usunięcia powtarzających się wartości lub zduplikowania danych z kolumny DataFrame. Rzędy z zduplikowanymi wartościami są usuwane, podczas gdy danych z tytułu obiektu lub jego podzbiór pozostaje zachowany. Metoda Drop_Duplicate () jest szybszą opcją do wyeliminowania zduplikowanych wartości podczas pracy z dużą grupą danych.


Teraz użyjemy funkcji Drop_Duplicate (), aby wyeliminować kolumny o zduplikowanych wartościach.


Jak widać, wszystkie wiersze zostały wyeliminowane, biorąc pod uwagę zduplikowane dane w kolumnie „Wynagrodzenie”. Tylko pierwsza instancja zduplikowanych wartości pozostała w DataFrame.

Wniosek

W tym artykule omówiliśmy, jak uzyskać unikalne wartości z kolumn z ramki danych w PandaS. Po przejściu przez ten samouczek możesz samodzielnie wyodrębnić unikalne wartości z kolumny pandas. Zaimplementowaliśmy kilka przykładów, aby nauczyć Cię, jak uzyskać unikalne wartości z kolumn pand i kolumn numerycznych pandy za pomocą funkcji unikalnej () i Funkcji Drop_Duplicates ().