Funkcja ciętej pandy

Funkcja ciętej pandy
W analizie danych dane numeryczne są wszechobecne. Często możesz napotkać dane numeryczne, które są ciągłe w bardzo rozległych rozmiarach lub poważnie zniekształcone. Zasadniczo może być preferowane zorganizowanie danych w odrębne okresy. Gdy dane zostaną podzielone na przydatne podziały, statystyki opisowe mogą być wykonywane bardziej skutecznie.

Przekształcenie danych statystycznych w zestawy danych jest proste z funkcją wbudowanej () pandę. Tylko jednowymiarowe elementy podobne do tablicy są kompatybilne z metodą CUT (). Kiedy mamy mnóstwo danych numerycznych i musimy przeprowadzić ocenę statystyczną, metoda CUT () jest przydatna.

Wyobraźmy sobie, dla ilustracji, że otrzymujemy zakres wartości od 5 do 15. Następnie dzielimy te liczby na 2 kategorie i klasyfikujemy je. Nazywamy te kolekcje jako pojemniki. W rezultacie oddzielamy te dane na pojemniki 1 i 2, które wynoszą odpowiednio 5 do 10 i 10 do 15. Mając oba pojemniki, możemy ocenić, które liczby są większe, a które małe. Dlatego 10 do 15 jest większe niż 5 do 10 i odwrotnie. Prowadzi to do terminów „upadki” i „wzlotów”, które odnoszą się odpowiednio do niższych wartości i większych, odpowiednio.

Takie podejście jest znane jako oznaczenie danych techniką pand (). Użyj funkcji CUT (), jeśli kiedykolwiek potrzebujesz podzielić dane na segmenty i wprowadzić liczby w pojemnikach. Wspomniana metoda jest również korzystna dla przekształcenia nieskończonej wartości na dane kategoryczne.

Składnia metody pandas cut ()

Jednowymiarowa tablica, którą należy umieścić w pojemniku, jest reprezentowana przez „X”Symbol. Do klasyfikacji „Kosz”Definiuje granice pojemników. „„Prawidłowy”Określa, czy należy zachować najbardziej prawą granicę, czy nie; Domyślne ustawienie jest prawdziwe. „„etykiety„Pomoc w reprezentowaniu, a także klasyfikowanie pojemników albo wysokich lub upadków. Daje instrukcje dotyczące etykietowania na powracających pojemnikach i powinien mieć dokładny rozmiar, ponieważ wynikowe pojemniki. Boolean lub tablice są akceptowalne w etykietach. „„retbiny”Określ, czy pojemniki powinny zostać zwrócone, czy nie. Termin "precyzja”Opisuje poziom dokładności używanej podczas zachowania i prezentacji etykiet dla pojemników. „„obejmują najniższe”Określa, czy początkowy przedział jest kompleksowy, czy nie. Ilekroć granice pojemników nie są charakterystyczne ”,„duplikaty”Określa, czy rzucić valueerror, czy usunąć nie-dinktyczny.

Przykład 1: segmentowanie wartości na pojemniki

Rozpoczynamy praktyczną demonstrację funkcji pandas cut () z podstawowym i prostym przykładem wkładania wartości ramki danych do pojemników poprzez ich segmentowanie.

Pierwszą rzeczą, którą musisz zrobić przed rozpoczęciem pracy nad głównym kodem, jest import niezbędnych bibliotek w Python. Na tej ilustracji zaimportowaliśmy dwie biblioteki Pythona, które są „Panda” i „Numpy”.

Biblioteka Pandy umożliwia nam korzystanie z funkcji pand, w tym funkcji CUT (), która jest naszym tematem dyskusji. Podczas gdy inna importowaliśmy bibliotekę, jest Numpy, która jest jednym z najlepszych używanych narzędzi Python do obliczeń statystycznych. Aby wypełnić obiekt DataFrame, wykorzystujemy Numpy do tworzenia dowolnych liczb całkowitych.

Teraz zaczynamy od głównego kodu, który można zobaczyć na poprzednim obrazie.

Tutaj utworzyliśmy zmienną jako „new_df”, która przechowuje tablicę liczb losowo wygenerowanych. „PD.DataFrame ”jest wywoływany w celu wygenerowania ramki danych. Wymaga 2 parametrów: tytuł kolumny „wartość” i „NP.losowy.Funkcja Randint ”. „NP.losowy.Randint ”generuje liczby losowe dla zdefiniowanej ramki danych. Wymaga trzech parametrów - wartość minimalna, maksymalna wartość i długość/rozmiar tablicy. Zdefiniowaliśmy wartość minimalną jako 5, a wartość maksymalna jako 50, a długość tablicy jest ustawiona na 10. Tak więc generuje 10 liczb losowych w zakresie od 5 do 50. Następnie wykorzystaliśmy wyrażenie „print ()”, aby wydrukować ramkę danych „new_df”.

Tutaj możesz zobaczyć ramkę danych z „wartościami” kolumny o 10 wartości.

Teraz tworzymy inną kolumnę jako „value_bins” w istniejącej ramce danych, i.mi. new_df. Następnie nazywamy pandas cut (). Przekazujemy parametry do metody cięcia. „X” przypisuje się nazwę DataFrame/tablic, który musimy umieścić w pojemniku. W naszym przykładzie jest to „new_df [wartości]”, gdzie „wartość” to nazwa kolumny, na której stosuje się cut (). Drugim parametrem parametru cięcia, którego użyliśmy. Tutaj chcemy podzielić dane na 4 pojemniki z (5, 20], (20, 30], (30, 40], (40, 50].

W ostatniej instrukcji drukowania nazwali funkcję „unikalną ()”, która generuje szereg unikalnych wartości.

Obraz wyjściowy pokazuje ramkę danych z koszem. Możesz zauważyć, że „20” jest również dodawane do kosza. Jest wynikiem domyślnego włączenia najlepiej prawej krawędzi. Jeśli jej nie potrzebujemy, użyj metody CUT () z opcją prawej = FAŁSZ.

Przykład 2: Etykietowanie pojemników

Możemy dodawać etykiety do pojemników za pomocą funkcji pandas cut ().

Do celów ilustracyjnych utworzyliśmy ramkę danych z funkcją Pandas DataFrame, jak stworzyliśmy w poprzednim przykładzie. TaFrame Data Crame zawiera „liczbę” kolumny, która przechowuje tablicę rozmiaru 10 z losowo wygenerowanymi wartościami od 11 do 32. Następnie tworzymy inną kolumnę w tej samej ramce danych i nazywamy ją „Number_Labels”. Wzywamy funkcję pandas cut (). Wewnątrz tej funkcji wspominamy o nazwie kolumny naszej ramki danych, aby zastosować funkcję CUT (). Ponieważ musimy wyciąć i podzielić dane na 2 pojemniki, zapewniamy 2 granice pojemnika jako (11, 22], (22, 32].

Następną rzeczą jest zdefiniowanie etykiet pojemników. W argumencie „etykiet” przekazujemy dwa wyrażenia jako „upadki” i „wzloty”.

Używamy tej samej procedury jak poprzednio, ale oprócz podzielenia wyników na pojemniki, teraz oznaczamy pojemniki jako wzloty i upadki.

Wartości statystyczne są zróżnicowane w pojemniki. Następnie możemy obserwować, która liczba jest większa, a które są mniejsze. W inwokacji funkcji cut () ustawiamy w prawo = false, ponieważ potrzebujemy 10, aby być elementem wzlotów.

Obraz wyjściowy pokazuje pojemniki z etykietami „niskimi” i „wysokości”. Małe wartości są oznaczone jako niskie, a większe wartości są określane jako wysokie.

Wniosek

Ten artykuł oparty jest na funkcji pandas cut (). Obejmuje wprowadzenie do funkcji pandas cut (), a także potrzebę użycia tej metody. Wyjaśniliśmy wszystkie niezbędne szczegóły i zapoznaliśmy z podstawami funkcji cut (). Opracowaliśmy każdy parametr tej funkcji w łatwych do zrozumienia. Przeprowadziliśmy przykłady kodu praktycznego zaimplementowane na Spyder, aby umożliwić ci ćwiczenie tej metody z nimi. W podobny sposób możesz ćwiczyć inne parametry funkcji cut (). Podjęliśmy celowy wysiłek, aby zapewnić Ci najlepsze i najbardziej przydatne ćwiczenia uczenia się oraz pomóc w nauce nowych koncepcji w programowaniu.