Pandas Factorize

Pandas Factorize

„Pandy” to najpotężniejsza biblioteka Python do pracy z ramami danych. Służy różnorodności celów. Jednym z nich jest funkcja pand „factorize ()”. Często musimy przekonwertować dostarczoną zmienną na liczby, szczególnie przed przekazaniem jej do algorytmów, które akceptują tylko dane wejściowe. Metoda pand „Factorize ()” umożliwia łatwe przekształcenie ciągów na liczby. Identyfikuje wyraźne wartości tablicy i zwraca je jako liczbę numeryczną. W Panand funkcja „factorize ()” przekształca obiekt w zmienną kategoryczną. Jest to przydatne do identyfikacji unikalnych wartości."

Składnia do zastosowania metody pand „Factorize ()” podano poniżej:

Składnia pokazuje cztery parametry tej funkcji. Opiszmy krótko te parametry.

Parametr „Wartości” implikuje tablicę jednowymiarową, taką jak lista. "sortować" Parametr służy do utrzymania powiązania, sortowania odrębnych wartości i kodów zamiany. Akceptuje wartość bool. Domyślnie jest ustawiony na false. „Na_sentinel” odnosi się do wartości, którą należy oznaczyć jako „nie znaleziono”. Jeśli nie, NAN nie zostanie wyeliminowane z odrębności danych. „Size_hint” Daje wskazówkę do mieszania sizera.

W celu wykorzystania funkcji „factorize ()” jedynym obowiązkowym argumentem jest „wartości”. Wszystkie inne funkcje są opcjonalne.

Dwa obiekty, „Kody” I "unikalny", są zwracane przez funkcję „factorize ()”. Termin „kody” odnosi się do liczbowej ndarray, która służy jako indekser do „Uniques”, podczas gdy prawidłowe unikalne wartości są określane jako „Uniques”.

W jego artykule zbadamy koncepcję tworzenia czynników w programowaniu Python przy użyciu metody pand „Factorize ()” z niektórymi z jego głównie wykonanych parametrów.

Przykład nr 1: Wykorzystanie Pandy „Factorize ()”

Praktyczne wdrożenie programu Python w celu wykonania metody pand „Factorize ()” zostanie przeprowadzone na tej ilustracji.

Narzędziem, które tutaj używamy do kompilacji kodów Pythona, jest „Spyder”. To narzędzie najlepiej spełnia nasze wymagania systemowe. Uruchomiliśmy narzędzie. Pojawił się interfejs użytkownika i możemy zacząć pisać na nim nasz skrypt Python. Pierwszą rzeczą, którą zrobiliśmy w pliku Pythona, było załadowanie biblioteki, którą musimy mieć dostęp do jej metod. W przypadku wymagań naszej sprawy musimy załadować bibliotekę Pythona „Pandy”. Napisaliśmy skrypt tej biblioteki jako „import pandy jako PD”. Alias ​​„PD” będzie działał, aby uzyskać metody „pandy”, wpisując skrót zamiast pełnej formy.

Zestaw narzędzi do pand jest ładowany do pliku Python; Teraz musimy przejść do następnego kroku. W następnym wierszu skryptu wygenerowaliśmy listę ciągów. Stworzyliśmy zmienną „mylist” do przechowywania zawartości tej listy, abyśmy mogli uzyskać do niej dostęp. Strings, które przechowyliśmy na tej liście, to „y”, „y”, „x”, „z”, „y”, „x”, „z” i „z”. Możesz zobaczyć, że ta lista ma powtarzające się wartości. W sumie posiada osiem wartości. Aby wyświetlić tę listę ciągów na ekranie, zastosowaliśmy funkcję „print ()” Pythona. Najpierw podaliśmy tekst „To jest nasza lista ciągów:” do metody „print ()” do wyświetlenia, a następna funkcja „print ()” wykazała zawartość „myList” na konsoli Spyder.

Aby skompilować skrypt, który napisaliśmy powyżej, naciśnij przycisk „Uruchom plik”. Zobaczysz listę przedstawioną na terminalu z ośmioma wartościami.

Teraz, aby znaleźć faktoryzację tej listy, mamy metodę panda „PD.rozkładać na czynniki()". Ta metoda zwróci nam dwie tablice. Pierwszy będzie z kodów, a drugi wyświetli unikalne wartości na liście.

Stworzyliśmy dwie zmienne „COD” i „Uniq”. „COD” będzie przechowywać kody generowane przez „PD.Factorize () ”metoda dla dostarczonej listy. „Uniq” będzie utrzymywał wartości, które są unikalne na liście. Przywołaliśmy „PD.Factorize () ”metoda i przekazała listę, którą utworzyliśmy powyżej,„ mylist ”jako parametr tej funkcji. Ta funkcja wygeneruje kody dla każdej wartości na liście i przechowuje ją w zmiennej „COD”. I wyodrębni unikalne wartości z listy i umieści je w zmiennej „Uniq”. Następnie wywołaliśmy metodę „print ()”, aby najpierw wyświetlić tekst „Kody dla dostarczonej listy to:”, a następnie zawartość zmiennej „COD”. Następna funkcja „print ()” jest wykorzystywana do wyświetlania tekstu „Wyłączenia dla dostarczonej listy to:”, a następnie dane ze zmiennej „Uniq”.

Wyjście wygenerowane na terminalu pokazuje nam dwie tablice. Pierwsza tablica ma wartości jako „0”, „0”, „1”, „2”, „0”, „1”, „2” i „2”. Metoda „factorize ()” przekonwertowała ciągami na wartości liczbowe. „Y” zastępuje się „0”, „X” jest zastępowany przez „1”, a „Z” zastępuje „2”. Druga tablica, którą zwrócił, to tablica unikalnych wartości, które są „y”, „x” i „z”.

Przykład nr 2: Wykorzystanie metody pand „Factorize ()” do sortowania wartości

Ta demonstracja służy do nauki techniki sortowania wartości w wynikających z nich tablic wygenerowanych z „PD.Factorize () ”.

Wykorzystaliśmy wyżej wymyśloną listę, aby wyjaśnić technikę sortowania i tasowania tej funkcji. Tutaj stworzyliśmy dwie zmienne: „Shuffle” i „Sorting”. Zmienna „Shuffle” będzie przechowywać kody przetasowane ze zmiennej „MyList”, podczas gdy zmienna „sortowanie” będzie miała posortowane unikalne wartości z dostarczonej listy. Przypisowaliśmy te zmienne wyjście wywołujące „PD.Factorize () ”.

„PD.Metoda factorize () ”jest wywoływana z dwoma parametrami. Pierwszym parametrem jest „Wartości”, które jest nazwą listy „MyList”, a drugi parametr to „Sort”. Parametr „sortowania” sortuje unikalne wartości, a następnie odpowiednio przesyła kody. Domyślnie jest ustawiony na „false”, zmieniliśmy ustawienia i ustawiliśmy je na „true”, aby wykonać sortowanie. Zastosowaliśmy dwie funkcje „print ()”. Pierwszy, który wyświetla tekst „Kody tasowane dla dostarczonej listy to:”, a następnie dane w zmiennej „Shuffle”. Inna metoda „print ()” musi wykazać tekst „posortowane jednoznaczne dla dostarczonej listy to:”, a następnie treść zmiennej „sortowanie”.

Kiedy wynik jest przedstawiony na terminalu, otrzymujemy nowe tablice. Pierwsza tablica ma listę liczbowych wariowanych wartości jako „1”, „1”, „0”, „2”, „1”, „0”, „2” i „2”. Dla Twojej wygody wydrukowaliśmy również kody nie zalane, abyś mógł łatwo zrozumieć różnicę. Druga tablica uporządkowała unikalne wartości jako „X”, „Y” i „Z”. Unikalne wartości na liście są teraz sortowane w kolejności alfabetycznej. Możesz porównać go z nieporadowaną tablicą, która ma wyjątkowe, jako „y”, „x” i „z”.

Wniosek

W tym artykule skupiliśmy się na poznaniu techniki rozszerzania sznurków w liczby. W tym celu wykorzystaliśmy pandy „PD.Factorize () ”. Takie podejście jest dość przydatne podczas grupowania danych i przekładania ich na wartości liczbowe. Opracowaliśmy procedurę zastosowania tej metody i opisali jej różne parametry, które można wykonać w razie potrzeby. Przeprowadziliśmy praktyczne wdrożenie skryptów Python w celu zrozumienia zastosowania tej metody. Renderowaliśmy przykładowe kody, a także ich wyjście w tym samouczku. Zdecydowanie zalecamy praktyczne ćwiczenie tych technik od podstawowych do złożonych programów w celu uzyskania najlepszego zrozumienia technik pandy.