Funkcja FFILL pandy

Funkcja FFILL pandy
Obsługa brakujących danych jest integralnym elementem każdej strategii nauki danych. Wspólne sposoby radzenia sobie z brakującymi danymi obejmują ignorowanie brakujących wartości, upuszczenie wpisów z brakującymi rekordami i wypełnianie brakujących danych. W tym samouczku przyjrzymy się funkcji panda „DataFrame.ffill () ”do wypełniania brakujących danych.

Metoda pandas ffill ()

Metoda Pandas ffill () umożliwia nam wypełnienie wartości NAN w ramce danych. FFILL oznacza wypełnienie przekazywania, co oznacza, że ​​wartości zerowe są zastąpione danymi z poprzedniej kolumny lub wiersza.

Podano składnię do zastosowania tej metody:


„Oś” jest osą wzdłuż której do wypełnienia wartości NAN. Jego domyślna wartość to 0. Ten parametr zostanie użyty w naszych przykładach tutaj.

Za pomocą przykładów kodu programu Python przejdziemy do użycia „ffill ()”, aby przekazać brakujące wartości we wszystkich kolumnach pandas Dataframe w tym artykule.

Przykład nr 1: Wykorzystanie metody ffill () do wypełnienia wartości wzdłuż wierszy

W tej ilustracji zobaczysz, w jaki sposób wypełnimy wartości NAN w ramce danych wzdłuż osi indeksu za pomocą metody „ffill ()”.

Praktyczne wdrożenie dowolnego programu zaczyna się od wyboru odpowiedniego narzędzia wykonania. W tym samouczku wybraliśmy narzędzie „Spyder”, aby wprowadzić w życie przykładowy skrypt Pythona. Ładowanie biblioteki pand do naszego pliku Python sprawi, że będziemy w stanie wykorzystać wszystkie funkcje dostarczone przez pandy. „PD” będzie używane w kodzie gdziekolwiek potrzebujemy użycia „pandy” jako jego alias.

Druga część kodu ma dwie operacje; Aby utworzyć ramkę danych z niektórymi wartościami NAN za pomocą pand „PD.Metoda dataFrame () ”, a następnie wypełnij te wartości NAN za pomocą funkcji pandas„ ffill () ”. Biorąc w rękę pierwszą operację, która polega na utworzeniu ramki danych z niektórymi wartościami NAN, wywołaliśmy pandy „PD.Metoda dataFrame () ”tutaj. Ta metoda wygeneruje ramkę danych z określonymi wartościami lub plikiem CSV.

Tutaj konstruujemy ramkę danych z danymi zdefiniowanymi przez użytkownika zamiast importowania pliku CSV. Rama danych jest inicjowana przez cztery kolumny z tytułami, jak wspomniano: „zielony”, „biały”, „brąz” i „pomarańczowy.„Długość każdej kolumny, którą tutaj utworzyliśmy, to cztery. Jesteśmy zobowiązani do stworzenia wszystkich kolumn tego samego rozmiaru dla kompletu danych. Nasza pierwsza kolumna ramki danych „Zielona” zawiera wartości „7”, „1”, „Brak” i „3”. Kolumna „biała” zawiera wpisy, które są „7”, „2”, „1” i „9”. Kolumna „brązowa” ma wartości „2”, 6 ”,„ 8 ”i„ brak ”, podczas gdy kolumna„ pomarańczowa ”przechowuje„ Brak ”,„ 6 ”,„ 9 ”i„ 2 ”.

Aby zachować tę ramkę danych, potrzebujemy obiektu ramki danych. Stworzyliśmy go z nazwą „Visual” i dotarliśmy do przechowywania ramki danych, którą skonstruowaliśmy z „PD.Metoda dataFrame () ”. Teraz, aby wyświetlić tę ramkę danych, właśnie zapisaliśmy ją w obiekcie „wizualnej” ramki danych, którą nazwaliśmy metodą programowania Python „print ()”.


Kiedy wykonujemy ten skrypt Pythona, który opracowaliśmy powyżej, nacitając opcję „Uruchom plik”, na konsoli wyświetlona jest wyświetlana ramka danych czterech kolumn. Tutaj możesz zobaczyć, że ta komplet danych ma trzy wartości NAN.


Ukończyliśmy pierwszą operację generowania ramki danych. Teraz przejdziemy do drugiej części, czyli do wypełnienia tych wartości NAN. Zrobimy to, wykorzystując metodę „FFILL” Pandy.

Wywołaliśmy „DataFrame.ffill () ”, aby wypełnić wszystkie wartości NAN w naszej ramce danych. Podaliśmy nazwę naszej ramki danych, którą właśnie stworzyliśmy powyżej „wizualne” z „.metoda wypełnienia () ”. Pomiędzy nawiasami tej funkcji wykorzystywana jest parametr „oś”. Ustawiliśmy go na „0”, który reprezentuje osi wiersza lub indeksu. Ponieważ używamy metody „Fill ()” do wypełnienia wartości NAN wzdłuż osi wiersza dla tej ilustracji. Więc napisaliśmy to wszystko jako „wizualne.FFILL (axis = 0) ”, a następnie umieść to w metodzie„ print () ”, aby wydrukować ramkę danych z wypełnionymi wartościami NAN wzdłuż osi wiersza.


Oto rama danych wyjściowych. Każda wartość nan jest wypełniona przy użyciu odpowiedniej wartości z poprzedniego wiersza, gdy FFILL () jest wykonywana na osi indeksu lub wiersza. Zauważyłeś, że wpisy w pierwszym rzędzie są nadal wartościami nan, ponieważ nie ma nad nią rzędu, z których wartości nie-NA. Wszystkie pozostałe wartości NAN są skutecznie zastępowane przez skopiowanie odpowiednich wartości wiersza w nim.

Przykład nr 1: Wykorzystanie metody ffill () do wypełnienia wartości wzdłuż kolumn

Ta ilustracja poinformuje, jak wypełnić wartości NAN w ramce danych wzdłuż osi kolumny za pomocą metody pand „Fill ()”. Zacznijmy pracować nad tą techniką.

Uruchomiliśmy narzędzie „Spyder” i zaczęliśmy pisać kod Pythona. Najpierw musimy uzyskać warunek wstępny dla programu, który ładuje bibliotekę pandas. Musimy zaimportować tę bibliotekę do pliku Pythona, ponieważ będziemy używać pandy „PD.DataFrame () ”i„ DataFrame.metody ffill () ”w tej ilustracji, które można zastosować tylko wtedy, gdy mamy dostęp do tej biblioteki.

Musimy wygenerować ramkę danych za pomocą pandy „PD.Metoda dataFrame () ”. Metoda jest wywoływana i inicjowana przez cztery kolumny, które są „P1”, „P2”, „P3” i „P4”. Pierwsza kolumna tutaj „P1” ma wartości „1”, „12”, „7”, „4” i „brak”. Zapisy „P2” to „13”, „9”, „Brak”, „4” i „3”. „P3” ma wpisy „Brak”, „14”, „1”, „8” i „7”. Wartości przechowywane w „P4” to „11”, „3”, „16”, „8” i „Brak”. Zapisaliśmy tę ramkę danych w obiekcie ramki danych „Wynik”. Teraz, aby wyświetlić tę konstrukcję danych na konsoli, nazwaliśmy metodę „print ()”.


Ten fragment kodu jest wykonywany w celu wyświetlenia utworzonej ramki danych. Tutaj możesz zauważyć, że ramka danych ma cztery kolumny, aw każdej kolumnie znaleźliśmy wartość nan. Ogólnie rzecz biorąc, mamy cztery zerowe wpisy w ramce danych.


Aby wypełnić te wartości zerowe wzdłuż osi kolumny w ramce danych, wykorzystaliśmy pandę „DataFrame.metoda ffill () ”. Wywołaliśmy „DataFrame.funkcja ffill () ”. Tutaj użyliśmy go z parametrem „osi” i ustawiliśmy go na „1”, który odnosi się do osi kolumny, ponieważ wypełniamy wartości zerowe wzdłuż kolumn dla tej demonstracji. Cała linia skryptu jest napisana jako „wynik.FFILL (AXIS = 1) ”, a następnie, aby pokazać tę wypełnioną ramę danych na konsoli, umieściliśmy tę funkcję między aparatami do użytku„ print () ”i powołaliśmy ją.


To powoduje, że wyciąga nam się ramka danych. Jak widać, wartość pierwszej kolumny to NAN, ponieważ nie ma kolumny do wypełnienia wartości z poprzedniej kolumny wzdłuż osi kolumny.

Wniosek:

Praca z ramami danych i obsługa wartości zerowych w nich jest podstawą i podstawową potrzebą w procesach analizy danych. W tym samouczku dowiedzieliśmy się, że pandy dostarczyły „DataFrame.FFILL () ”Metoda wypełniania rekordów NAN w ramce danych. Zapoznaliśmy się z dwiema technikami wypełniania ramki danych. Każda strategia jest opracowana z praktycznie zaimplementowanym przykładem skryptów Python wykonanych za pomocą narzędzia „Spyder”. Możesz użyć każdej techniki zgodnie z Twoimi potrzebami.