Pandy upuszczają wszystkie kolumny, z wyjątkiem

Pandy upuszczają wszystkie kolumny, z wyjątkiem
Dane muszą być oczyszczone, ustrukturyzowane i upiększane przed rozpoczęciem jakiejkolwiek analizy. Aby osiągnąć optymalny wybór danych dla konkretnej oceny lub prezentacji, czasami konieczne jest zmiana ramki danych pandas w celu wyeliminowania niepotrzebnych kolumn lub zoptymalizowania zestawu danych do tworzenia modelu. W pandy modyfikacja kolumn może wystąpić w różnych technikach. Czasami trudno jest zrozumieć, jak usunąć kolumny z ramki danych. Kluczem jest polecenie „DataFrame”. Za pomocą „DF.Funkcja Drop () ”, określone kolumny można odrzucić. W tym przewodniku zrozumiemy, jak wykluczyć kolumny w ramce danych pandas, z wyjątkiem określonych.

Metoda pandas ()

Metoda pandas „Drop ()” pomaga nam odrzucić określone kolumny z dostarczonej ramki danych, jednocześnie utrzymując wybrane w wyniku wynikającej z tego. Można to zrobić za pomocą następującej składni:

W tym artykule zobaczymy jego praktyczną demonstrację z programami Python.

Przykład 1: Wykorzystanie funkcji pandy upuszczania () do upuszczenia wszystkich kolumn z wyjątkiem określonej pojedynczej kolumny, w rzeczywistej ramce danych

Ten przykład sprawi, że zrozumiesz praktyczne wykonanie metody „upuść ()” w celu wyeliminowania wszystkich kolumn w ramce danych, z wyjątkiem tych, które wybierzemy.

Potrzebowalibyśmy oprogramowania lub narzędzia do skompilowania programu, który wygenerujemy na przykład. Z wyboru, tym, który okazało się najbardziej odpowiednim narzędziem do naszych demonstracji, jest narzędzie „Spyder”. Nowy plik projektu jest otwarty w narzędziu, a następnie rozpoczynamy skrypt. Załadowaliśmy potrzebny moduł, który jest tutaj pandami. Biblioteka Panda została zaimportowana do pliku Python i jest aliasowana jako „PD”.

Następnie musimy utworzyć ramkę danych przy użyciu metody tego zestawu narzędzi pandy. Pandy ma bardzo prostą metodę „PD.DataFrame () ”Aby skonstruować ramkę danych. Tutaj „PD” to alias dla pandy, podczas gdy „DataFrame”, jak pokazuje nazwa, jest słowem kluczowym, które wywołuje proces tworzenia ramki danych. Nazwaliśmy tę metodę i poinstruowaliśmy ją, aby utworzył ramkę danych z 5 kolumnami. Określiliśmy etykiety dla kolumn, a także dostarczyliśmy taką samą długość wartości dla każdej kolumny.

Etykiety, które zdefiniowaliśmy dla kolumn to „styczeń”, „luty”, „marzec”, „kwiecień” i „maj”. Wartości, które przechowyliśmy w kolumnie „Styczeń” to „1”, „2”, „3”, „4”, „3” i „5”. Kolumna „luty” ma wartości „7”, „8”, „9”, „10”, „11” i „12”. „March” trzyma wpisy jako „13”, „14”, „15”, „16”, „17” i '18 ”. Dostaliśmy wartości do kolumny „kwietnia” jako „19”, „20”, „21”, „22”, „23” i „24”. Ostatnia kolumna w ramce danych „May” zawiera te wartości „25”, „26”, „27”, „28”, „29” i „30”. Zapewniliśmy ten sam rozmiar kolumny dla każdej kolumny w ramce danych.

Jak można zauważyć, każda kolumna trzyma 6 wartości. Jeśli zmienisz długość dowolnej kolumny w określonej ramce danych, da ci to błąd o nierównej długości kolumny. Kiedy „PD.Funkcja dataFrame () ”jest wywoływana z dostarczanymi kolumnami, wygeneruje ramkę danych. Wymaga teraz obiektu lub zmiennej, w której może umieścić tę ramkę danych, więc nie zostanie utracony przez ten ramkę danych. Ponadto, ilekroć potrzebujemy pracować z tą konkretną ramką danych, możemy uzyskać do niego dostęp za pośrednictwem obiektu, który dostarliśmy do przechowywania ramki danych. Obiekt DataFrame, który tutaj utworzyliśmy, nazywa się „miesiące”. Przypisaliśmy mu wynik „PD.Metoda dataFrame () ”.

Funkcja „print ()” drukuje wszystko, co do niej przekażesz. Dostarliśmy go z naszym obiektem DataFrame „miesiące”, aby wyświetlić zachowaną treść.

Uruchamianie wyżej wymienionego skryptu Pythona tylko poprzez uderzenie klawisza „Uruchom plik”, umieszcza 5 określonych kolumn na konsoli Python do wyświetlenia.

Teraz zobaczymy, jak wykorzystać metodę „Drop ()” do eliminowania wszystkich kolumn DataFrame, z wyjątkiem jednej kolumny, którą będziemy przechowywać w DataFrame.

Przywołaliśmy „DF.metoda uprop () ”, dostarczając„ DF.kolumny.Metoda różnicy () ”wraz z dwoma innymi parametrami„ oś ”i„ ince ”. „„.Metoda diffrence () ”zapewnia nam uzupełnienie danych, które wprowadzimy jako parametr. W tym przypadku podaliśmy kolumnę „March”. Gdy wywoływana jest metoda „upuść ()”, aby odrzucić kolumny w „miesiącach”, utrzyma wartości kolumny „marzec”.

Parametr „oś” jest ustawiony na „1”, który odnosi się do kolumn. A „ince” jest ceniony jako „prawdziwy”, który wykona wszystkie zmiany w oryginalnej ramce danych bez wykonywania żadnej kopii. Po wywołaniu tej funkcji musimy wyświetlić zaktualizowaną ramkę danych. Zastosowaliśmy metodę „print ()” do wyświetlania faktycznej ramki danych ze zmodyfikowaną treścią na ekranie.

Tak wygląda teraz nasza rzeczywista ramka danych. Upuściliśmy wszystkie kolumny, ale zachowaliśmy kolumnę „March” w zaktualizowanej ramce danych.

Przykład 2: Wykorzystanie funkcji pandy () do upuszczenia wszystkich kolumn, z wyjątkiem określonych kolumn w kopii ramki danych

W przypadku tej demonstracji zobaczymy, jak upuścić wszystkie kolumny, z wyjątkiem wybranych wielu kolumn i wprowadzić zmiany w kopii ramki danych zamiast rzeczywistych danych danych.

W tym przykładzie wykorzystamy ramkę danych, którą zbudowaliśmy w powyższym przypadku. Po wyświetleniu ramki danych wywołaliśmy metodę „Drop ()”. Między nawiasami „DF.Funkcja Drop () ”, nazywaliśmy„ DF.różnica () ”funkcja i dostarczyliśmy dwie kolumny„ styczeń ”i„ marca ”. Tak więc te dwie kolumny będą przechowywane w ramce danych, a wszystkie pozostałe kolumny zostaną upuszczone w „miesiącach” danych danych. Parametr „osi” jest ceniony na „1”. To poinformuje Pythona, aby zastosował funkcję, jeśli.

Tutaj trzeci parametr „Ince” jest ustawiony na „False”. Utrzymanie tego „fałszu” oznacza, że ​​funkcja wprowadzi zmiany w kopii ramki danych zamiast faktycznej ramki danych. Aby przechowywać tę zmodyfikowaną kopię „miesięcy” danych, utworzyliśmy zmienną „kopię”. Ta zmienna pomieści zaktualizowaną ramkę danych po upuszczeniu wszystkich kolumn, z wyjątkiem dwóch, które określliśmy, które są „styczeń” i „marszu”. Na koniec zastosowaliśmy metodę „print ()” do wykazania wyniku „DF.Metoda upuszczania () ”na terminalu, przekazując ją zmienną„ kopiuj ”.

Metoda „print ()” przedstawia nam dwie formy danych, gdy wykonujemy wyżej napisany skrypt Pythona. Tutaj pierwsza wyświetlana ramka danych to rzeczywista ramka danych bez żadnych modyfikacji, podczas gdy druga ramka danych to kopia rzeczywistej ramki danych po upuszczeniu wszystkich kolumn, z wyjątkiem wyświetlanych dwóch określonych.

Wniosek

Decydowanie, które dane należy zachować, a które pominąć podczas analizy zestawów danych, jest bardzo istotną koncepcją do nauczenia się. W tym artykule opracowaliśmy „DF.Funkcja Drop () ”z składnią. Wdrożyliśmy tę metodę na narzędziu Spyder. Pierwszy przykład uczy modyfikowania rzeczywistej ramki danych, podczas gdy druga ramka danych wyjaśnia, jak wykonać kopię ramki danych do utrzymania zmian.