W tym artykule wzięliśmy zestaw danych o populacji różnych stanów w Stanach Zjednoczonych, który jest dostępny w .Format pliku CSV. Przeczytamy .plik CSV, aby wyświetlić oryginalną zawartość tego pliku, w następujący sposób:
importować pandy jako PDNa poniższym zrzucie ekranu możesz zobaczyć duplikat treści tego pliku:
Identyfikacja duplikatów w Pandas Python
Konieczne jest ustalenie, czy dane, których używasz, mają zduplikowane wiersze. Aby sprawdzić powielanie danych, możesz użyć dowolnej metody omówionej w poniższych sekcjach.
Metoda 1:
Przeczytaj plik CSV i przekaż go do ramki danych. Następnie zidentyfikuj zduplikowane wiersze za pomocą zduplikowane () funkcjonować. Na koniec użyj instrukcji Drukuj, aby wyświetlić zduplikowane wiersze.
importować pandy jako PDMetoda 2:
Przy użyciu tej metody, is_dupliced Kolumna zostanie dodana do końca tabeli i oznaczona jako „prawdziwa” w przypadku zduplikowanych wierszy.
importować pandy jako PDUpuszczanie duplikatów w Pandas Python
Zduplikowane wiersze można usunąć z ramki danych za pomocą następującej składni:
Drop_duplicates (podzbiór = ", keep =", inplace = false)
Powyższe trzy parametry są opcjonalne i są wyjaśnione bardziej szczegółowo poniżej:
trzymać: Ten parametr ma trzy różne wartości: po pierwsze, ostatnie i fałszywe. Pierwsza wartość zachowuje pierwsze występowanie i usuwa kolejne duplikaty, ostatnia wartość zachowuje tylko ostatnie zdarzenie i usuwa wszystkie poprzednie duplikaty, a fałszywa wartość usuwa wszystkie zduplikowane wiersze.
podzbiór: Etykieta używana do identyfikacji zduplikowanych wierszy
w miejscu: zawiera dwa warunki: prawda i fałsz. Ten parametr usunie zduplikowane wiersze, jeśli jest ustawiony na true.
Usuń duplikaty, zachowując tylko pierwsze zdarzenie
Kiedy użyjesz „Keep = First”, zostanie zachowane tylko pierwsze występowanie w pierwszym rzędzie, a wszystkie inne duplikaty zostaną usunięte.
Przykład
W tym przykładzie zostanie zatrzymany tylko pierwszy rząd, a pozostałe duplikaty zostaną usunięte:
importować pandy jako PDW poniższym zrzucie ekranu zachowane występowanie pierwszego rzędu jest wyróżnione na czerwono, a pozostałe duplikacje są usuwane:
Usuń duplikaty, zachowując tylko ostatnie zdarzenie
Kiedy użyjesz „Keep = Last”, wszystkie zduplikowane wiersze, z wyjątkiem ostatniego wystąpienia, zostaną usunięte.
Przykład
W poniższym przykładzie wszystkie zduplikowane rzędy są usuwane, z wyjątkiem tylko ostatniego wystąpienia.
importować pandy jako PDNa poniższym obrazie duplikaty są usuwane i przechowywane jest tylko ostatnie występowanie rzędu:
Usuń wszystkie zduplikowane wiersze
Aby usunąć wszystkie zduplikowane wiersze z tabeli, ustaw „Keep = False”, w następujący sposób:
importować pandy jako PDJak widać na poniższym obrazie, wszystkie duplikaty są usuwane z ramki danych:
Usuń powiązane duplikaty z określonej kolumny
Domyślnie funkcja sprawdza wszystkie zduplikowane wiersze ze wszystkich kolumn w danej ramce danych. Ale możesz również określić nazwę kolumny za pomocą parametru podzbioru.
Przykład
W poniższym przykładzie wszystkie powiązane duplikaty są usuwane z kolumny „Stany”.
importować pandy jako PDWniosek
W tym artykule pokazano, jak usunąć zduplikowane wiersze z ramki danych za pomocą Drop_duplicates () Funkcja w Pandas Python. Możesz także wyczyścić swoje dane dotyczące duplikacji lub redundancji za pomocą tej funkcji. Artykuł pokazał również, jak zidentyfikować dowolne duplikaty w ramce danych.