Jak upuścić zduplikowane rzędy w Pandas Python

Jak upuścić zduplikowane rzędy w Pandas Python
Python jest jednym z najpopularniejszych języków programowania do analizy danych, a także obsługuje różne pakiety zorientowane na dane Python. Pakiety pandy są jednymi z najpopularniejszych pakietów Python i można je zaimportować do analizy danych. W prawie wszystkich zestawach danych często istnieją zduplikowane wiersze, które mogą powodować problemy podczas analizy danych lub działalności arytmetycznej. Najlepszym podejściem do analizy danych jest zidentyfikowanie dowolnych zduplikowanych wierszy i usunięcie ich z zestawu danych. Korzystając z funkcji Pandas Drop_Duplicates (), możesz łatwo upuścić lub usunąć, zduplikować rekordy z ramki danych.
Ten artykuł pokazuje, jak znaleźć duplikaty danych i usunąć duplikaty za pomocą funkcji Pandas Python.

W tym artykule wzięliśmy zestaw danych o populacji różnych stanów w Stanach Zjednoczonych, który jest dostępny w .Format pliku CSV. Przeczytamy .plik CSV, aby wyświetlić oryginalną zawartość tego pliku, w następujący sposób:

importować pandy jako PD
df_state = pd.read_csv ("c:/Users/dell/Desktop/populacja_ds.CSV ”)
Drukuj (df_state)

Na poniższym zrzucie ekranu możesz zobaczyć duplikat treści tego pliku:

Identyfikacja duplikatów w Pandas Python

Konieczne jest ustalenie, czy dane, których używasz, mają zduplikowane wiersze. Aby sprawdzić powielanie danych, możesz użyć dowolnej metody omówionej w poniższych sekcjach.

Metoda 1:

Przeczytaj plik CSV i przekaż go do ramki danych. Następnie zidentyfikuj zduplikowane wiersze za pomocą zduplikowane () funkcjonować. Na koniec użyj instrukcji Drukuj, aby wyświetlić zduplikowane wiersze.

importować pandy jako PD
df_state = pd.read_csv ("c:/Users/dell/Desktop/populacja_ds.CSV ”)
Dup_rows = df_state [df_state.duplikat ()]
drukuj ("\ n \ nduplicate wiersze: \ n ".format (dup_rows))

Metoda 2:

Przy użyciu tej metody, is_dupliced Kolumna zostanie dodana do końca tabeli i oznaczona jako „prawdziwa” w przypadku zduplikowanych wierszy.

importować pandy jako PD
df_state = pd.read_csv ("c:/Users/dell/Desktop/populacja_ds.CSV ”)
df_state ["is_duplicate"] = df_state.zduplikowane ()
print ("\ n ".format (df_state))

Upuszczanie duplikatów w Pandas Python

Zduplikowane wiersze można usunąć z ramki danych za pomocą następującej składni:
Drop_duplicates (podzbiór = ", keep =", inplace = false)
Powyższe trzy parametry są opcjonalne i są wyjaśnione bardziej szczegółowo poniżej:
trzymać: Ten parametr ma trzy różne wartości: po pierwsze, ostatnie i fałszywe. Pierwsza wartość zachowuje pierwsze występowanie i usuwa kolejne duplikaty, ostatnia wartość zachowuje tylko ostatnie zdarzenie i usuwa wszystkie poprzednie duplikaty, a fałszywa wartość usuwa wszystkie zduplikowane wiersze.
podzbiór: Etykieta używana do identyfikacji zduplikowanych wierszy
w miejscu: zawiera dwa warunki: prawda i fałsz. Ten parametr usunie zduplikowane wiersze, jeśli jest ustawiony na true.

Usuń duplikaty, zachowując tylko pierwsze zdarzenie

Kiedy użyjesz „Keep = First”, zostanie zachowane tylko pierwsze występowanie w pierwszym rzędzie, a wszystkie inne duplikaty zostaną usunięte.

Przykład

W tym przykładzie zostanie zatrzymany tylko pierwszy rząd, a pozostałe duplikaty zostaną usunięte:

importować pandy jako PD
df_state = pd.read_csv ("c:/Users/dell/Desktop/populacja_ds.CSV ”)
Dup_rows = df_state [df_state.duplikat ()]
drukuj ("\ n \ nduplicate wiersze: \ n ".format (dup_rows))
Df_rm_dup = df_state.Drop_duplicates (keep = „First”)
Drukuj ('\ n \ nresult DataFrame po zduplikowaniu: \ n', df_rm_dup.głowa (n = 5))

W poniższym zrzucie ekranu zachowane występowanie pierwszego rzędu jest wyróżnione na czerwono, a pozostałe duplikacje są usuwane:

Usuń duplikaty, zachowując tylko ostatnie zdarzenie

Kiedy użyjesz „Keep = Last”, wszystkie zduplikowane wiersze, z wyjątkiem ostatniego wystąpienia, zostaną usunięte.

Przykład

W poniższym przykładzie wszystkie zduplikowane rzędy są usuwane, z wyjątkiem tylko ostatniego wystąpienia.

importować pandy jako PD
df_state = pd.read_csv ("c:/Users/dell/Desktop/populacja_ds.CSV ”)
Dup_rows = df_state [df_state.duplikat ()]
drukuj ("\ n \ nduplicate wiersze: \ n ".format (dup_rows))
Df_rm_dup = df_state.Drop_duplicates (keep = „last”)
Drukuj ('\ n \ nresult DataFrame po zduplikowaniu: \ n', df_rm_dup.głowa (n = 5))

Na poniższym obrazie duplikaty są usuwane i przechowywane jest tylko ostatnie występowanie rzędu:

Usuń wszystkie zduplikowane wiersze

Aby usunąć wszystkie zduplikowane wiersze z tabeli, ustaw „Keep = False”, w następujący sposób:

importować pandy jako PD
df_state = pd.read_csv ("c:/Users/dell/Desktop/populacja_ds.CSV ”)
Dup_rows = df_state [df_state.duplikat ()]
drukuj ("\ n \ nduplicate wiersze: \ n ".format (dup_rows))
Df_rm_dup = df_state.Drop_duplicates (keep = false)
Drukuj ('\ n \ nresult DataFrame po zduplikowaniu: \ n', df_rm_dup.głowa (n = 5))

Jak widać na poniższym obrazie, wszystkie duplikaty są usuwane z ramki danych:

Usuń powiązane duplikaty z określonej kolumny

Domyślnie funkcja sprawdza wszystkie zduplikowane wiersze ze wszystkich kolumn w danej ramce danych. Ale możesz również określić nazwę kolumny za pomocą parametru podzbioru.

Przykład

W poniższym przykładzie wszystkie powiązane duplikaty są usuwane z kolumny „Stany”.

importować pandy jako PD
df_state = pd.read_csv ("c:/Users/dell/Desktop/populacja_ds.CSV ”)
Dup_rows = df_state [df_state.duplikat ()]
drukuj ("\ n \ nduplicate wiersze: \ n ".format (dup_rows))
Df_rm_dup = df_state.Drop_duplicates (podzbiór = „stan”)
Drukuj ('\ n \ nresult DataFrame po zduplikowaniu: \ n', df_rm_dup.głowa (n = 6))

Wniosek

W tym artykule pokazano, jak usunąć zduplikowane wiersze z ramki danych za pomocą Drop_duplicates () Funkcja w Pandas Python. Możesz także wyczyścić swoje dane dotyczące duplikacji lub redundancji za pomocą tej funkcji. Artykuł pokazał również, jak zidentyfikować dowolne duplikaty w ramce danych.