Usuń duplikaty w R

Usuń duplikaty w R
„Jednym z najtrudniejszych obowiązków dla naukowca danych jest czyszczenie danych. Często usuwamy duplikaty w zależności od konkretnych warunków, takich jak wartości kolumny, aby dokładnie zbadać zestaw danych. W tym artykule przyjrzymy się, jak wyeliminować powielanie danych na podstawie wartości wiersza lub kolumny oraz różnych metod tego. Duplikaty wartości mogą istnieć w zestawie danych, a duplikaty wiersze muszą zostać rozpoznane i wyeliminowane, aby zachować je bez redukcji i dokładne. Sprawdzimy, czy nasz zestaw danych zawierał zduplikowane dane, a jeśli tak, usuniemy je."

Jak usunąć duplikaty w R w Ubuntu 20.04?

W tym samouczku R odkryjesz, jak usunąć powielanie z ramki danych. Zrozumiesz, jak najpierw pozbyć się zduplikowanych wierszy, a następnie kolumny. Przyjrzymy się, jak używać podstawy R i DPLYR, aby wyeliminować zduplikowane wpisy z ramki danych.

Przykład nr 1: rozpoznanie zduplikowanych danych w R w Ubuntu 20.04

Wykorzystamy funkcję duplicowaną () do identyfikacji duplikat.

Tutaj pokazaliśmy zarejestrowane dane, które zawierają nazwy kolumn jako angielski, nauki i matematyki. Mamy również różne zduplikowane rzędy w tych danych. Następnie mamy zduplikowaną funkcję, do której przekazaliśmy zmienną wyniku jako argument. Po wykonaniu polecenia tej zduplikowanej funkcji generowane są wartości logiczne. Pokazuje wszystkie fałszywe wartości, ponieważ w ramce danych nie występuje redundancja.

Przykład nr 2: Usuwanie zduplikowanych danych przy użyciu unikalnej metody w R w Ubuntu 20.04

Aby uzyskać unikalne elementy z określonych danych, użyj funkcji unikalnej () w R.

Tutaj mamy ramkę danych zawierającą nazwę pola, identyfikator i pensję pracownika i jest przechowywana w zmiennej EMP_DATA. Następnie wykonywana jest emp_data, która generuje ramkę danych w formie tabelarycznej. Teraz użyliśmy unikalnej funkcji do wyodrębnienia unikalnego rekordu z danych. Wewnątrz unikalnej funkcji minęliśmy emp_data. Wyjście wygenerowane z unikalnej funkcji usunęło duplikat wierszy z podanej ramki danych.

Przykład nr 3: Usuwanie zduplikowanych danych przy użyciu odrębnej metody w R w Ubuntu 20.04

Odrębna funkcja jest jedną z najczęściej używanych bibliotek manipulacyjnych danych w języku R i jest dostarczana przez pakiet DPLYR. Odrębna funkcja wybiera wiersze w ramce danych, które są unikalne. Rama danych jest początkowym argumentem, a następnie zmienne do rozważenia podczas wyboru. W celu filtrowania unikalnych wierszy można podać wiele zmiennych kolumn, ale w następującej próbce pokażemy pojedyncze instancje zmienne. Trzeci argument nie jest obowiązkowy i domyślnie ma wartość FAŁSZ; Jeśli jednak użytkownik wyraźnie określa true, funkcja utrzyma wszystkie zmienne w ramce danych po filtracji. Warto zauważyć, że DPLYR stosuje funkcję operatora o nazwie Rury o wartości %> %, która jest rozumiana jako przekazywana lewą zmienną jako pierwszy parametr prawej funkcji. W szczególności notacja x %? % f (y) staje się f (x, y).

Tutaj mamy produkty_prawy danych, które są pokazane w formie tabelarycznej. Możesz zobaczyć zbędne rzędy w ramce danych produktów_sultowych. Możemy usunąć te duplikaty za pomocą odrębnej funkcji. W naszym następnym poleceniu użyliśmy produktów_sult w odrębnej funkcji jako argumentu. Teraz ramka danych pokazuje rekord ramki danych bez zduplikowanych wierszy.

W poprzedniej ramce danych dwa wiersze pojawiły się dwa razy w ramce danych, ale po użyciu odrębnej funkcji zduplikowane wiersze zostało usunięte.

Przykład nr 4: Usuwanie zduplikowanych danych przy użyciu metody filtra grupy_by w R w Ubuntu 20.04

Inną opcją usuwania zduplikowanych wierszy na podstawie kolumn jest klaster zestawu danych ze zmienną kolumn, a następnie użycie filtra i zduplikowanych metod do filtrowania elementów. Jego pierwszy krok został zakończony przy użyciu grupy pakietu DPLYR według funkcji. Wynik poprzedzającej operacji jest następnie przenoszony do funkcji filtra, która usuwa duplikaty wierszy.

Tutaj naszym początkowym krokiem jest zaimportowanie biblioteki DPLYR, która obsługuje funkcję filtra grupy_by w skrypcie R. Następnie stworzyliśmy ramkę danych, która ma zapis zespołów pojawiających się w losowe dni. Określiliśmy również płeć dla ramki danych. Po wydrukowaniu ramki danych na ekranie możemy zobaczyć redundancję w każdej kolumnie. Możemy to wyeliminować za pomocą funkcji filtra grupy_by. Na poniższym rysunku funkcja Group_By jest wywoływana i wymaga kolumny „dzień” jako argumentu w zmiennej T1. Następnie filtr jest stosowany do zduplikowanej funkcji, w której kolumna „dzień” jest przekazywana. Kiedy wykonujemy T1, usuwa on tylko duplikaty z kolumny „Dzień."

Tak samo jak powyżej, zastosowaliśmy funkcję filtra Group_By do kolumny „płeć."

Tutaj usunęliśmy duplikaty z kolumny „Zespół” z funkcji filtra grupy_by.

Przykład nr 5: Usuwanie zduplikowanych danych za pomocą metody plasterek grupy w R w Ubuntu 20.04

Alternatywnie, grupa według funkcji może być używana w połączeniu z plasterem do usuwania duplikatów wierszy na podstawie wartości kolumny. Slice to pakiet DPLYR, który wybiera wiersze według indeksu. Po zgrupowaniu podanej ramki danych plasterek wybiera wiersze w każdej grupie na podstawie dostarczonego indeksu, jak pokazano w następującym kodzie przykładowym.

Powyżej utworzyliśmy i wyświetliśmy rekord ramki danych. Tutaj mamy tylko dwie kolumny, które mają zbędne wartości. To możemy wyeliminować według funkcji grupy_b.

Teraz zduplikowane rzędy zostały usunięte z COL1, więc usunęliśmy również redundancję Col2, stosując funkcję plasterka grupy_by. Stąd wiersz duplikatów został wyeliminowany z poniższej ramki danych.

Wniosek

W tym momencie lekcji nauczyłeś się używać języka R do identyfikacji i eliminowania zduplikowanych wierszy, które pojawiają się kilka razy. Użyj fundamentalnych funkcji, takich jak unikalne () i duplikat (), aby wyeliminować zbędne wiersze lub kolumny z wektora lub ramki danych. Użyj metody wyraźnej () w pakiecie DPLYR, jeśli pracujesz z dużym zestawem danych i chcesz usunąć zduplikowane wpisy. Możemy również użyć metody Group_By, Filter i Slice do usunięcia zduplikowanego wiersza i kolumn w R.