W Python PYSPARK to moduł Spark używany do zapewnienia podobnego rodzaju przetwarzania, takiego jak Spark za pomocą DataFrame.
wyraźne () w PYSPARK usuwa zduplikowane wiersze/dane i zwraca unikalne wiersze z DataFrame.
Za pomocą wyraźnych () możemy usunąć zduplikowane wiersze w Pyspark DataFrame.
Możemy upuścić kolumny z DataFrame na dwa sposoby.
Wcześniej musimy stworzyć PYSPARK DATAFRAME do demonstracji.
Przykład:
Utworzymy ramkę danych z 8 wierszami i 6 kolumnami i wyświetlimy ją za pomocą metody show ().
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wportu na funkcję CountFunk
od Pyspark.SQL.Funkcje importowe liczba
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 8 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Display the DataFrame
df.pokazywać()
Wyjście:
W tym zakresie danych duplikatem są Rollno - 2, 3 i 4 . Są to duplikaty danych, ponieważ wystąpiły dwukrotnie. Musimy więc usunąć ten duplikat i zwrócić pozostałe wiersze za pomocą funkcji wyraźnej (). Ta metoda zwróci nazwy kolumn wraz z jej typem danych.
Scenariusz -1: Uzyskaj odrębne dane z całej ramki danych
Otrzymamy odrębne dane z całej funkcji DataFrame przy użyciu funkcji odrębnych ()
Składnia:
df.odrębny()
Gdzie DF jest wejściowym PYSPARK DATAFRAME
Wreszcie, musimy użyć metody kolekcji (), aby zwrócić wszystkie wiersze z DataFrame.
Przykład :
W tym przykładzie otrzymamy odrębne dane z całej ramki danych.
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wportu na funkcję CountFunk
od Pyspark.SQL.Funkcje importowe liczba
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 8 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Zdaj odrębne wiersze
Wydrukuj (DF.odrębny().zbierać())
Wyjście:
[Wiersz (adres = „guntur”, wiek = 23, wysokość = 5.79, name = „Sravan”, Rollno = „001”, waga = 67),
Wiersz (adres = „hyd”, wiek = 9, wysokość = 3.69, nazwa = „rohith”, Rollno = „004”, waga = 28),
Wiersz (adres = „patna”, wiek = 7, wysokość = 2.79, nazwa = „Gnanesh Chowdary”, Rollno = „003”, waga = 17),
Wiersz (adres = „hyd”, wiek = 16, wysokość = 3.79, nazwa = „Ojaswi”, Rollno = '002', waga = 34),
Wiersz (adres = „hyd”, wiek = 37, wysokość = 5.59, name = „sridevi”, rollno = '005', waga = 54)]
W powyższym przykładzie zobaczymy, że zduplikowane rzędy są usuwane.
Scenariusz - 2: Uzyskaj odrębne dane z określonych kolumn w DataFrame.
Użyjemy metody Select (), aby uzyskać odrębne wiersze z wybranych kolumn, metoda select () jest używana do wyboru kolumn, a następnie musimy użyć funkcji wyraźnej (), aby zwrócić unikalne wartości z wybranej kolumny , i na koniec musimy użyć metody kolekcji (), aby zwrócić wiersze według funkcji DICENT ().
Składnia:
df.Wybierz („kolumn_name”).odrębny()
Gdzie,
- DF to wejście PYSPARK DATAFRAME
- Kolumna to kolumna.
Przykład :
W tym przykładzie otrzymamy oddzielnie odrębne rzędy od kolumny Rollno, Nazwa i adresu.
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wportu na funkcję CountFunk
od Pyspark.SQL.Funkcje importowe liczba
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 8 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Zdaj wyraźne rzędy z kolumny Rollno
Wydrukuj (DF.Wybierz („Rollno”).odrębny().zbierać())
#Zadzwoń odrębne rzędy z kolumny nazwy
Wydrukuj (DF.Wybierz („Nazwa”).odrębny().zbierać())
#Zadzwoń odrębne wiersze z kolumny adresu
Wydrukuj (DF.Wybierz („Adres”).odrębny().zbierać())
Wyjście:
[Row (Rollno = '003'), wiersz (Rollno = '001'), wiersz (Rollno = '004'), row (Rollno = '002'), Row (Rollno = '005')]
[Row (name = 'rohith'), wiersz (name = 'gnanesh chowdary'), row (name = 'sravan'), row (name = 'Ojaswi'), wiersz (name = 'sridevi')]
[Wiersz (adres = „patna”), wiersz (adres = „hyd”), wiersz (adres = „guntur”)]
W powyższym przykładzie zwróciliśmy odrębne wiersze z kolumny Rollno, Nazwa i
Scenariusz - 3: Uzyskaj odrębne dane z wielu kolumn w DataFrame.
Użyjemy metody Select (), aby uzyskać odrębne rzędy z wybranych wielu kolumn jednocześnie. kolumny, metoda select () służy do wyboru kolumn, a następnie musimy użyć funkcji wyraźnych (), aby zwrócić unikalne wartości z wybranej kolumny. Wreszcie, musimy użyć metody kolekcji (), aby zwrócić wiersze według funkcji DIORD ().
Składnia:
df.Wybierz („kolumn_nazwa”, „nazwa_polutwa”,…, „kolumn_name”).odrębny()
Gdzie,
- DF to wejście PYSPARK DATAFRAME
- Kolumna to kolumna.
Przykład :
W tym przykładzie otrzymamy odrębne rzędy od kolumny Rollno, Nazwa i adresu.
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wportu na funkcję CountFunk
od Pyspark.SQL.Funkcje importowe liczba
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 8 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Zadzwoń odrębne rzędy z kolumn Rollno, Nazwa i adres
Wydrukuj (DF.Wybierz („Rollno”, „Nazwa”, „Adres”).odrębny().zbierać())
Wyjście:
[Row (rollno = '002', name = 'Ojaswi', adres = 'hyd'), row (rollno = '004', name = 'rohith', adres = 'hyd'), wiersz (Rollno = '001' ' , name = 'sravan', adres = 'guntur'), row (rollno = '003', name = 'gnanesh chowdary', adres = 'patna'), row (rollno = '005', name = 'sridevi', adres = „hyd”)]
W powyższym przykładzie zwróciliśmy odrębne wiersze z kolumny Rollno, Nazwa i
Jeśli chcemy uzyskać całkowitą liczbę odrębnych wierszy, musimy użyć funkcji Count (.
Składnia:
df.odrębny().liczyć()
Przykład:
W tym przykładzie zwracamy liczbę unikalnych wierszy.
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wportu na funkcję CountFunk
od Pyspark.SQL.Funkcje importowe liczba
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 8 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Zdobądź wyraźną liczbę
Wydrukuj (DF.odrębny().liczyć())
Wyjście:
5
Wniosek:
Omówiliśmy, jak uzyskać odrębne dane z całej ramki danych i pojedynczej/wielu kolumn. Aby uzyskać liczbę unikalnych wartości, używamy metody hrabiego () i odrębnego ().