PYSPARK - wyraźny

PYSPARK - wyraźny
W Python PYSPARK to moduł Spark używany do zapewnienia podobnego rodzaju przetwarzania, takiego jak Spark za pomocą DataFrame.

wyraźne () w PYSPARK usuwa zduplikowane wiersze/dane i zwraca unikalne wiersze z DataFrame.

Za pomocą wyraźnych () możemy usunąć zduplikowane wiersze w Pyspark DataFrame.

Możemy upuścić kolumny z DataFrame na dwa sposoby.

Wcześniej musimy stworzyć PYSPARK DATAFRAME do demonstracji.

Przykład:

Utworzymy ramkę danych z 8 wierszami i 6 kolumnami i wyświetlimy ją za pomocą metody show ().

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wportu na funkcję CountFunk
od Pyspark.SQL.Funkcje importowe liczba
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 8 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Display the DataFrame
df.pokazywać()

Wyjście:

W tym zakresie danych duplikatem są Rollno - 2, 3 i 4 . Są to duplikaty danych, ponieważ wystąpiły dwukrotnie. Musimy więc usunąć ten duplikat i zwrócić pozostałe wiersze za pomocą funkcji wyraźnej (). Ta metoda zwróci nazwy kolumn wraz z jej typem danych.

Scenariusz -1: Uzyskaj odrębne dane z całej ramki danych

Otrzymamy odrębne dane z całej funkcji DataFrame przy użyciu funkcji odrębnych ()

Składnia:

df.odrębny()

Gdzie DF jest wejściowym PYSPARK DATAFRAME

Wreszcie, musimy użyć metody kolekcji (), aby zwrócić wszystkie wiersze z DataFrame.

Przykład :

W tym przykładzie otrzymamy odrębne dane z całej ramki danych.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wportu na funkcję CountFunk
od Pyspark.SQL.Funkcje importowe liczba
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 8 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Zdaj odrębne wiersze
Wydrukuj (DF.odrębny().zbierać())

Wyjście:

[Wiersz (adres = „guntur”, wiek = 23, wysokość = 5.79, name = „Sravan”, Rollno = „001”, waga = 67),
Wiersz (adres = „hyd”, wiek = 9, wysokość = 3.69, nazwa = „rohith”, Rollno = „004”, waga = 28),
Wiersz (adres = „patna”, wiek = 7, wysokość = 2.79, nazwa = „Gnanesh Chowdary”, Rollno = „003”, waga = 17),
Wiersz (adres = „hyd”, wiek = 16, wysokość = 3.79, nazwa = „Ojaswi”, Rollno = '002', waga = 34),
Wiersz (adres = „hyd”, wiek = 37, wysokość = 5.59, name = „sridevi”, rollno = '005', waga = 54)]

W powyższym przykładzie zobaczymy, że zduplikowane rzędy są usuwane.

Scenariusz - 2: Uzyskaj odrębne dane z określonych kolumn w DataFrame.

Użyjemy metody Select (), aby uzyskać odrębne wiersze z wybranych kolumn, metoda select () jest używana do wyboru kolumn, a następnie musimy użyć funkcji wyraźnej (), aby zwrócić unikalne wartości z wybranej kolumny , i na koniec musimy użyć metody kolekcji (), aby zwrócić wiersze według funkcji DICENT ().

Składnia:

df.Wybierz („kolumn_name”).odrębny()

Gdzie,

  1. DF to wejście PYSPARK DATAFRAME
  2. Kolumna to kolumna.

Przykład :

W tym przykładzie otrzymamy oddzielnie odrębne rzędy od kolumny Rollno, Nazwa i adresu.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wportu na funkcję CountFunk
od Pyspark.SQL.Funkcje importowe liczba
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 8 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Zdaj wyraźne rzędy z kolumny Rollno
Wydrukuj (DF.Wybierz („Rollno”).odrębny().zbierać())
#Zadzwoń odrębne rzędy z kolumny nazwy
Wydrukuj (DF.Wybierz („Nazwa”).odrębny().zbierać())
#Zadzwoń odrębne wiersze z kolumny adresu
Wydrukuj (DF.Wybierz („Adres”).odrębny().zbierać())

Wyjście:

[Row (Rollno = '003'), wiersz (Rollno = '001'), wiersz (Rollno = '004'), row (Rollno = '002'), Row (Rollno = '005')]
[Row (name = 'rohith'), wiersz (name = 'gnanesh chowdary'), row (name = 'sravan'), row (name = 'Ojaswi'), wiersz (name = 'sridevi')]
[Wiersz (adres = „patna”), wiersz (adres = „hyd”), wiersz (adres = „guntur”)]

W powyższym przykładzie zwróciliśmy odrębne wiersze z kolumny Rollno, Nazwa i

Scenariusz - 3: Uzyskaj odrębne dane z wielu kolumn w DataFrame.

Użyjemy metody Select (), aby uzyskać odrębne rzędy z wybranych wielu kolumn jednocześnie. kolumny, metoda select () służy do wyboru kolumn, a następnie musimy użyć funkcji wyraźnych (), aby zwrócić unikalne wartości z wybranej kolumny. Wreszcie, musimy użyć metody kolekcji (), aby zwrócić wiersze według funkcji DIORD ().

Składnia:

df.Wybierz („kolumn_nazwa”, „nazwa_polutwa”,…, „kolumn_name”).odrębny()

Gdzie,

  1. DF to wejście PYSPARK DATAFRAME
  2. Kolumna to kolumna.

Przykład :

W tym przykładzie otrzymamy odrębne rzędy od kolumny Rollno, Nazwa i adresu.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wportu na funkcję CountFunk
od Pyspark.SQL.Funkcje importowe liczba
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 8 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Zadzwoń odrębne rzędy z kolumn Rollno, Nazwa i adres
Wydrukuj (DF.Wybierz („Rollno”, „Nazwa”, „Adres”).odrębny().zbierać())

Wyjście:

[Row (rollno = '002', name = 'Ojaswi', adres = 'hyd'), row (rollno = '004', name = 'rohith', adres = 'hyd'), wiersz (Rollno = '001' ' , name = 'sravan', adres = 'guntur'), ​​row (rollno = '003', name = 'gnanesh chowdary', adres = 'patna'), row (rollno = '005', name = 'sridevi', adres = „hyd”)]

W powyższym przykładzie zwróciliśmy odrębne wiersze z kolumny Rollno, Nazwa i

Jeśli chcemy uzyskać całkowitą liczbę odrębnych wierszy, musimy użyć funkcji Count (.

Składnia:

df.odrębny().liczyć()

Przykład:

W tym przykładzie zwracamy liczbę unikalnych wierszy.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wportu na funkcję CountFunk
od Pyspark.SQL.Funkcje importowe liczba
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 8 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Zdobądź wyraźną liczbę
Wydrukuj (DF.odrębny().liczyć())

Wyjście:

5

Wniosek:

Omówiliśmy, jak uzyskać odrębne dane z całej ramki danych i pojedynczej/wielu kolumn. Aby uzyskać liczbę unikalnych wartości, używamy metody hrabiego () i odrębnego ().