PYSPARK - Union & Unionall

PYSPARK - Union & Unionall
W Python PYSPARK to moduł Spark używany do zapewnienia podobnego rodzaju przetwarzania, takiego jak Spark za pomocą DataFrame. Możemy dołączyć wiersze/dane z drugiej ramki danych do pierwszej ramki danych przy użyciu dwóch metod: Union () i UnionAll (). Obie metody są takie same. Metoda Unionall () jest przestarzała w 2.0 wersja PYSPARK i jest zastępowana metodą Union (). Przed poznaniem tych metod, utwórzmy dwie PYSPARK DATAMEFrame.

Przykład 1:
W poniższym przykładzie utworzymy Pyspark DataFrame z 5 wierszami i 6 kolumnami i wyświetlacz przy użyciu metody show ():

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci1 = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci1)
# Wyświetl ramkę danych
df.pokazywać()

Wyjście:

Przykład 2:
W poniższym przykładzie utworzymy Pyspark DataFrame z 3 wierszami i 6 kolumnami i wyświetlacz przy użyciu metody show ():

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci2 = [„Rollno”: „056”, „nazwa”: „vinay”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Tamilnadu”,
„Rollno”: „045”, „nazwa”: „bhanu”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „032”, „nazwa”: „Jyothika Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Delhi”]
# Utwórz ramkę danych
DF2 = Spark_App.CreatedataFrame (studenci2)
# Wyświetl drugą ramkę danych
DF2.pokazywać()

Wyjście:

Funkcja PYSPARK - Union ()

Funkcja Union () doda wiersze z jednej lub większej liczby ram danych do pierwszej ramki danych. Zobaczymy, jak dołączyć wiersze z drugiej ramki danych do pierwszej ramki danych.

Składnia:

First_DataFrame.Union (Second_DataFrame)

Gdzie:

  1. First_DataFrame to pierwszy wejściowy DataFrame.
  2. Second_DataFrame to druga wejściowa ramka danych.

Przykład:

W tym przykładzie stosujemy funkcję Union (), aby dołączyć do pierwszej drugiej ramki danych

Ramka danych. Wreszcie wyświetlamy ramkę danych za pomocą metody show ():

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci1 = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci1)
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci2 = [„Rollno”: „056”, „nazwa”: „vinay”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Tamilnadu”,
„Rollno”: „045”, „nazwa”: „bhanu”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „032”, „nazwa”: „Jyothika Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Delhi”]
# Utwórz ramkę danych
DF2 = Spark_App.CreatedataFrame (studenci2)
# Wykonaj Union ()
df.Union (DF2).pokazywać()

Wyjście:

Funkcja PYSPARK - Unionall ()

Funkcja UnionAll () doda wiersze z jednej lub większej liczby ram danych do pierwszej formy danych. Zobaczymy, jak dołączyć wiersze z drugiej ramki danych do pierwszej ramki danych.

Składnia:

First_DataFrame.Unionall (Second_DataFrame)

Gdzie:

  1. First_DataFrame to pierwszy wejściowy DataFrame.
  2. Second_DataFrame to druga wejściowa ramka danych.

Przykład:

W tym przykładzie stosujemy funkcję UnionAll (), aby dołączyć drugą ramkę danych do pierwszej ramki danych. Wreszcie wyświetlamy ramkę danych za pomocą metody show ().

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci1 = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci1)
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci2 = [„Rollno”: „056”, „nazwa”: „vinay”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Tamilnadu”,
„Rollno”: „045”, „nazwa”: „bhanu”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „032”, „nazwa”: „Jyothika Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Delhi”]
# Utwórz ramkę danych
DF2 = Spark_App.CreatedataFrame (studenci2)
# Wykonaj Unionall ()
df.Unionall (DF2).pokazywać()

Wyjście:

Wniosek

W tym artykule możemy dołączyć dwie lub więcej zestawów danych za pomocą metod Union () i UnionAll (). Funkcjonalność obu metod jest taka sama i omówiona z podanymi przykładami. Mamy nadzieję, że ten artykuł jest pomocny. Sprawdź więcej artykułów z Linux, aby uzyskać wskazówki i samouczki.