Przykład 1:
W poniższym przykładzie utworzymy Pyspark DataFrame z 5 wierszami i 6 kolumnami i wyświetlacz przy użyciu metody show ():
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci1 = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci1)
# Wyświetl ramkę danych
df.pokazywać()
Wyjście:
Przykład 2:
W poniższym przykładzie utworzymy Pyspark DataFrame z 3 wierszami i 6 kolumnami i wyświetlacz przy użyciu metody show ():
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci2 = [„Rollno”: „056”, „nazwa”: „vinay”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Tamilnadu”,
„Rollno”: „045”, „nazwa”: „bhanu”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „032”, „nazwa”: „Jyothika Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Delhi”]
# Utwórz ramkę danych
DF2 = Spark_App.CreatedataFrame (studenci2)
# Wyświetl drugą ramkę danych
DF2.pokazywać()
Wyjście:
Funkcja PYSPARK - Union ()
Funkcja Union () doda wiersze z jednej lub większej liczby ram danych do pierwszej ramki danych. Zobaczymy, jak dołączyć wiersze z drugiej ramki danych do pierwszej ramki danych.
Składnia:
First_DataFrame.Union (Second_DataFrame)
Gdzie:
Przykład:
W tym przykładzie stosujemy funkcję Union (), aby dołączyć do pierwszej drugiej ramki danych
Ramka danych. Wreszcie wyświetlamy ramkę danych za pomocą metody show ():
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci1 = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci1)
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci2 = [„Rollno”: „056”, „nazwa”: „vinay”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Tamilnadu”,
„Rollno”: „045”, „nazwa”: „bhanu”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „032”, „nazwa”: „Jyothika Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Delhi”]
# Utwórz ramkę danych
DF2 = Spark_App.CreatedataFrame (studenci2)
# Wykonaj Union ()
df.Union (DF2).pokazywać()
Wyjście:
Funkcja PYSPARK - Unionall ()
Funkcja UnionAll () doda wiersze z jednej lub większej liczby ram danych do pierwszej formy danych. Zobaczymy, jak dołączyć wiersze z drugiej ramki danych do pierwszej ramki danych.
Składnia:
First_DataFrame.Unionall (Second_DataFrame)
Gdzie:
Przykład:
W tym przykładzie stosujemy funkcję UnionAll (), aby dołączyć drugą ramkę danych do pierwszej ramki danych. Wreszcie wyświetlamy ramkę danych za pomocą metody show ().
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci1 = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci1)
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci2 = [„Rollno”: „056”, „nazwa”: „vinay”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Tamilnadu”,
„Rollno”: „045”, „nazwa”: „bhanu”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „032”, „nazwa”: „Jyothika Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Delhi”]
# Utwórz ramkę danych
DF2 = Spark_App.CreatedataFrame (studenci2)
# Wykonaj Unionall ()
df.Unionall (DF2).pokazywać()
Wyjście:
Wniosek
W tym artykule możemy dołączyć dwie lub więcej zestawów danych za pomocą metod Union () i UnionAll (). Funkcjonalność obu metod jest taka sama i omówiona z podanymi przykładami. Mamy nadzieję, że ten artykuł jest pomocny. Sprawdź więcej artykułów z Linux, aby uzyskać wskazówki i samouczki.