Omówimy różne scenariusze, aby zmienić kolejność kolumn w Pyspark DataFrame.
Do wszystkich scenariuszy używamy metody select (). Przed przejściem do scenariuszy najpierw utworzymy Pyspark DataFrame.
Przykład:
Tutaj utworzymy PYSPARK DATAFRAME z 5 wierszy i 6 kolumnami.
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Display the DataFrame
df.pokazywać()
Wyjście:
Scenariusz 1: Zmień kolumny
W tym scenariuszu użyjemy tylko metody Select () do zamówienia/zmiany kolumn w danym Pyspark DataFrame, dostarczając jedną po drugiej kolumnie w metodzie.
Składnia:
ramka danych.Wybierz („kolumna 1”,…, „kolumna”)
Gdzie:
Przykład:
W tym przykładzie zamierzamy zmienić kolumny w tej kolejności - „Adres”, „Wzgórza”, „Rollno”, „Nazwa”, „waga” i „wiek”. Następnie wyświetl Metodę DataFrame za pomocą metody show ().
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Uzyskaj kolumny w kolejności - „Adres”, „Wysokość”, „Rollno”, „Nazwa”, „waga”, „wiek”
df = df.Wybierz („Adres”, „Wysokość”, „Rollno”, „Nazwa”, „waga”, „wiek”)
#Dispay the DataFrame
df.pokazywać()
Wyjście:
Scenariusz 2: Zmień kolumny w kolejności rosnącej
W tym scenariuszu użyjemy metody sorted () wraz z metodą select () do zmiany kolumn w kolejności rosnącej metodą sortowaną ().
Składnia:
ramka danych.Wybierz (posortowany (DataFrame.kolumny, odwrotne = false))
Gdzie:
Przykład:
W tym przykładzie zmieniamy kolumny w kolejności rosnącej, aby wyświetlić Metodę DataFrame za pomocą metody show ().
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wportu na funkcję col
od Pyspark.SQL.Funkcje importuj col
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Uzyskaj kolumny w kolejności rosnącej
df = df.Wybierz (posortowany (DF.kolumny, odwrotne = false))
#Dispay the DataFrame
df.pokazywać()
Wyjście:
Scenariusz 3: Umień kolumny w kolejności malejącej
W tym scenariuszu użyjemy metody sorted () wraz z metodą select () do zmiany kolumn w kolejności malejącej metodą sortowaną ().
Składnia:
ramka danych.Wybierz (posortowany (DataFrame.kolumny, odwrotne = true))
Gdzie:
Przykład:
W tym przykładzie zmienimy kolumny w kolejności malejącej, aby wyświetlić Metodę DataFrame za pomocą metody show ().
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wportu na funkcję col
od Pyspark.SQL.Funkcje importuj col
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Uzyskaj kolumny w kolejności malejącej
df = df.Wybierz (posortowany (DF.kolumny, odwrotne = true))
#Dispay the DataFrame
df.pokazywać()
Wyjście:
Wniosek
W tym samouczku omówiliśmy, jak zmienić kolumny w Pyspark DataFrame z trzema scenariuszami, stosując metodę Select (). Zastosowaliśmy metodę Sort () wraz z metodą Select () do zmiany kolumn.