Zmień kolumny w Pyspark DataFrame

Zmień kolumny w Pyspark DataFrame
W Python PYSPARK to moduł Spark używany do zapewnienia podobnego rodzaju przetwarzania, takiego jak Spark za pomocą DataFrame.

Omówimy różne scenariusze, aby zmienić kolejność kolumn w Pyspark DataFrame.

Do wszystkich scenariuszy używamy metody select (). Przed przejściem do scenariuszy najpierw utworzymy Pyspark DataFrame.

Przykład:
Tutaj utworzymy PYSPARK DATAFRAME z 5 wierszy i 6 kolumnami.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Display the DataFrame
df.pokazywać()

Wyjście:

Scenariusz 1: Zmień kolumny

W tym scenariuszu użyjemy tylko metody Select () do zamówienia/zmiany kolumn w danym Pyspark DataFrame, dostarczając jedną po drugiej kolumnie w metodzie.

Składnia:
ramka danych.Wybierz („kolumna 1”,…, „kolumna”)

Gdzie:

  1. DataFrame to wejście PYSPARK DATAFRAME
  2. Kolumny to nazwy kolumn, które należy zmienić.

Przykład:
W tym przykładzie zamierzamy zmienić kolumny w tej kolejności - „Adres”, „Wzgórza”, „Rollno”, „Nazwa”, „waga” i „wiek”. Następnie wyświetl Metodę DataFrame za pomocą metody show ().

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Uzyskaj kolumny w kolejności - „Adres”, „Wysokość”, „Rollno”, „Nazwa”, „waga”, „wiek”
df = df.Wybierz („Adres”, „Wysokość”, „Rollno”, „Nazwa”, „waga”, „wiek”)
#Dispay the DataFrame
df.pokazywać()

Wyjście:

Scenariusz 2: Zmień kolumny w kolejności rosnącej

W tym scenariuszu użyjemy metody sorted () wraz z metodą select () do zmiany kolumn w kolejności rosnącej metodą sortowaną ().

Składnia:
ramka danych.Wybierz (posortowany (DataFrame.kolumny, odwrotne = false))

Gdzie:

  1. DataFrame to wejście PYSPARK DATAFRAME
  2. sortowane () to metoda, która sortuje ramkę danych w kolejności rosnącej. To zajmie dwa parametry. Pierwszy parametr odnosi się do metody kolumn, aby wybrać wszystkie kolumny z DataFrame. Drugi parametr służy do zmiany ramy danych w kolejności rosnącej, jeśli jest ustawiony na false.

Przykład:
W tym przykładzie zmieniamy kolumny w kolejności rosnącej, aby wyświetlić Metodę DataFrame za pomocą metody show ().

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wportu na funkcję col
od Pyspark.SQL.Funkcje importuj col
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Uzyskaj kolumny w kolejności rosnącej
df = df.Wybierz (posortowany (DF.kolumny, odwrotne = false))
#Dispay the DataFrame
df.pokazywać()

Wyjście:

Scenariusz 3: Umień kolumny w kolejności malejącej

W tym scenariuszu użyjemy metody sorted () wraz z metodą select () do zmiany kolumn w kolejności malejącej metodą sortowaną ().

Składnia:
ramka danych.Wybierz (posortowany (DataFrame.kolumny, odwrotne = true))

Gdzie:

  1. DataFrame to wejście PYSPARK DATAFRAME
  2. sortowane () to metoda, która sortuje ramkę danych w kolejności rosnącej. To zajmie dwa parametry. Pierwszy parametr odnosi się do metody kolumn, aby wybrać wszystkie kolumny z DataFrame. Drugi parametr służy do zmiany ramy danych w kolejności malejącej, jeśli jest ustawiony na true.

Przykład:
W tym przykładzie zmienimy kolumny w kolejności malejącej, aby wyświetlić Metodę DataFrame za pomocą metody show ().

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wportu na funkcję col
od Pyspark.SQL.Funkcje importuj col
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Uzyskaj kolumny w kolejności malejącej
df = df.Wybierz (posortowany (DF.kolumny, odwrotne = true))
#Dispay the DataFrame
df.pokazywać()

Wyjście:

Wniosek

W tym samouczku omówiliśmy, jak zmienić kolumny w Pyspark DataFrame z trzema scenariuszami, stosując metodę Select (). Zastosowaliśmy metodę Sort () wraz z metodą Select () do zmiany kolumn.