Zmień nazwy kolumn Pyspark DataFrame - Zmień nazwę kolumny

Zmień nazwy kolumn Pyspark DataFrame - Zmień nazwę kolumny
W Python PYSPARK to moduł Spark używany do zapewnienia podobnego rodzaju przetwarzania, takiego jak Spark za pomocą DataFrame. Omówimy różne metody zmiany nazwy kolumn PYSPARK DATEFRAME. Utworzymy Pyspark DataFrame przed przejściem do metod.

Przykład:
Tutaj utworzymy PYSPARK DATAFRAME z 5 wierszy i 6 kolumnami.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wportu na funkcję col
od Pyspark.SQL.Funkcje importuj col
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Display the DataFrame
df.pokazywać()

Wyjście:

Metoda 1: Zastosowanie withColumnrenamed ()

Możemy zmienić nazwę kolumny w Pyspark DataFrame za pomocą tej metody.

Składnia:
ramka danych.withColumnNamed („Old_Column”, „New_Column”)

Parametry:

  1. Old_Column to istniejąca kolumna
  2. New_Column to nowa kolumna, która zastępuje Old_Column

Przykład:
W tym przykładzie zastępujemy kolumnę adresową „miasto” i wyświetlamy całą metodę DataFrame za pomocą metody show ().

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wportu na funkcję col
od Pyspark.SQL.Funkcje importuj col
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Renam nazwa kolumny adresu z miastem
df.withColumnrenamed („Adres”, „City”).pokazywać()

Wyjście:

Możemy również zastąpić wiele nazw kolumn na raz przy użyciu tej metody.

Składnia:
ramka danych.withColumnNamed („Old_Column”, „New_Column”) .withColumnNamed („Old_Column”, „New_Column”)… .withColumnNamed („Old_Column”, „New_Column”)

Przykład:
W tym przykładzie zastępujemy kolumnę adresową „miasto”, kolumnę wysokości na „wysokość”, kolumnę Rollno na „id” i wyświetlamy całą Metodę DataFrame za pomocą metody show ().

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Renam nazwa kolumny adresu z miastem, kolumna wysokości z wysokością, kolumna Rollno z identyfikatorem
df.withColumnrenamed („Adres”, „City”).withColumnrenamed („wysokość”, „wysokość”).withColumnrenamed („Rollno”, „id”).pokazywać()

Wyjście:

Metoda 2: Za pomocą SelectExpr ()

Jest to metoda wyrażenia, która zmienia nazwę kolumny, przyjmując wyrażenie.

Składnia:
ramka danych.SelectExpr (wyrażenie)

Parametry:

  • Zajmie tylko jeden parametr, który jest wyrażeniem.
  • Wyrażenie służy do zmiany kolumny. Wyrażenie będzie brzmiało: „Old_column jako new_column”.

Wreszcie składnia to:

ramka danych.SelectExpr („Old_Column as New_Column”)

Gdzie,

  • Old_Column to istniejąca kolumna
  • New_Column to nowa kolumna, która zastępuje Old_Column

Uwaga: możemy podać wiele wyrażeń oddzielonych przecinkiem w tej metodzie.

Przykład 1:
W tym przykładzie zastępujemy kolumnę adresową „City” i wyświetlamy tę kolumnę za pomocą metody show ().

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Renam nazwa kolumny adresu z miastem
df.SelectExpr („Adres as miasto”).pokazywać()

Wyjście:

Przykład 2:

W tym przykładzie zastępujemy kolumnę adresową „miasto”, kolumnę wysokości na „wysokość”, kolumnę Rollno na „id” i wyświetlamy całą Metodę DataFrame za pomocą metody show ().

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Renam nazwa kolumny adresu z miastem, kolumna wysokości z wysokością, kolumna Rollno z identyfikatorem
df.SelectExpr („Adres as miasto”, „wysokość jako wysokość”, „Rollno asd”).pokazywać()

Wyjście:

Metoda 3: Za pomocą Select ()

Możemy wybrać kolumny z DataFrame, zmieniając nazwy kolumn za pomocą metody alias ().

Składnia:
ramka danych.Wybierz (col („Old_Column”).alias („New_Column”))

Parametry:

  • Będzie wymagał tylko jednego parametru, który jest nazwą kolumny metodą Col ().

col () to metoda dostępna w Pyspark.SQL.Funkcje przyjmą Old_Column jako parametr wejściowy i zmieni się na New_Column z alias ()

alias () weźmie new_coolumn jako parametr

Gdzie:

  1. Old_Column to istniejąca kolumna
  2. New_Column to nowa kolumna, która zastępuje Old_Column

Uwaga: Możemy podać wiele kolumn oddzielonych przecinkiem w tej metodzie.

Przykład 1:
W tym przykładzie zastępujemy kolumnę adresową „City” i wyświetlamy tę kolumnę za pomocą metody show ().

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wportu na funkcję col
od Pyspark.SQL.Funkcje importuj col
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Renam nazwa kolumny adresu z miastem
df.Wybierz (col („Adres”).pseudonim („miasto”)).pokazywać()

Wyjście:

Przykład 2:

W tym przykładzie zastępujemy kolumnę adresową „miasto”, kolumnę wysokości na „wysokość”, kolumnę Rollno na „id” i wyświetlanie całej mandatu danych za pomocą metody show ().

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wportu na funkcję col
od Pyspark.SQL.Funkcje importuj col
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Renam nazwa kolumny adresu z miastem, kolumna wysokości z wysokością, kolumna Rollno z identyfikatorem
df.Wybierz (col („Adres”).pseudonim („miasto”), col („wysokość”).alias („wysokość”), kol. („Rollno”).alias („id”)).pokazywać()

Wyjście:

Wniosek

W tym samouczku omówiliśmy, jak zmienić nazwy kolumn Pyspark DataFrame za pomocą metod withColumnReMed (), Select i SelectExpr (). Korzystając z tych metod, możemy również zmieniać wiele nazw kolumn na raz.