PYSPARK - METODA WITHCOLUMNEDED

PYSPARK - METODA WITHCOLUMNEDED
W Python PYSPARK to moduł Spark używany do zapewnienia podobnego rodzaju przetwarzania, takiego jak Spark za pomocą DataFrame.

Metoda withColumnReMed () w PYSPARK służy do zmiany nazwy istniejących kolumn w Pyspark DataFrame.

Składnia:

Ramka danych.withColumnNamed („Old_Column”, „New_Column”)

Parametry:

  1. Old_Column to stara nazwa kolumny
  2. New_Column to nowa nazwa starej kolumny

Utwórzmy Pyspark DataFrame z 5 rzędami i 6 kolumnami i wyświetlmy ją za pomocą metody show ()

Przykład:

#Wportu na moduł PYSPAPRK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wportu na funkcję col
od Pyspark.SQL.Funkcje importuj col
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Display the DataFrame
df.pokazywać()

Wyjście:

Zmienimy nazwę kolumny „Adres” na „Adres studentów”, kolumnę „Rollno” na kolumnę „Identyfikator studentów” i „Nazwa” na „nazwisko uczniów”.

Przykład:

#Wportu na moduł PYSPAPRK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#name Nazwa kolumna do nazwy uczniów
df = df.withColumnNamed („Nazwa”, „Nazwa uczniów”)
#name Adres kolumna do nazwy uczniów
df = df.withColumnNamed („Adres”, „Adres studentów”)
#Rename Rollno kolumna do identyfikatora studentów
df = df.withColumnNamed („Rollno”, „Students Id”)
#LETS Wyświetl schemat
df.printschema ()

Wyjście:

źródło
|- Adres uczniów: String (Nullable = True)
|- wiek: długi (zerowy = true)
|- wysokość: podwójne (zerowe = true)
|- Nazwa uczniów: String (nullable = true)
|- Identyfikator uczniów: String (nullable = true)
|- waga: długa (zerowa = prawda)

Jeśli chcemy na wiele nazw kolumn na raz, musimy użyć funkcji withColumnReam () wielokrotnie oddzielona przez kropkę (.) Operator

Składnia:

Ramka danych.withColumnNamed („OLD_COLUMN1”, „New_Column”)… withColumnNamed („OLD_COLUMN2”, „New_Column”)… withColumnNamed („Old_Column3”, „New_Column”).
.withColumnNamed („Old_Column N”, „New_Column”)

Przykład:

W tym przykładzie zmieni nazwę kolumny „Adres” na „Adres studentów”, kolumnę „Rollno” na kolumnę „Id” studentów i „nazwa” na „nazwę uczniów” i na koniec wyświetli schemat.

#Wportu na moduł PYSPAPRK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#name Nazwa kolumna do nazwy uczniów,
#Nazwa kolumny address do uczniów
#Rename Rollno kolumna do identyfikatora studentów
df = df.withColumnNamed („Nazwa”, „Nazwa uczniów”).withColumnNamed („Adres”, „Adres studentów”).withColumnNamed („Rollno”, „Students Id”)
#LETS Wyświetl schemat
df.printschema ()

Wyjście:

źródło
|- Adres uczniów: String (Nullable = True)
|- wiek: długi (zerowy = true)
|- wysokość: podwójne (zerowe = true)
|- Nazwa uczniów: String (nullable = true)
|- Identyfikator uczniów: String (nullable = true)
|- waga: długa (zerowa = prawda)

Wniosek

W tym artykule omówiliśmy, jak zmienić nazwę nazw kolumn za pomocą funkcji withColumnReMed () i widzieliśmy, jak zmienić nazwę wielu kolumn.