Dodaj nową kolumnę do Pyspark DataFrame

Dodaj nową kolumnę do Pyspark DataFrame
W Python PYSPARK to moduł Spark używany do zapewnienia podobnego rodzaju przetwarzania, takiego jak Spark za pomocą DataFrame. Omówimy, jak dodać nową kolumnę do istniejącej Pyspark DataFrame.

Przed przejściem do metod utworzymy PYSPARK DATAFRAME.

Przykład:

Tutaj utworzymy Pyspark DataFrame z 5 wierszy i 6 kolumnami.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wportu na funkcję col
od Pyspark.SQL.Funkcje importuj col
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23,
„Wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16,
„Wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7,
„Wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „nazwa”: „Rohith”, „wiek”: 9,
„Wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37,
„Wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Display the DataFrame
df.pokazywać()

Wyjście:

Metoda 1: Dodaj nową kolumnę z wartościami przy użyciu withColumn ()

Możemy dodać nową kolumnę z istniejącej kolumny za pomocą metody Wholens ().

Składnia:

ramka danych.withColumn („New_Column”, col („kolumn_name”)))

Parametry:

  1. New_Column to kolumna.
  2. Funkcja col () służy do dodawania wartości kolumn do nowości nowej.

Przykład:

W tym przykładzie utworzymy nową kolumnę - „moc” i dodamy wartości do tej kolumny, mnożąc każdą wartość w kolumnie wagowej przez 10.

#Wportu na moduł PYSPAPRK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wportu na funkcję col
od Pyspark.SQL.Funkcje importuj col
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23,
„Wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16,
„Wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7,
„Wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „nazwa”: „Rohith”, „wiek”: 9,
„Wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37,
„Wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Add kolumna o nazwie Power
#z kolumny masy pomnożonej przez 2
df = df.withcolumn („Power”, col („waga”)* 2)
#Display Zmodyfikowana ramka danych
Wydrukuj (DF.zbierać())
#LETS Wyświetl schemat
df.printschema ()

Wyjście:

[Wiersz (adres = „guntur”, wiek = 23, wysokość = 5.79, name = „Sravan”, Rollno = „001”, waga = 67, moc = 134), wiersz (adres = „hyd”, wiek = 16, wysokość = 3.79, nazwa = „Ojaswi”, Rollno = '002', waga = 34, moc = 68), wiersz (adres = „patna”, wiek = 7, wysokość = 2.79, name = „Gnanesh Chowdary”, Rollno = „003”, waga = 17, moc = 34), wiersz (adres = „hyd”, wiek = 9, wysokość = 3.69, nazwa = „Rohith”, Rollno = „004”, waga = 28, moc = 56), wiersz (adres = „hyd”, wiek = 37, wysokość = 5.59, name = „sridevi”, rollno = '005', waga = 54, moc = 108)]
źródło
|- Adres: String (nullable = true)
|- wiek: długi (zerowy = true)
|- wysokość: podwójne (zerowe = true)
|- Nazwa: String (nullable = true)
|- Rollno: String (nullable = true)
|- waga: długa (zerowa = prawda)
|- Power: Long (Nullable = True)

Metoda 2: Dodaj nową kolumnę z wartościami Brak za pomocą withColumn ()

Możemy dodać nową kolumnę z wartościami Brak za pomocą metody withColumn () za pomocą funkcji lit ().

Składnia:

ramka danych.withColumn („New_Column”, lit (brak))

Parametry:

  1. New_Column to kolumna.
  2. lit () to funkcja używana do dodawania wartości do kolumny.

Przykład:

W tym przykładzie utworzymy nową kolumnę - „Power” i dodamy wartości Brak do tej kolumny.

#Wportu na moduł PYSPAPRK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Import the Col, Lit Funkcje
od Pyspark.SQL.Funkcje importowe, oświetlone
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23,
„Wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16,
„Wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7,
„Wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „nazwa”: „Rohith”, „wiek”: 9,
„Wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37,
„Wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Add kolumna o nazwie Power
# z wartościami Brak
df = df.withcoolumn („Power”, lit (brak))
#Display Zmodyfikowana ramka danych
Wydrukuj (DF.zbierać())

Wyjście:

[Wiersz (adres = „guntur”, wiek = 23, wysokość = 5.79, nazwa = „sravan”, rolno = '001', waga = 67, moc = brak), wiersz (adres = „hyd”, wiek = 16, wysokość = 3.79, nazwa = „Ojaswi”, Rollno = '002', waga = 34, moc = brak), wiersz (adres = „patna”, wiek = 7, wysokość = 2.79, nazwa = „Gnanesh Chowdary”, Rollno = „003”, waga = 17, moc = brak), wiersz (adres = „hyd”, wiek = 9, wysokość = 3.69, nazwa = „Rohith”, Rollno = „004”, waga = 28, moc = brak), wiersz (adres = „hyd”, wiek = 37, wysokość = 5.59, name = „Sridevi”, Rollno = '005', waga = 54, Power = Brak)]

Metoda 3: Dodaj nową kolumnę z wartościami opartymi na warunkach za pomocą vhoolumn ()

Możemy dodać nową kolumnę z warunkami przy użyciu metody i wartości za pomocą funkcji lit () za pośrednictwem funkcji lit (). Możemy określić warunki za pomocą funkcji When (). Można to importować z Pyspark.SQL.Funkcje.

Składnia:

ramka danych.withColumn („New_Column”, kiedy ((DataFrame.kolumna < 11), lit("value1"))
.Kiedy ((warunek), lit („value2”))

. Kiedy ((warunek), lit („wartość n”))
.inaczej (lit („wartość”))))

Parametry:

  1. New_Column to kolumna.
  2. lit () to funkcja używana do dodawania wartości do kolumny.
  3. Kiedy () przyjmie warunek jako wejście i dodać wartości na podstawie spełnionych kryteriów.
  4. w przeciwnym razie () to ostatnia kropka, która wykona dowolny z powyższych warunków nie spełnia kryteriów.

Przykład:

W tym przykładzie utworzymy nową kolumnę - „Power” i dodamy wartości z kolumny wiekowej.

  • Dodaj niską wartość, jeśli wiek jest niższy niż - 11
  • dodać wysoką wartość, jeśli wiek jest mniejszy lub równy - 12 i większy lub równy - 20
  • W przeciwnym razie dodaj wysoką wartość
#Wportu na moduł PYSPAPRK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wprowadź col, oświetlony, gdy funkcjonuje
od Pyspark.SQL.funkcje importuj col, zapalone, kiedy
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23,
„Wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16,
„Wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7,
„Wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „nazwa”: „Rohith”, „wiek”: 9,
„Wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37,
„Wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Add a Column - Power
#add Vales kolumn na podstawie kolumny wiekowej
#CHOREKUJĄC WARUNKI
df.withcoolumn („Power”, kiedy (df.wiek < 11), lit("Low"))
.Kiedy ((df.wiek> = 12) i (DF.wiek <= 20), lit("Medium"))
.inaczej (lit („high”)))).pokazywać()

Wyjście:

Metoda 4: Dodaj nową kolumnę z wartościami przy użyciu wyboru ()

Możemy dodać nową kolumnę z istniejącej kolumny za pomocą metody select ().

Składnia:

ramka danych.Wybierz (Lit (DF.kolumna).alias („New_Column”))

Parametry:

  1. New_Column to kolumna.
  2. Funkcja lit () służy do dodawania wartości kolumn do nowości nowej.

Przykład:

W tym przykładzie utworzymy nową kolumnę - „moc” i dodamy wartości do tej kolumny, mnożąc każdą wartość w kolumnie wagowej przez 10.

#Wportu na moduł PYSPAPRK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Import the Col, Lit Funkcje
od Pyspark.SQL.Funkcje importowe, oświetlone
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23,
„Wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16,
„Wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7,
„Wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „nazwa”: „Rohith”, „wiek”: 9,
„Wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37,
„Wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Add kolumna o nazwie - kolumna mocy z wagi
# Dodaj wartości, mnożąc z 10
df.Wybierz („Rollno”, Lit (DF.waga * 10).alias („moc”)).pokazywać()

Wyjście:

Metoda 5: Dodaj nową kolumnę z wartościami Brak za pomocą wyboru ()

Możemy dodać nową kolumnę z wartościami zerowymi za pomocą metody select ().

Składnia:

ramka danych.Wybierz (Lit (brak).alias („New_Column”))

Parametry:

  1. New_Column to kolumna
  2. Funkcja lit () służy do dodawania wartości Brak

Przykład:

W tym przykładzie utworzymy nową kolumnę - „Power” i dodamy wartości Brak do tej kolumny.

#Wportu na moduł PYSPAPRK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Import the Col, Lit Funkcje
od Pyspark.SQL.Funkcje importowe, oświetlone
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23,
„Wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16,
„Wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7,
„Wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „nazwa”: „Rohith”, „wiek”: 9,
„Wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37,
„Wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#add kolumna o nazwie - Power
# Dodaj wartości zerowe bez żadnego
df.Wybierz („Rollno”, lit (brak).alias („moc”)).pokazywać()

Wyjście:

Wniosek

W tym samouczku omówiliśmy, jak dodać nową kolumnę za pomocą funkcji Select () i WithColumn (). Zauważyliśmy, że lit () jest funkcją używaną do dodawania wartości do nowej kolumny. Na koniec omówiliśmy, jak dodać wartości brak/zerowych i wartości z istniejących kolumn do Pyspark DataFrame.