PYSPARK - LIT

PYSPARK - LIT

W Python PYSPARK to moduł Spark używany do zapewnienia podobnego rodzaju przetwarzania, takiego jak Spark za pomocą DataFrame. Lit () jest używany Utwórz nową kolumnę, dodając wartości do tej kolumny w Pyspark DataFrame. Przed przejściem do składni utworzymy PYSPARK DATAFRAME.

Przykład:

Tutaj utworzymy Pyspark DataFrame z 5 wierszy i 6 kolumnami.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wportu na funkcję col
od Pyspark.SQL.Funkcje importuj col
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17,
„Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Display the DataFrame
df.pokazywać()

Wyjście:

lit () - składnia

lit („wartość”).alias („kolumna_nazwa”)

Gdzie,

  1. nazwa_polution to nowa kolumna.
  2. Wartość to stała wartość dodana do nowej kolumny.

Musimy zaimportować tę metodę z Pyspark.SQL.Moduł funkcji.

Notatka: Możemy dodawać wiele kolumn na raz

Za pomocą metody Select () możemy użyć metody lit ().

Wybierz () służy do wyświetlania kolumn z DataFrame. Oprócz tego możemy dodać kolumnę/s za pomocą metody lit ().

Składnia:

ramka danych.Wybierz (col („kolumna”),…, lit („wartość”).alias („New_Column”))

Gdzie,

  1. Kolumna to istniejąca nazwa kolumny do wyświetlenia.
  2. NEW_COLUMN to nowa nazwa kolumny, którą należy dodać.
  3. Wartość to stała wartość dodana do nowej kolumny.

Przykład 1:

W tym przykładzie dodamy nową kolumnę o nazwie - pincode i dodamy stałą wartość - 522112 do tej kolumny i wybierz kolumnę Rollno wraz z pincode z Pyspark DataFrame.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Import The Col, Lit Funkcja
od Pyspark.SQL.Funkcje importowe, oświetlone
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17,
„Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
# Dodaj nową kolumnę Pincode o stałej wartości - 522112
finał = df.Wybierz (col („Rollno”), lit („522112”).alias („pincode”))
#Display The Final DataFrame
finał.pokazywać()

Wyjście:

Przykład 2:

W tym przykładzie dodamy nowe kolumny o nazwie - Pincode i City i dodamy stałą wartość - 522112 i Guntur do tych kolumn i wybierz kolumnę Rollno wraz z Pincode i City z Pyspark DataFrame.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Import The Col, Lit Funkcja
od Pyspark.SQL.Funkcje importowe, oświetlone
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17,
„Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
# Dodaj nowe kolumny: pincode o stałej wartości - 522112
# miasto o stałej wartości - Guntur
finał = df.Wybierz (col („Rollno”), lit („522112”).alias („pincode”), lit („guntur”).pseudonim („miasto”))
#Display The Final DataFrame
finał.pokazywać()

Wyjście:

Możemy również dodać wartości do nowej kolumny z istniejących Vales kolumn. Musimy tylko podać nazwę kolumny wewnątrz parametru LIT (wartość).

Składnia:

ramka danych.Wybierz (col („kolumna”),…, lit (dataframe.kolumna).alias („New_Column”))

Gdzie,

  1. DataFrame to wejście PYSPARK DATAFRAME.
  2. Kolumna to istniejąca nazwa kolumny do wyświetlenia.
  3. NEW_COLUMN to nowa nazwa kolumny, którą należy dodać.
  4. Wartość to stała wartość dodana do nowej kolumny.

Przykład:

W tym przykładzie dodamy kolumnę - „Pincode City” i przypiszmy wartości z kolumny adresu.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Import The Col, Lit Funkcja
od Pyspark.SQL.Funkcje importowe, oświetlone
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17,
„Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
# Dodaj nową kolumnę: „Pincode City z kolumny adresowej
finał = df.Wybierz (col („Rollno”), Lit (DF.adres).alias („Pincode City”))
#Display The Final DataFrame
finał.pokazywać()

Wyjście:

Możemy również dodać istniejące wartości kolumny poprzez indeks kolumny - indeksowanie kolumn zaczyna się od - 0.

Przykład:

W tym przykładzie dodamy kolumnę - „Pincode City” i przypiszmy wartości z kolumny adresu przez indeks kolumny adresowej i.mi., - 4.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Import The Col, Lit Funkcja
od Pyspark.SQL.Funkcje importowe, oświetlone
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17,
„Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
# Dodaj nową kolumnę: „Pincode City z kolumny adresowej
finał = df.Wybierz (col („Rollno”), lit (df [4]).alias („Pincode City”))
#Display The Final DataFrame
finał.pokazywać()

Wyjście:

Wniosek

W tym samouczku omówiliśmy metodę Lit () do tworzenia nowej kolumny o stałych wartościach. Możliwe może być przypisanie wartości z istniejącej kolumny, określając kolumnę zamiast parametru wartości przez nazwę kolumny, a także indeks kolumny.