W Python PYSPARK to moduł Spark używany do zapewnienia podobnego rodzaju przetwarzania, takiego jak Spark za pomocą DataFrame. Lit () jest używany Utwórz nową kolumnę, dodając wartości do tej kolumny w Pyspark DataFrame. Przed przejściem do składni utworzymy PYSPARK DATAFRAME.
Przykład:
Tutaj utworzymy Pyspark DataFrame z 5 wierszy i 6 kolumnami.
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wportu na funkcję col
od Pyspark.SQL.Funkcje importuj col
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17,
„Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Display the DataFrame
df.pokazywać()
Wyjście:
lit () - składnia
lit („wartość”).alias („kolumna_nazwa”)
Gdzie,
- nazwa_polution to nowa kolumna.
- Wartość to stała wartość dodana do nowej kolumny.
Musimy zaimportować tę metodę z Pyspark.SQL.Moduł funkcji.
Notatka: Możemy dodawać wiele kolumn na raz
Za pomocą metody Select () możemy użyć metody lit ().
Wybierz () służy do wyświetlania kolumn z DataFrame. Oprócz tego możemy dodać kolumnę/s za pomocą metody lit ().
Składnia:
ramka danych.Wybierz (col („kolumna”),…, lit („wartość”).alias („New_Column”))
Gdzie,
- Kolumna to istniejąca nazwa kolumny do wyświetlenia.
- NEW_COLUMN to nowa nazwa kolumny, którą należy dodać.
- Wartość to stała wartość dodana do nowej kolumny.
Przykład 1:
W tym przykładzie dodamy nową kolumnę o nazwie - pincode i dodamy stałą wartość - 522112 do tej kolumny i wybierz kolumnę Rollno wraz z pincode z Pyspark DataFrame.
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Import The Col, Lit Funkcja
od Pyspark.SQL.Funkcje importowe, oświetlone
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17,
„Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
# Dodaj nową kolumnę Pincode o stałej wartości - 522112
finał = df.Wybierz (col („Rollno”), lit („522112”).alias („pincode”))
#Display The Final DataFrame
finał.pokazywać()
Wyjście:
Przykład 2:
W tym przykładzie dodamy nowe kolumny o nazwie - Pincode i City i dodamy stałą wartość - 522112 i Guntur do tych kolumn i wybierz kolumnę Rollno wraz z Pincode i City z Pyspark DataFrame.
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Import The Col, Lit Funkcja
od Pyspark.SQL.Funkcje importowe, oświetlone
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17,
„Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
# Dodaj nowe kolumny: pincode o stałej wartości - 522112
# miasto o stałej wartości - Guntur
finał = df.Wybierz (col („Rollno”), lit („522112”).alias („pincode”), lit („guntur”).pseudonim („miasto”))
#Display The Final DataFrame
finał.pokazywać()
Wyjście:
Możemy również dodać wartości do nowej kolumny z istniejących Vales kolumn. Musimy tylko podać nazwę kolumny wewnątrz parametru LIT (wartość).
Składnia:
ramka danych.Wybierz (col („kolumna”),…, lit (dataframe.kolumna).alias („New_Column”))
Gdzie,
- DataFrame to wejście PYSPARK DATAFRAME.
- Kolumna to istniejąca nazwa kolumny do wyświetlenia.
- NEW_COLUMN to nowa nazwa kolumny, którą należy dodać.
- Wartość to stała wartość dodana do nowej kolumny.
Przykład:
W tym przykładzie dodamy kolumnę - „Pincode City” i przypiszmy wartości z kolumny adresu.
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Import The Col, Lit Funkcja
od Pyspark.SQL.Funkcje importowe, oświetlone
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17,
„Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
# Dodaj nową kolumnę: „Pincode City z kolumny adresowej
finał = df.Wybierz (col („Rollno”), Lit (DF.adres).alias („Pincode City”))
#Display The Final DataFrame
finał.pokazywać()
Wyjście:
Możemy również dodać istniejące wartości kolumny poprzez indeks kolumny - indeksowanie kolumn zaczyna się od - 0.
Przykład:
W tym przykładzie dodamy kolumnę - „Pincode City” i przypiszmy wartości z kolumny adresu przez indeks kolumny adresowej i.mi., - 4.
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Import The Col, Lit Funkcja
od Pyspark.SQL.Funkcje importowe, oświetlone
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17,
„Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
# Dodaj nową kolumnę: „Pincode City z kolumny adresowej
finał = df.Wybierz (col („Rollno”), lit (df [4]).alias („Pincode City”))
#Display The Final DataFrame
finał.pokazywać()
Wyjście:
Wniosek
W tym samouczku omówiliśmy metodę Lit () do tworzenia nowej kolumny o stałych wartościach. Możliwe może być przypisanie wartości z istniejącej kolumny, określając kolumnę zamiast parametru wartości przez nazwę kolumny, a także indeks kolumny.