PYSPARK - METODA WIZJA

PYSPARK - METODA WIZJA
W Python PYSPARK to moduł Spark używany do zapewnienia podobnego rodzaju przetwarzania, takiego jak Spark za pomocą DataFrame.

withColumn () w PYSPARK służy do wykonywania operacji w kolumnach Pyspark DataFrame. Operacje obejmują

  1. Zmień typ danych kolumny
  2. Zmodyfikuj wartości w kolumnie
  3. Dodaj nową kolumnę z istniejącej kolumny

Przed przejściem do metod utworzymy PYSPARK DATAFRAME

Przykład:

Tutaj utworzymy Pyspark DataFrame z 5 wierszy i 6 kolumnami.

#Wportu na moduł PYSPAPRK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wportu na funkcję col
od Pyspark.SQL.Funkcje importuj col
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Display the DataFrame
df.pokazywać()

Wyjście:

Zmień typ danych kolumny

Możemy zmienić typ danych określonej kolumny za pomocą metody withColumn ().

Składnia:

Ramka danych.withColumn („kolumn_name”, col („kolumn_name”).Cast („DataType”))

Parametry:

1. Kolumna_nazwa to kolumna, której typ danych jest zmieniany

2. Funkcja col () służy do uzyskania nazwy kolumny

3. cast () służy do zmiany danych kolumny z jednego typu na inny, poprzez akceptując nazwę danych jako parametr. Typy danych obejmują ciąg, liczbę całkowitą, podwójną.

Przykład:

W tym przykładzie wysokość jest typu danych zmiennoprzecinkowych. Możemy zmienić go na liczbę całkowitą za pomocą powyższej metody i wyświetlania schematu za pomocą metody i formy danych printschema () przy użyciu metody kolekcji ().

#Wportu na moduł PYSPAPRK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wportu na funkcję col
od Pyspark.SQL.Funkcje importuj col
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Convert Float Typ do kolumny typu liczbowego typu liczbowego
df = df.z kolumn („wysokość”, col („wysokość”).obsada („liczba całkowita”))
#Display Zmodyfikowana ramka danych
Wydrukuj (DF.zbierać())
#llets wyświetl schemat
df.printschema ()

Wyjście:

[Wiersz (adres = „guntur”, wiek = 23, wysokość = 5, name = 'sravan', rolno = '001', waga = 67), wiersz (adres = 'hyd', wiek = 16, wysokość = 3, name = „Ojaswi”, Rollno = '002', waga = 34), wiersz (adres = „patna”, wiek = 7, wysokość = 2, nazwa = „gnanesh chowdary”, Rollno = '003', waga = 17) , Wiersz (adres = „hyd”, wiek = 9, wysokość = 3, nazwa = „rohith”, rolno = „004”, waga = 28), wiersz (adres = „hyd”, wiek = 37, wysokość = 5, name = 'sridevi', rolno = '005', waga = 54)]
źródło
|- Adres: String (nullable = true)
|- wiek: długi (zerowy = true)
|- wysokość: liczba całkowita (zerowa = true)
|- Nazwa: String (nullable = true)
|- Rollno: String (nullable = true)
|- waga: długa (zerowa = prawda)

Zmodyfikuj wartości w kolumnie

Możemy zmodyfikować wartości określonej kolumny za pomocą metody Wholens ().

Składnia:

Ramka danych.withColumn („kolumn_name”, col („kolumn_name”)))

Parametry:

1. Kolumna_nazwa to kolumna, której typ danych jest zmieniany

2. funkcja col () służy do zmiany wartości w nazwie kolumny

Przykład:

W tym przykładzie odejmujemy każdą wartość w kolumnie wagowej o 10.

#Wportu na moduł PYSPAPRK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wportu na funkcję col
od Pyspark.SQL.Funkcje importuj col
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Zrób każdą wartość w kolumnie wagowej o 10
df = df.withcolumn („waga”, col („waga”)-10)
#Display Zmodyfikowana ramka danych
Wydrukuj (DF.zbierać())
#llets wyświetl schemat
df.printschema ()

Wyjście:

[Wiersz (adres = „guntur”, wiek = 23, wysokość = 5.79, name = „sravan”, rollno = '001', waga = 57), wiersz (adres = „hyd”, wiek = 16, wysokość = 3.79, nazwa = „Ojaswi”, Rollno = '002', waga = 24), wiersz (adres = „patna”, wiek = 7, wysokość = 2.79, nazwa = „Gnanesh Chowdary”, Rollno = „003”, waga = 7), wiersz (adres = „hyd”, wiek = 9, wysokość = 3.69, nazwa = „Rohith”, Rollno = „004”, waga = 18), wiersz (adres = „hyd”, wiek = 37, wysokość = 5.59, name = „sridevi”, rollno = '005', waga = 44)]
źródło
|- Adres: String (nullable = true)
|- wiek: długi (zerowy = true)
|- wysokość: podwójne (zerowe = true)
|- Nazwa: String (nullable = true)
|- Rollno: String (nullable = true)
|- waga: długa (zerowa = prawda)

Dodaj nową kolumnę z istniejącej kolumny

Możemy dodać nową kolumnę z istniejącej kolumny za pomocą metody Wholen.

Składnia:

Ramka danych.withColumn („New_Column”, col („kolumn_name”)))

Parametry:

1. New_Column to kolumna

2. Funkcja col () służy do dodawania wartości kolumn do nowości nowej

Przykład:

Ten przykład utworzy nową kolumnę - „moc” i doda wartości do tej kolumny, mnożąc każdą wartość w kolumnie wagowej przez 10.

#Wportu na moduł PYSPAPRK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wportu na funkcję col
od Pyspark.SQL.Funkcje importuj col
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Add kolumna o nazwie Power
#z kolumny masy pomnożonej przez 2
df = df.withcolumn („Power”, col („waga”)* 2)
#Display Zmodyfikowana ramka danych
Wydrukuj (DF.zbierać())
#llets wyświetl schemat
df.printschema ()

Wyjście:

[Wiersz (adres = „guntur”, wiek = 23, wysokość = 5.79, name = „Sravan”, Rollno = „001”, waga = 67, moc = 134), wiersz (adres = „hyd”, wiek = 16, wysokość = 3.79, nazwa = „Ojaswi”, Rollno = '002', waga = 34, moc = 68), wiersz (adres = „patna”, wiek = 7, wysokość = 2.79, name = „Gnanesh Chowdary”, Rollno = „003”, waga = 17, moc = 34), wiersz (adres = „hyd”, wiek = 9, wysokość = 3.69, nazwa = „Rohith”, Rollno = „004”, waga = 28, moc = 56), wiersz (adres = „hyd”, wiek = 37, wysokość = 5.59, name = „sridevi”, rollno = '005', waga = 54, moc = 108)]
źródło
|- Adres: String (nullable = true)
|- wiek: długi (zerowy = true)
|- wysokość: podwójne (zerowe = true)
|- Nazwa: String (nullable = true)
|- Rollno: String (nullable = true)
|- waga: długa (zerowa = prawda)
|- Power: Long (Nullable = True)

Wniosek:

W tym artykule omówiono, jak zmienić typy danych, zmodyfikować wartości w istniejących kolumnach i dodać nową kolumnę za pomocą metody withColumn ().