PYSPARK Tłumacz i nakładki

PYSPARK Tłumacz i nakładki
„W Python PYSPARK to moduł Spark używany do zapewnienia podobnego rodzaju przetwarzania, takiego jak Spark za pomocą DataFrame.

Omówimy dwie funkcje: tłumacz () i nakładka () w Pyspark.

Omówmy to jeden po drugim. Wcześniej musimy utworzyć PYSPARK DATAFRAME do demonstracji."

Przykład

Utworzymy ramkę danych z 5 rzędami i 6 kolumnami i wyświetlimy ją za pomocą metody show ().

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Display DataFrame
df.pokazywać()

Wyjście:

Pyspark Translate ()

tłumacz () służy do zastąpienia ciągów w znaku kolumny PYSPARK DataFrame według znaku. Musimy określić znaki w ciągu, aby zostać zastąpione innymi znakami. Wymaga trzech parametrów.

Składnia:

Tłumacz (kolumna, „faktyczne_characters”, „Resacing_characters”)

Gdzie,

  1. Kolumna to nazwa kolumny, w której znaki są zastępowane w tej kolumnie.
  2. faktyczne_plazy to znaki obecne w strunach danej kolumny.
  3. Zastępowanie_paratów to znaki, które zastępują faktyczne_paratów jeden po drugim.

Notatka - Liczba znaków w rzeczywistych_prezentacjach musi być równa liczbie zastępowania_charyzacji.

translate () można zastosować z metodą withColumn ().

Ogólna składnia:

ramka danych.withColumn (kolumna, tłumacz (kolumna, „rzeczywiste_characters”, „odpracowanie_characters”))))

Przykład 1

W tym przykładzie tłumaczymy znaki - Gunhy na @$%^i w kolumnie adresowej.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Import Tłumacz z Pyspark.SQL.Funkcje
od Pyspark.SQL.Funkcje importuj tłumaczyć
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#translatuj postacie - Gunhy to @$%^&
df.withColumn („Adres”, tłumacz („Adres”, „Gunhy”, „@$%^&”))).pokazywać()

Wyjście:

Widzimy, że w kolumnie adresowej - zawierane ciągami

  1. g jest przetłumaczone na @
  2. U jest przetłumaczony na $
  3. n jest przetłumaczone na %
  4. H jest przetłumaczone na ^
  5. y jest przetłumaczone na &

Przykład 2

W tym przykładzie tłumaczymy znaki - Jaswi na 56434 w kolumnie nazwy.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Import Tłumacz z Pyspark.SQL.Funkcje
od Pyspark.SQL.Funkcje importuj tłumaczyć
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Translate Postacie - Jaswi do 56434 w kolumnie nazwy
df.withColumn („Nazwa”, tłumacz („name”, „Jaswi”, „56434”)))).pokazywać()

Wyjście:

Widzimy, że w kolumnie nazwy - zawierane ciągami

  1. J jest przetłumaczone na 5
  2. A jest przetłumaczone na 6
  3. S jest przetłumaczone na 4
  4. W jest przetłumaczony na 3
  5. jestem przetłumaczony na 4

PYSPARK NECERAY ()

Nakładka () służy do zastąpienia wartości w danej kolumnie innymi wartościami kolumn. Wymaga trzech parametrów. Można go używać z klauzulą ​​wybraną.

Składnia:

nakładka (zastąpiona_kolumn, zastąpienie_kolumn, pozycja)

Gdzie,

  1. zastąpiony_kolumn to kolumna, w której wartości są zastępowane.
  2. Zastępowanie_kolumn to kolumna, w której zastąpiła wartości w kolumnie zastąpionej.
  3. Pozycja służy do określenia pozycji lub lokalizacji w zastąpionej_koluszu, tak aby wartości zastępujące_kolumnowe Zastąpione_kolumn.

Notatka - Jeśli wszystkie znaki w wartościach zostaną zastąpione w zastąpionej_koluszu, z następnej pozycji pojawią się znaki zastąpione.

Ogólna składnia:

ramka danych.Wybierz (nakładka (zastąpiona_kolumn, zastąpienie_kolumn, pozycja))

Przykład

W tym przykładzie zastąpimy wartości w

  1. Nazwa kolumna z wiekiem od 4 znaków z nazwy kolumny
  2. Kolumna Rollno z nazwą od 2. znaku
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Import nakładka od Pyspark.SQL.Funkcje
od Pyspark.SQL.Funkcje importowe nakładki
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Wartości w ramach nazwy kolumny z wiekiem od 4 znaków
df.Wybierz (nakładka („Nazwa”, „wiek”, 4)).pokazywać()
#Wartości w kolumnie Rollno z nazwą od 2. znaku
df.Wybierz (nakładka („Rollno”, „Nazwa”, 2)).pokazywać()

Wyjście:

Z tego wyjścia,

  1. Znaki w kolumnie wiekowej są zastąpione w kolumnie nazwy z czwartej pozycji każdej wartości, a reszta znaków pozostała ta sama w kolumnie nazwy.
  2. Znaki w kolumnie nazwy są zastąpione w kolumnie Rollno z 4. pozycji każdej wartości, a reszta znaków nie spowodowała kolumny Rollno, ponieważ całkowita liczba znaków w wartości kolumny Rollno jest mniejsza niż wartości kolumny nazwy. Dlatego wartości kolumny nazwy są zajęte.

Wniosek

Z tego samouczka widzieliśmy, jak wymienić struny w kolumnach DataFrame Funkcje tłumacze.tłumacz () służy do zastąpienia ciągów w znaku kolumny PYSPARK DataFrame według znaku. Musimy określić znaki w ciągu, aby zostać zastąpione innymi znakami. Nakładka () służy do zastąpienia wartości w danej kolumnie innymi wartościami kolumn.