„W Python PYSPARK to moduł Spark używany do zapewnienia podobnego rodzaju przetwarzania, takiego jak Spark za pomocą DataFrame.
Omówimy dwie funkcje: tłumacz () i nakładka () w Pyspark.
Omówmy to jeden po drugim. Wcześniej musimy utworzyć PYSPARK DATAFRAME do demonstracji."
Przykład
Utworzymy ramkę danych z 5 rzędami i 6 kolumnami i wyświetlimy ją za pomocą metody show ().
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Display DataFrame
df.pokazywać()
Wyjście:
Pyspark Translate ()
tłumacz () służy do zastąpienia ciągów w znaku kolumny PYSPARK DataFrame według znaku. Musimy określić znaki w ciągu, aby zostać zastąpione innymi znakami. Wymaga trzech parametrów.
Składnia:
Tłumacz (kolumna, „faktyczne_characters”, „Resacing_characters”)
Gdzie,
- Kolumna to nazwa kolumny, w której znaki są zastępowane w tej kolumnie.
- faktyczne_plazy to znaki obecne w strunach danej kolumny.
- Zastępowanie_paratów to znaki, które zastępują faktyczne_paratów jeden po drugim.
Notatka - Liczba znaków w rzeczywistych_prezentacjach musi być równa liczbie zastępowania_charyzacji.
translate () można zastosować z metodą withColumn ().
Ogólna składnia:
ramka danych.withColumn (kolumna, tłumacz (kolumna, „rzeczywiste_characters”, „odpracowanie_characters”))))
Przykład 1
W tym przykładzie tłumaczymy znaki - Gunhy na @$%^i w kolumnie adresowej.
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Import Tłumacz z Pyspark.SQL.Funkcje
od Pyspark.SQL.Funkcje importuj tłumaczyć
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#translatuj postacie - Gunhy to @$%^&
df.withColumn („Adres”, tłumacz („Adres”, „Gunhy”, „@$%^&”))).pokazywać()
Wyjście:
Widzimy, że w kolumnie adresowej - zawierane ciągami
- g jest przetłumaczone na @
- U jest przetłumaczony na $
- n jest przetłumaczone na %
- H jest przetłumaczone na ^
- y jest przetłumaczone na &
Przykład 2
W tym przykładzie tłumaczymy znaki - Jaswi na 56434 w kolumnie nazwy.
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Import Tłumacz z Pyspark.SQL.Funkcje
od Pyspark.SQL.Funkcje importuj tłumaczyć
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Translate Postacie - Jaswi do 56434 w kolumnie nazwy
df.withColumn („Nazwa”, tłumacz („name”, „Jaswi”, „56434”)))).pokazywać()
Wyjście:
Widzimy, że w kolumnie nazwy - zawierane ciągami
- J jest przetłumaczone na 5
- A jest przetłumaczone na 6
- S jest przetłumaczone na 4
- W jest przetłumaczony na 3
- jestem przetłumaczony na 4
PYSPARK NECERAY ()
Nakładka () służy do zastąpienia wartości w danej kolumnie innymi wartościami kolumn. Wymaga trzech parametrów. Można go używać z klauzulą wybraną.
Składnia:
nakładka (zastąpiona_kolumn, zastąpienie_kolumn, pozycja)
Gdzie,
- zastąpiony_kolumn to kolumna, w której wartości są zastępowane.
- Zastępowanie_kolumn to kolumna, w której zastąpiła wartości w kolumnie zastąpionej.
- Pozycja służy do określenia pozycji lub lokalizacji w zastąpionej_koluszu, tak aby wartości zastępujące_kolumnowe Zastąpione_kolumn.
Notatka - Jeśli wszystkie znaki w wartościach zostaną zastąpione w zastąpionej_koluszu, z następnej pozycji pojawią się znaki zastąpione.
Ogólna składnia:
ramka danych.Wybierz (nakładka (zastąpiona_kolumn, zastąpienie_kolumn, pozycja))
Przykład
W tym przykładzie zastąpimy wartości w
- Nazwa kolumna z wiekiem od 4 znaków z nazwy kolumny
- Kolumna Rollno z nazwą od 2. znaku
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Import nakładka od Pyspark.SQL.Funkcje
od Pyspark.SQL.Funkcje importowe nakładki
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Wartości w ramach nazwy kolumny z wiekiem od 4 znaków
df.Wybierz (nakładka („Nazwa”, „wiek”, 4)).pokazywać()
#Wartości w kolumnie Rollno z nazwą od 2. znaku
df.Wybierz (nakładka („Rollno”, „Nazwa”, 2)).pokazywać()
Wyjście:
Z tego wyjścia,
- Znaki w kolumnie wiekowej są zastąpione w kolumnie nazwy z czwartej pozycji każdej wartości, a reszta znaków pozostała ta sama w kolumnie nazwy.
- Znaki w kolumnie nazwy są zastąpione w kolumnie Rollno z 4. pozycji każdej wartości, a reszta znaków nie spowodowała kolumny Rollno, ponieważ całkowita liczba znaków w wartości kolumny Rollno jest mniejsza niż wartości kolumny nazwy. Dlatego wartości kolumny nazwy są zajęte.
Wniosek
Z tego samouczka widzieliśmy, jak wymienić struny w kolumnach DataFrame Funkcje tłumacze.tłumacz () służy do zastąpienia ciągów w znaku kolumny PYSPARK DataFrame według znaku. Musimy określić znaki w ciągu, aby zostać zastąpione innymi znakami. Nakładka () służy do zastąpienia wartości w danej kolumnie innymi wartościami kolumn.