PYSPARK - Pandas DataFrame add_prefix i add_suffix

PYSPARK - Pandas DataFrame add_prefix i add_suffix

„W Python PYSPARK to moduł Spark, który zapewnia podobny rodzaj przetwarzania do Spark za pomocą DataFrame, który zapisuje podane dane w formacie wierszowym i kolumnowym.

PYSPARK - Pandas DataFrame reprezentuje pandas DataFrame, ale wewnętrznie utrzymuje Pyspark DataFrame.

Pandy obsługują strukturę danych danych, a pandy są importowane z modułu PYSPARK.

Wcześniej musisz zainstalować moduł PYSPARK."

Komenda

1
PIP Instaluj PYSPARK

Składnia do importu:

1
od Pyspark Import Pandas

Następnie możemy utworzyć lub użyć ramki danych z modułu pandaas.

Składnia do utworzenia PandaS DataFrame:

1
Pyspark.Pandy.Ramka danych()

Możemy przekazać słownik lub listę list z wartościami.

Utwórzmy Pandas DataFrame za pośrednictwem PYSPARK z czterema kolumnami i pięcioma wierszami.

1
2
3
4
5
6
7
8
9
10
11
12
13
#Import pandy z modułu PYSPARK
od Pyspark Import Pandas
#Ukreperowanie danych z Pandas Pyspark
PYSPARK_PANDAS = PANDAS.DataFrame („Student_lastname”: [„Manasa”, „Trisha”, „lehara”, „kapila”, „hyna”], „Mark1”: [90,56,78,54,67], „Mark2”: [ 100 67,96,89,32], „Mark3”: [91,92,98,97,87]))
Drukuj (PYSPARK_PANDAS)

Wyjście:

Teraz wejdziemy do naszego samouczka.

Możliwe jest dodanie prefiksów i sufiksów do określonej kolumny lub wszystkich kolumn za pomocą metod add_prefix () i add_suffix (). Omów je jeden po drugim.

1
Pyspark.Pandy.Ramka danych.add_prefix ()

add_prefix () służy do dodawania ciągu prefiksów do każdej kolumny na początku Pyspark Pananderframe. Możliwe jest również dodanie przedrostka tylko do jednej kolumny, określając nazwę kolumny. W tym scenariuszu zostanie dodany do etykiet wierszy.

Składnia:

Dla całej ramki danych - PYSPARK_PANDAS.add_prefix („string”)

Dla określonej kolumny - PYSPARK_PANDAS.kolumna.add_prefix („string”)

Gdzie, Pyspark_pandas to Pyspark Panandframe.

Parametr:

Ciąg to prefiks dodany do kolumny na początku.

Przykład 1

W tym przykładzie dodajemy prefiks - „Linux_hint” do wszystkich powyższych kolumn, aby utworzyć Pyspark Pandas DataFrame.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
#Import pandy z modułu PYSPARK
od Pyspark Import Pandas
#Ukreperowanie danych z Pandas Pyspark
PYSPARK_PANDAS = PANDAS.DataFrame („Student_lastname”: [„Manasa”, „Trisha”, „lehara”, „kapila”, „hyna”], „Mark1”: [90,56,78,54,67], „Mark2”: [ 100 67,96,89,32], „Mark3”: [91,92,98,97,87]))
#Add The Prefix - „Linux_hint” do całej ramki danych
Drukuj (Pyspark_pandas.add_prefix („Linux_hint”))

Wyjście:

Widzimy, że przedrostek jest dodawany do wszystkich kolumn.

Przykład 2

Dodaj prefiks do wartości w kolumnie Mark1.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
#Import pandy z modułu PYSPARK
od Pyspark Import Pandas
#Ukreperowanie danych z Pandas Pyspark
PYSPARK_PANDAS = PANDAS.DataFrame („Student_lastname”: [„Manasa”, „Trisha”, „lehara”, „kapila”, „hyna”], „Mark1”: [90,56,78,54,67], „Mark2”: [ 100 67,96,89,32], „Mark3”: [91,92,98,97,87]))
#add prefiks - „Linux_hint” do wartości kolumny Mark1
Drukuj (Pyspark_pandas.Mark1.add_prefix („Linux_hint”))

Wyjście:

1
2
3
4
5
6
7
8
9
10
11
Linux_hint0 90
Linux_hint1 56
Linux_hint2 78
Linux_hint3 54
Linux_hint4 67
Nazwa: Mark1, Dtype: Int64

Widzimy, że prefiks jest dodawany do wszystkich wartości w kolumnie Mark1.

1
Pyspark.Pandy.Ramka danych.add_suffix ()

add_suffix () służy do dodawania łańcucha sufiksu do każdej kolumny na końcu Pyspark PandaSframe. Możliwe jest również dodanie przyrostka tylko do jednej kolumny, określając nazwę kolumny. W tym scenariuszu zostanie dodany do etykiet wierszy.

Składnia:

Dla całej ramki danych - PYSPARK_PANDAS.add_suffix („String”)

Dla określonej kolumny - PYSPARK_PANDAS.kolumna.add_suffix („String”)

Gdzie, Pyspark_pandas to Pyspark Panandframe.

Parametr:

Ciąg to sufiks dodany do kolumny na początku.

Przykład 1

W tym przykładzie dodajemy sufiks - „Linux_hint” do wszystkich powyższych kolumn, aby utworzyć PYSPARK PANDAS DataFrame.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
#Import pandy z modułu PYSPARK
od Pyspark Import Pandas
#Ukreperowanie danych z Pandas Pyspark
PYSPARK_PANDAS = PANDAS.DataFrame („Student_lastname”: [„Manasa”, „Trisha”, „lehara”, „kapila”, „hyna”], „Mark1”: [90,56,78,54,67], „Mark2”: [ 100 67,96,89,32], „Mark3”: [91,92,98,97,87]))
#Add the Sufiks - „Linux_hint” do całej ramki danych
Drukuj (Pyspark_pandas.add_suffix („Linux_hint”))

Wyjście:

Widzimy, że sufiks jest dodawany do wszystkich kolumn.

Przykład 2

Dodaj sufiks do wartości w kolumnie Mark1.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
#Import pandy z modułu PYSPARK
od Pyspark Import Pandas
#Ukreperowanie danych z Pandas Pyspark
PYSPARK_PANDAS = PANDAS.DataFrame („Student_lastname”: [„Manasa”, „Trisha”, „lehara”, „kapila”, „hyna”], „Mark1”: [90,56,78,54,67], „Mark2”: [ 100 67,96,89,32], „Mark3”: [91,92,98,97,87]))
#Add Sufiks - „Linux_hint” do wartości kolumny Mark1
Drukuj (Pyspark_pandas.Mark1.add_suffix („Linux_hint”))

Wyjście:

1
2
3
4
5
6
7
8
9
10
11
0linux_hint 90
1linux_hint 56
2linux_hint 78
3linux_hint 54
4linux_hint 67
Nazwa: Mark1, Dtype: Int64

Widzimy, że sufiks jest dodawany do wszystkich wartości w kolumnie Mark1.

Wniosek

W tym samouczku Pyspark Panand widzieliśmy, jak dodać prefiks za pomocą add_prefix () i sufiks za pomocą add_suffix () do Pyspark Pandas DataFrame. Zostanie dodany do nazw kolumn, gdy określimy całą ramkę danych. Jeśli zastosujemy powyższe metody do określonej kolumny, prefiks/sufiks zostanie dodany do pozycji wierszy.