PYSPARK - Operacje arytmetyczne Pandas DataFrame

PYSPARK - Operacje arytmetyczne Pandas DataFrame
„W Python PYSPARK to moduł Spark używany do zapewnienia podobnego rodzaju przetwarzania, takiego jak Spark przy użyciu DataFrame, który będzie przechowywał podane dane w formacie wierszowym i kolumnowym.

PYSPARK - Pandas DataFrame reprezentuje pandas DataFrame, ale wewnętrznie utrzymuje Pyspark DataFrame.

Pandy obsługują strukturę danych danych, a pandy są importowane z modułu PYSPARK.

Wcześniej musisz zainstalować moduł PYSPARK."

Komenda

PIP Instaluj PYSPARK

Składnia do importu

od Pyspark Import Pandas

Następnie możemy utworzyć lub użyć ramki danych z modułu pandaas.

Składnia do tworzenia pandas DataFrame

Pyspark.Pandy.Ramka danych()

Możemy przekazać słownik lub listę list z wartościami.

Utwórzmy Pandas DataFrame za pośrednictwem PYSPARK, który ma trzy kolumny i pięć wierszy.

#Import pandy z modułu PYSPARK
od Pyspark Import Pandas
#Ukreperowanie danych z Pandas Pyspark
PYSPARK_PANDAS = PANDAS.DataFrame ('Mark1': [90,78,90,54,67], „Mark2”: [100,67,96,89,77], „Mark3”: [91,92,98,97,87] )
#wyświetlacz
Drukuj (PYSPARK_PANDAS)

Wyjście

Teraz wejdziemy do naszego samouczka.

Operacje arytmetyczne są używane do wykonywania operacji, takich jak dodanie, odejmowanie, mnożenie, podział i moduł. Pyspark Pandas DataFrame obsługuje wbudowane funkcje używane do wykonywania tych operacji.

Zobaczmy jeden po drugim.

Pyspark.Pandy.Ramka danych.dodać()

add () w Pyspark PanandSframe Służy do dodawania elementów w całej ramce danych o wartości.

Możliwe jest również dodanie wartości w jednej kolumnie. Bierze wartość jako parametr.

Składnia

Dla całego Pyspark Pandy DataFrame

PYSPARK_PANDAS.dodać wartość)

Dla określonej kolumny

PYSPARK_PANDAS.dodać wartość)

Gdzie,

  1. PYSPARK_PANDAS to PYSPARK PANDASFrame
  2. wartość, która wymaga wartości liczbowej do dodania do PYSPARK_PANDA.

Przykład 1
W tym przykładzie dodamy 5 do kolumny Mark1.

#Import pandy z modułu PYSPARK
od Pyspark Import Pandas
#Ukreperowanie danych z Pandas Pyspark
PYSPARK_PANDAS = PANDAS.DataFrame ('Mark1': [90,78,90,54,67], „Mark2”: [100,67,96,89,77], „Mark3”: [91,92,98,97,87] )
#Add Wartości w kolumnie Mark1 z 5
Drukuj (Pyspark_pandas.Mark1.Dodaj (5))

Wyjście

Widzimy, że 5 jest dodawane do każdej wartości w kolumnie Mark1.

Przykład 2
W tym przykładzie dodamy 5 do całego Pyspark Pandas DataFrame.

#Import pandy z modułu PYSPARK
od Pyspark Import Pandas
#Ukreperowanie danych z Pandas Pyspark
PYSPARK_PANDAS = PANDAS.DataFrame ('Mark1': [90,78,90,54,67], „Mark2”: [100,67,96,89,77], „Mark3”: [91,92,98,97,87] )
#add 5 do całej ramki danych
Drukuj (Pyspark_pandas.Dodaj (5))

Wyjście

Widzimy, że 5 jest dodawane do całego Pyspark Pandas DataFrame.

Pyspark.Pandy.Ramka danych.pod()

Sub () w Pyspark PandaSframe jest używany do odejmowania elementów od całej ramki danych o wartości.

Możliwe jest również odejmowanie od jednej kolumny. Bierze wartość jako parametr.

Składnia

Dla całego Pyspark Pandy DataFrame

PYSPARK_PANDAS.sub (wartość)

Dla określonej kolumny

PYSPARK_PANDAS.sub (wartość)

Gdzie,

  1. PYSPARK_PANDAS to PYSPARK PANDASFrame
  2. wartość, która wymaga wartości liczbowej do odjęcia od Pyspark_Pandas.

Przykład 1
W tym przykładzie odejmujemy 5 od kolumny Mark1.

#Import pandy z modułu PYSPARK
od Pyspark Import Pandas
#Ukreperowanie danych z Pandas Pyspark
PYSPARK_PANDAS = PANDAS.DataFrame ('Mark1': [90,78,90,54,67], „Mark2”: [100,67,96,89,77], „Mark3”: [91,92,98,97,87] )
#Wartości subtract w kolumnie Mark1 z 5
Drukuj (Pyspark_pandas.Mark1.sub (5))

Wyjście

Widzimy, że 5 jest odejmowane od każdej wartości w kolumnie Mark1.

Przykład 2
W tym przykładzie odejmujemy 5 od całego Pyspark Pandas DataFrame.

#Import pandy z modułu PYSPARK
od Pyspark Import Pandas
#Ukreperowanie danych z Pandas Pyspark
PYSPARK_PANDAS = PANDAS.DataFrame ('Mark1': [90,78,90,54,67], „Mark2”: [100,67,96,89,77], „Mark3”: [91,92,98,97,87] )
#Subtract 5 z całej ramki danych
Drukuj (Pyspark_pandas.sub (5))

Wyjście

Widzimy, że 5 jest odejmowane od całego Pyspark Pandas DataFrame.

Pyspark.Pandy.Ramka danych.MUL ()

MUL () w Pyspark Pandas DataFrame jest używany do pomnożenia elementów w całej ramce danych o wartości.

Możliwe jest również pomnożenie wartości w jednej kolumnie. Bierze wartość jako parametr.

Składnia

Dla całego Pyspark Pandy DataFrame

PYSPARK_PANDAS.MUL (wartość)

Dla określonej kolumny

PYSPARK_PANDAS.MUL (wartość)

Gdzie,

  1. PYSPARK_PANDAS to PYSPARK PANDASFrame
  2. wartość, która wymaga wartości liczbowej do pomnożenia za pomocą PYSPARK_PANDA.

Przykład 1
W tym przykładzie pomnożymy wszystkie wartości w kolumnie Mark1 z 5.

#Import pandy z modułu PYSPARK
od Pyspark Import Pandas
#Ukreperowanie danych z Pandas Pyspark
PYSPARK_PANDAS = PANDAS.DataFrame ('Mark1': [90,78,90,54,67], „Mark2”: [100,67,96,89,77], „Mark3”: [91,92,98,97,87] )
#Subtract 5 z całej ramki danych
Drukuj (Pyspark_pandas.sub (5))

Wyjście

Widzimy, że 5 jest mnożone z każdą wartością w kolumnie Mark1.

Przykład 2
W tym przykładzie pomnożymy cały Pyspark Pandas DataFrame.

#Import pandy z modułu PYSPARK
od Pyspark Import Pandas
#Ukreperowanie danych z Pandas Pyspark
PYSPARK_PANDAS = PANDAS.DataFrame ('Mark1': [90,78,90,54,67], „Mark2”: [100,67,96,89,77], „Mark3”: [91,92,98,97,87] )
#mięknie całość DataFrame z 5
Drukuj (Pyspark_pandas.MUL (5))

Wyjście

Widzimy, że cała Pyspark Pandas DataFrame jest mnożona przez 5.

Pyspark.Pandy.Ramka danych.div ()

Div () w Pyspark Pandas DataFrame służy do podziału elementów w całej ramce danych o wartości.

Możliwe jest również podzielenie według wartości w jednej kolumnie. Bierze wartość jako parametr. Zwraca iloraz.

Składnia

Dla całego Pyspark Pandy DataFrame

PYSPARK_PANDAS.div (wartość)

Dla określonej kolumny

PYSPARK_PANDAS.div (wartość)

Gdzie,

  1. PYSPARK_PANDAS to PYSPARK PANDASFrame
  2. wartość, która wymaga wartości liczbowej do podziału z Pyspark_Pandas.

Przykład 1
W tym przykładzie podzielimy wszystkie wartości w kolumnie Mark1 przez 5.

#Import pandy z modułu PYSPARK
od Pyspark Import Pandas
#Ukreperowanie danych z Pandas Pyspark
PYSPARK_PANDAS = PANDAS.DataFrame ('Mark1': [90,78,90,54,67], „Mark2”: [100,67,96,89,77], „Mark3”: [91,92,98,97,87] )
#Kolumna Mark1 z 5
Drukuj (Pyspark_pandas.Mark1.Div (5))

Wyjście

Widzimy, że każda wartość w kolumnie Mark1 jest podzielona przez 5.

Przykład 2
W tym przykładzie podzielimy cały Pyspark Pandas DataFrame.

#Import pandy z modułu PYSPARK
od Pyspark Import Pandas
#Ukreperowanie danych z Pandas Pyspark
PYSPARK_PANDAS = PANDAS.DataFrame ('Mark1': [90,78,90,54,67], „Mark2”: [100,67,96,89,77], „Mark3”: [91,92,98,97,87] )
#Zajmuj całą ramkę danych o 5
Drukuj (Pyspark_pandas.Div (5))

Wyjście

Widzimy, że cała Pyspark Pandas DataFrame jest podzielona przez 5.

Pyspark.Pandy.Ramka danych.mod ()

mod () w PYSPARK PANDASFrame jest używany do dzielenia elementów w całej ramce danych o wartości. Zwróci resztę.

Możliwe jest również podzielenie według wartości w jednej kolumnie. Bierze wartość jako parametr.

Składnia

Dla całego Pyspark Pandy DataFrame

PYSPARK_PANDAS.mod (wartość)

Dla określonej kolumny

PYSPARK_PANDAS.mod (wartość)

Gdzie,

  1. PYSPARK_PANDAS to PYSPARK PANDASFrame
  2. wartość, która wymaga wartości liczbowej do podziału z Pyspark_Pandas.

Przykład 1
W tym przykładzie podzielimy wszystkie wartości w kolumnie Mark1 przez 5.

#Import pandy z modułu PYSPARK
od Pyspark Import Pandas
#Ukreperowanie danych z Pandas Pyspark
PYSPARK_PANDAS = PANDAS.DataFrame ('Mark1': [90,78,90,54,67], „Mark2”: [100,67,96,89,77], „Mark3”: [91,92,98,97,87] )
#Kolumna Mark1 z 5
Drukuj (Pyspark_pandas.Mark1.mod (5))

Wyjście

Widzimy, że każda wartość w kolumnie Mark1 jest podzielona przez 5 i zwróciła resztę.

Przykład 2
W tym przykładzie podzielimy cały Pyspark Pandas DataFrame.

#Import pandy z modułu PYSPARK
od Pyspark Import Pandas
#Ukreperowanie danych z Pandas Pyspark
PYSPARK_PANDAS = PANDAS.DataFrame ('Mark1': [90,78,90,54,67], „Mark2”: [100,67,96,89,77], „Mark3”: [91,92,98,97,87] )
#Zajmuj całą ramkę danych o 5
Drukuj (Pyspark_pandas.mod (5))

Wyjście

Widzimy, że cała Pyspark Pandas DataFrame jest podzielona przez 5 i zwróciła resztę.

Wniosek

W tym samouczku Pyspark Pandas omówiliśmy operacje arytmetyczne wykonane na Pyspark Pandas DataFrame. add () służy do dodawania wszystkich wartości w całej ramce danych z 5, a sub () służy do odjęcia wartości od całego Pyspark Pandas DataFrame. MUL () służy do pomnożenia wszystkich wartości w całej ramce danych o wartości, a div () służy do podziału wszystkich wartości przez wartość w Pyspark Pandas DataFrame i zwrócenie ilorazu. mod () jest używany do podziału wszystkich wartości przez wartość w Pyspark PandaSframe i zwrócić resztę. Różnica między mod () a div () to mod () zwraca resztę, ale Div () zwraca iloraz.