PYSPARK - PANDAS DATEFRAME Operatorzy

PYSPARK - PANDAS DATEFRAME Operatorzy
W Python PYSPARK to moduł Spark, który zapewnia podobny rodzaj przetwarzania, taki jak Spark przy użyciu DataFrame, który będzie przechowywał podane dane w formacie wierszowym i kolumnowym. PYSPARK - Pandas DataFrame reprezentuje pandas DataFrame, ale wewnętrznie utrzymuje Pyspark DataFrame. Pandy obsługują strukturę danych danych, a pandy są importowane z modułu PYSPARK.

W tym artykule zademonstrujemy operatorów porównawczych Pandy DataFrame i sposób, w jaki można ich użyć w Pyspark. Wcześniej musisz zainstalować moduł PYSPARK, jak pokazano poniżej:

Komenda

PIP Instaluj PYSPARK

Składnia do importu

od Pyspark Import Pandas

Następnie możemy utworzyć lub użyć ramki danych z modułu pandaas.

Składnia do tworzenia pandas DataFrame

Pyspark.Pandy.Ramka danych()

Możemy przekazać słownik lub listę list z wartościami. Utwórzmy Pandas DataFrame za pośrednictwem PYSPARK z trzema kolumnami i pięcioma wierszami.

#Import pandy z modułu PYSPARK
od Pyspark Import Pandas
#Ukreperowanie danych z Pandas Pyspark
PYSPARK_PANDAS = PANDAS.DataFrame ('Mark1': [90,78,90,54,67], „Mark2”: [100,67,96,89,77], „Mark3”: [91,92,98,97,87] )
#wyświetlacz
Drukuj (PYSPARK_PANDAS)

Wyjście

Teraz wejdziemy do naszego samouczka.

Operatorzy porównawcze są używane do porównywania wszystkich wartości w Pyspark Pandas DataFrame z wartością. Zwraca prawdę, jeśli warunek jest spełniony; w przeciwnym razie zwróci false dla wszystkich wartości w ramce danych.

Zobaczmy je jeden po drugim.

Pyspark.Pandy.Ramka danych.LT (mniej niż operator)

Ten operator porównawczy służy do sprawdzenia, czy wszystkie wartości w danym Pyspark Pandas DataFrame są mniejsze niż podana wartość. Jeśli tak, to zwróci true dla tej wartości; W przeciwnym razie Fałsz zostaje zwrócony.

Możliwe jest również użycie '<' - less than operator.

Składnia

PYSPARK_PANDAS.LT (wartość)
PYSPARK_PANDASGdzie Pyspark_Pandas jest Pyspark Panand DataFrame.

Parametr
Bierze wartość jako parametr, który odnosi się do wartości liczbowej.

PrzykładW tym przykładzie porównamy powyższą utworzoną ramkę danych z wartością - 75 za pomocą LT i < operators.

#Import pandy z modułu PYSPARK
od Pyspark Import Pandas
#Ukreperowanie danych z Pandas Pyspark
PYSPARK_PANDAS = PANDAS.DataFrame ('Mark1': [90,78,90,54,67], „Mark2”: [100,67,96,89,77], „Mark3”: [91,92,98,97,87] )
#Sprawdź wszystkie wartości w powyższej ramce danych są mniejsze niż 75
Drukuj (Pyspark_pandas.LT (75))
wydrukować()
#Sprawdź wszystkie wartości w powyższej ramce danych są mniejsze niż 75
Drukuj (Pyspark_pandas<75)

Wyjście

Obaj operatorzy zwrócili to samo i zgodnie z warunkami wartości mniejsze niż 75 zwróciły true, aw innych przypadkach zwrócili false.

Pyspark.Pandy.Ramka danych.LE (mniejszy lub równy operator)

LE jest operatorem porównawczym używanym do sprawdzenia, czy wszystkie wartości w danym Pyspark Pandas DataFrame są mniejsze lub równe danej wartości. Jeśli tak, to zwróci true dla tej wartości; W przeciwnym razie Fałsz zostaje zwrócony.

Możliwe jest również użycie '<=' - less than or equal to operator.

Składnia

PYSPARK_PANDAS.LE (wartość)
PYSPARK_PANDAS<=value

Gdzie Pyspark_Pandas jest Pyspark Panand DataFrame.

Parametr
Bierze wartość jako parametr, który odnosi się do wartości liczbowej.

Przykład
W tym przykładzie porównamy powyższą utworzoną ramkę danych z wartością - 75 za pomocą LE i <= operators.

#Import pandy z modułu PYSPARK
od Pyspark Import Pandas
#Ukreperowanie danych z Pandas Pyspark
PYSPARK_PANDAS = PANDAS.DataFrame ('Mark1': [90,78,90,54,67], „Mark2”: [100,67,96,89,77], „Mark3”: [91,92,98,97,87] )
#Sprawdź wszystkie wartości w powyższej ramce danych są mniejsze lub równe 75
Drukuj (Pyspark_pandas.LE (75))
wydrukować()
#Sprawdź wszystkie wartości w powyższej ramce danych są mniejsze lub równe 75
Drukuj (Pyspark_pandas<=75)

Wyjście

Obaj operatorzy zwrócili to samo i zgodnie z warunkami, wartości mniejsze lub równe 75 zwróciły true, aw innych przypadkach zwrócili fałsz.

Pyspark.Pandy.Ramka danych.GT (większy niż operator)

Ten operator porównawczy służy do sprawdzenia, czy wszystkie wartości w danym Pyspark Pandas DataFrame są większe niż podana wartość. Jeśli tak, to zwróci true dla tej wartości; W przeciwnym razie Fałsz zostaje zwrócony.

Możliwe jest również użycie '>' - większy niż operator.

Składnia

PYSPARK_PANDAS.GT (wartość)
PYSPARK_PANDAS> Wartość

Gdzie Pyspark_Pandas jest Pyspark Panand DataFrame.

Parametr
Bierze wartość jako parametr, który odnosi się do wartości liczbowej.

Przykład
W tym przykładzie porównamy powyższą utworzoną ramkę danych z wartością - 75 za pomocą operatorów GT i>.

#Import pandy z modułu PYSPARK
od Pyspark Import Pandas
#Ukreperowanie danych z Pandas Pyspark
PYSPARK_PANDAS = PANDAS.DataFrame ('Mark1': [90,78,90,54,67], „Mark2”: [100,67,96,89,77], „Mark3”: [91,92,98,97,87] )
#Sprawdź wszystkie wartości w powyższej ramce danych są większe niż 75
Drukuj (Pyspark_pandas.GT (75))
wydrukować()
#Sprawdź wszystkie wartości w powyższej ramce danych są większe niż 75
Drukuj (PYSPARK_PANDAS> 75)

Wyjście

Obaj operatorzy zwrócili to samo i zgodnie z warunkami wartości większe niż 75 zwróciły true, aw innych przypadkach zwróciły false.

Pyspark.Pandy.Ramka danych.GE (większy lub równy operator)

GE jest operatorem porównawczym używanym do sprawdzenia, czy wszystkie wartości w danym Pyspark Pandas DataFrame są większe lub równe danej wartości. Jeśli tak, to zwróci true dla tej wartości; W przeciwnym razie Fałsz zostaje zwrócony.

Możliwe jest również użycie '> =' - większe lub równe operatorowi.

Składnia

PYSPARK_PANDAS.GE (wartość)
PYSPARK_PANDAS> = wartość

Gdzie Pyspark_Pandas jest Pyspark Panand DataFrame.

Parametr
Bierze wartość jako parametr, który odnosi się do wartości liczbowej.

Przykład
W tym przykładzie porównamy powyższą utworzoną ramkę danych z wartością - 75 za pomocą operatorów GE i> =.

#Import pandy z modułu PYSPARK
od Pyspark Import Pandas
#Ukreperowanie danych z Pandas Pyspark
PYSPARK_PANDAS = PANDAS.DataFrame ('Mark1': [90,78,90,54,67], „Mark2”: [100,67,96,89,77], „Mark3”: [91,92,98,97,87] )
#Sprawdź wszystkie wartości w powyższej ramce danych są większe lub równe 75
Drukuj (Pyspark_pandas.GE (75))
wydrukować()
#Sprawdź wszystkie wartości w powyższej ramce danych są większe lub równe 75
druk (PYSPARK_PANDAS> = 75)

Wyjście

Obaj operatorzy zwrócili to samo i zgodnie z warunkami, wartości większe lub równe 75 zwróciły true, aw innych przypadkach zwrócili false.

Pyspark.Pandy.Ramka danych.EQ (operator logiczny równości)

EQ jest operatorem porównawczym używanym do sprawdzenia, czy wszystkie wartości w danym Pyspark Pandas DataFrame są równe danej wartości. Jeśli tak, to zwróci true dla tej wartości; W przeciwnym razie Fałsz zostaje zwrócony.

Możliwe jest również użycie „== ' - równe operatorowi.

Składnia

PYSPARK_PANDAS.Eq (wartość)
PYSPARK_PANDAS == Wartość

Gdzie Pyspark_Pandas jest Pyspark Panand DataFrame.

Parametr
Bierze wartość jako parametr, który odnosi się do wartości liczbowej.

Przykład
W tym przykładzie porównamy powyższą utworzoną ramkę danych z wartością - 97 za pomocą operatorów EQ i ==.

#Import pandy z modułu PYSPARK
od Pyspark Import Pandas
#Ukreperowanie danych z Pandas Pyspark
PYSPARK_PANDAS = PANDAS.DataFrame ('Mark1': [90,78,90,54,67], „Mark2”: [100,67,96,89,77], „Mark3”: [91,92,98,97,87] )
#Sprawdź wszystkie wartości w powyższej ramce danych są równe 97
Drukuj (Pyspark_pandas.Eq (97))
wydrukować()
#Sprawdź wszystkie wartości w powyższej ramce danych są równe 97
Drukuj (PYSPARK_PANDAS == 97)

Wyjście

Obaj operatorzy zwrócili to samo i zgodnie z warunkami, wartości równe 97 zwróciły true, aw innych przypadkach zwróciły fałsz.

Pyspark.Pandy.Ramka danych.NE (nie równe operatorowi)

NE jest operatorem porównawczym używanym do sprawdzenia, czy wszystkie wartości w danym Pyspark Pandas DataFrame nie są równe danej wartości. Jeśli tak, to zwróci true dla tej wartości; W przeciwnym razie Fałsz zostaje zwrócony.

Możliwe jest również użycie '!= ' - nie równe operatorowi.

Składnia

PYSPARK_PANDAS.NE (wartość)
PYSPARK_PANDAS!= wartość

Gdzie Pyspark_Pandas jest Pyspark Panand DataFrame.

Parametr
Bierze wartość jako parametr, który odnosi się do wartości liczbowej.

Przykład
W tym przykładzie porównamy powyższą utworzoną ramkę danych z wartością - 97 przy użyciu NE i != Operatorzy.

#Import pandy z modułu PYSPARK
od Pyspark Import Pandas
#Ukreperowanie danych z Pandas Pyspark
PYSPARK_PANDAS = PANDAS.DataFrame ('Mark1': [90,78,90,54,67], „Mark2”: [100,67,96,89,77], „Mark3”: [91,92,98,97,87] )
#Sprawdź wszystkie wartości w powyższej ramce danych nie są równe 97
Drukuj (Pyspark_pandas.NE (97))
wydrukować()
#Sprawdź wszystkie wartości w powyższej ramce danych nie są równe 97
Drukuj (Pyspark_pandas!= 97)

Wyjście

Obaj operatorzy zwrócili to samo i zgodnie z warunkami wartości nie równe 97 zwróciły true, aw innych przypadkach zwróciły false.

Wniosek

W tym artykule Pyspark Pandy widzimy, jak zastosować różne operatorów porównawczych na DataFrame za pośrednictwem wbudowanych operatorów i normalnych operatorów. Każdy operator zwraca wartość logiczną w elemencie Pyspark Pandas DataFrame. Operatory porównawcze, których użyliśmy, to: eq (), ne (), lt (), gt (), le () i ge ().