Pyspark Like i ILIKE Funkcje

Pyspark Like i ILIKE Funkcje
Jeśli chcemy zwrócić wartości z kolumny DataFrame na podstawie dopasowania ciągów w PYSPARK, wówczas metody podobne () i iLike () dostępne w PYSPARK są używane do zwrócenia wierszy na podstawie wartości określonych w nim.

Można je używać z klauzulą ​​filtra lub w miejscu, w którym klauzula. Zobaczymy je jeden po drugim z różnymi przykładami.

jak () funkcja

Funkcja podobna () w PYSPARK służy do sprawdzenia, czy w kolumnie Pyspark DataFrame istnieje ciąg lub wzór. Jeśli istnieje, dopasowane wiersze zostaną zwrócone. W przeciwnym razie zwracana jest pusta ramka danych. To jest wrażliwe na wielkość.

Składnia

DataFrame_Object.filtr (DataFrame_Obj.kolumna.jak (wzór/string))
DataFrame_Object.gdzie (dataFrame_Obj.kolumna.jak (wzór/string))

Gdzie,
DataFrame_Object to Pyspark DataFrame.

Parametr:
tak jak() Funkcja ma jeden parametr.

Może to być wzorzec lub ciąg, tak że funkcja podobna () sprawdzi, czy określona wartość jest obecna w kolumnie DataFrame.

Powrót:
Na podstawie tej wartości kolumny cały wiersz jest zwracany.

Najpierw utworzymy Pyspark DataFrame z 10 wierszy i 5 kolumnami.

Import Pyspark
od Pyspark.SQL Import *
Spark_App = Sparksession.budowniczy.Nazwa aplikacji('_').getorCreate ()
studenci = [(4, „Sravan”, 23, „Php”, „Testowanie”),
(2, „Sravan”, 23, „Oracle”, „Testing”),
(46, „Mounika”, 22, '.Net ', „html”),
(12, „Deepika”, 21, „Oracle”, „html”),
(46, „Mounika”, 22, „Oracle”, „Testing”),
(12, „Chandrika”, 23, „Hadoop”, „C#”),
(12, „Chandrika”, 22, „Oracle”, „Testing”),
(45, „Sravan”, 23, „Oracle”, „C#”),
(4, „Deepika”, 21, „php”, „c#”),
(46, „Mounika”, 22, '.Net ', „testowanie”)
]
DataFrame_Obj = Spark_App.CreatedATAframe (studenci, [„Temat_id”, „nazwa”, „wiek”, „technologia1”, „technologia 2”])
DataFrame_Obj.pokazywać()

Wyjście:

Teraz zastosujmy funkcję podobną () w Pyspark DataFrame, aby zwrócić wyniki.

Przykład 1
Podamy ciąg „Sravan”, w kolumnie nazwy wewnątrz metody podobnej () i zwrócimy wszystkie wiersze pasujące do tego ciągu.

#Sprawdź String- Sravan w kolumnie nazwy i zwróć wiersze z nazwą - Sravan.
Drukuj („-------- Korzystanie z klauzuli Where () --------”)
DataFrame_Obj.gdzie (dataFrame_Obj.nazwa.jak („sravan”)).pokazywać()
#Sprawdź String- Sravan w kolumnie nazwy i zwróć wiersze z nazwą - Sravan.
print („-------- za pomocą klauzuli Filter () --------”)
DataFrame_Obj.filtr (DataFrame_Obj.nazwa.jak („sravan”)).pokazywać()

Wyjście:

Widać, że Sravan znajduje się trzy razy, a rzędy zostały zwrócone.

Przykład 2
Podamy ciąg „php” w kolumnie technologii1 w metodzie podobnej () i zwrócimy wszystkie wiersze pasujące do tego ciągu.

#Sprawdź string -php w kolumnie technologii1 i powrót rzędów z technologią1 - php.
Drukuj („-------- Korzystanie z klauzuli Where () --------”)
DataFrame_Obj.gdzie (dataFrame_Obj.Technologia 1.jak („php”)).pokazywać()
#Sprawdź string -php w kolumnie technologii1 i powrót rzędów z technologią1 - php.
print („-------- za pomocą klauzuli Filter () --------”)
DataFrame_Obj.filtr (DataFrame_Obj.Technologia 1.jak („php”)).pokazywać()

Wyjście:

Widać, że PHP nie znajduje się w kolumnie technologii1. Stąd zwrócono 0 wierszy.

funkcja iLike ()

Funkcja ILIKE () w PYSPARK służy do sprawdzenia, czy w kolumnie Pyspark DataFrame istnieje ciąg lub wzór. Jeśli istnieje, dopasowane wiersze zostaną zwrócone. W przeciwnym razie pusta strumienia danych jest zwracana. Jest to niewrażliwe.

Składnia

DataFrame_Object.filtr (DataFrame_Obj.kolumna.iLike (wzór/string))
DataFrame_Object.gdzie (dataFrame_Obj.kolumna.iLike (wzór/string))

Gdzie,
DataFrame_Object to Pyspark DataFrame.

Parametr:
Funkcja iLike () ma jeden parametr.

Może to być wzór lub ciąg, tak że funkcja iLike () sprawdzi, czy określona wartość jest obecna w kolumnie DataFrame.

Powrót:
Na podstawie tej wartości kolumny cały wiersz jest zwracany.

Przykład 1
Podamy ciąg „Sravan”, w kolumnie nazwy wewnątrz metody iLike () i zwrócimy wszystkie wiersze pasujące do tego ciągu.

#Sprawdź String- Sravan w kolumnie nazwy i zwróć wiersze z nazwą - Sravan.
Drukuj („-------- Korzystanie z klauzuli Where () --------”)
DataFrame_Obj.gdzie (dataFrame_Obj.nazwa.iLike („sravan”)).pokazywać()
#Sprawdź String- Sravan w kolumnie nazwy i zwróć wiersze z nazwą - Sravan.
print („-------- za pomocą klauzuli Filter () --------”)
DataFrame_Obj.filtr (DataFrame_Obj.nazwa.iLike („sravan”)).pokazywać()

Wyjście:

Wyjaśnienie
Widać, że Sravan znajduje się trzy razy, a rzędy zostały zwrócone.

Przykład 2
Podamy ciąg „php” w kolumnie technologii1 w metodzie podobnej () i zwrócimy wszystkie wiersze pasujące do tego ciągu.

#Sprawdź dla String -PHP w technologii.
Drukuj („-------- Korzystanie z klauzuli Where () --------”)
DataFrame_Obj.gdzie (dataFrame_Obj.Technologia 1.iLike („php”)).pokazywać()
#Sprawdź dla String -PHP w technologii.
print („-------- za pomocą klauzuli Filter () --------”)
DataFrame_Obj.filtr (DataFrame_Obj.Technologia 1.iLike („php”)).pokazywać()

Wyjście:

Wyjaśnienie
Widać, że PHP nie znajduje się w kolumnie technologii1. Ale iLike () jest niewrażliwy dla przypadków. Tak więc wymaga PHP i PHP jako takie same. Więc wiersze zostały zwrócone.

Wniosek

W tym samouczku PYSPARK widzieliśmy dwie funkcje, które zwracają wartości na podstawie dopasowania ciągów w kolumnie PYSPARK DATEFrame. Funkcje podobne () i iLike () służą do sprawdzenia, czy w kolumnie Pyspark DataFrame istnieje ciąg lub wzór. Różnica jest taka jak () jest wrażliwość na przypadek, a iLike () jest bezwrażliwy.