W Pyspark DataFrame możliwe jest zwrócenie najmniejszych elementów w dwóch lub więcej kolumnach.
PYSPARK obsługuje funkcję najmniej (), która służy do znalezienia najmniejszych wartości w wielu kolumnach we wszystkich wierszach w Pyspark RDD lub Pyspark DataFrame.
Jest dostępny w Pyspark.SQL.Funkcje moduł.
Składnia
DataFrame_Obj.Wybierz (najmniej (dataFrame_Obj.Kolumna 1, DataFrame_Obj.kolumna2,…))
Parametr:
Zajmuje kolumny jako parametry.
Możemy uzyskać dostęp do kolumn za pomocą '.„Operator (kolumna 1, kolumna2, reprezentuje nazwy kolumn).
Dane
Tutaj utworzymy Pyspark DataFrame, który ma 5 kolumn: [„tematu_id”, „name”, „wiek”, „technologia1”, „technologia2”] z 10 wierszy.
Import Pyspark
od Pyspark.SQL Import Sparksession
Spark_App = Sparksession.budowniczy.Nazwa aplikacji('_').getorCreate ()
studenci = [(4, „Sravan”, 23, „Php”, „Testowanie”),
(4, „Sravan”, 23, „php”, „testowanie”),
(46, „Mounika”, 22, '.Net ', „html”),
(4, „Deepika”, 21, „Oracle”, „html”),
(46, „Mounika”, 22, „Oracle”, „Testing”),
(12, „Chandrika”, 22, „Hadoop”, „C#”),
(12, „Chandrika”, 22, „Oracle”, „Testing”),
(4, „Sravan”, 23, „Oracle”, „C#”),
(4, „Deepika”, 21, „php”, „c#”),
(46, „Mounika”, 22, '.Net ', „testowanie”)
]
DataFrame_Obj = Spark_App.CreatedATAframe (studenci, [„Temat_id”, „nazwa”, „wiek”, „technologia1”, „technologia 2”])
Drukuj („---------- DataFrame ----------”)
DataFrame_Obj.pokazywać()
Wyjście:
Teraz zobaczymy przykłady, które zwrócimy najmniejsze wartości w dwóch lub wielu kolumnach z poprzedniej formy danych.
Przykład 1
Tak więc utworzyliśmy poprzednią ramkę danych. Teraz zwrócimy najmniejsze wartości z temat_id I wiek kolumny.
# Zaimportuj najmniejszą funkcję z modułu - PYSPARK.SQL.Funkcje
od Pyspark.SQL.Funkcje najmniej importują
#Komponuj kolumny - tematy_id i wiek i zwróć najniższe wartości w każdym rzędzie.
DataFrame_Obj.Wybierz (DataFrame_Obj.UTATES_ID, DataFrame_Obj.najmniej wiek (dataFrame_Obj.UTATES_ID, DataFrame_Obj.wiek)).pokazywać()
Wyjście:
Wyjaśnienie
Możesz porównać dwie wartości kolumny w każdym rzędzie.
najmniej (4,23) - 4
najmniej (4,23) - 4
najmniej (46,22) -22
najmniej (4,21) - 4
najmniej (46,22) - 22
najmniej (12,22) - 12
najmniej (12,22) - 12
najmniej (4,23) - 4
najmniej (4,21) - 4
najmniej (46,22) - 22.
Przykład 2
Utworzyliśmy poprzednią ramkę danych. Teraz zwrócimy najmniejsze wartości z Nazwa, technologia 1, I Technologia2 kolumny.
# Zaimportuj najmniejszą funkcję z modułu - PYSPARK.SQL.Funkcje
od Pyspark.SQL.Funkcje najmniej importują
#Komponuj kolumny - nazwa, technologia 1, technologia2 i wiek i zwróć najniższe wartości w każdym rzędzie.
DataFrame_Obj.Wybierz (DataFrame_Obj.Nazwa, dataFrame_Obj.Technology1, DataFrame_Obj.Technologia2,
najmniej (dataFrame_Obj.Nazwa, dataFrame_Obj.Technology1, DataFrame_Obj.technologia2)).pokazywać()
Wyjście:
Tutaj ciągnie są porównywane na podstawie wartości ASCII:
najmniej (Sravan, php, testowanie) - php
najmniej (Sravan, php, testowanie) - php
przynajmniej (Mounica, .Net, html) - .INTERNET
najmniej (Deepika, Oracle, html) - html
najmniej (Mounica, Oracle, Testing) - Oracle
najmniej (Chandrika, Hadoop, C#) - C#
najmniej (Chandrika, Oracle, Testing) - Oracle
najmniej (Sravan, Oracle, C#) - C#
najmniej (Deepika, php, c#) - c#
przynajmniej (Mounica,.Netto, testowanie) -.INTERNET.
Cały kod
Import Pyspark
od Pyspark.SQL Import Sparksession
Spark_App = Sparksession.budowniczy.Nazwa aplikacji('_').getorCreate ()
studenci = [(4, „Sravan”, 23, „Php”, „Testowanie”),
(4, „Sravan”, 23, „php”, „testowanie”),
(46, „Mounika”, 22, '.Net ', „html”),
(4, „Deepika”, 21, „Oracle”, „html”),
(46, „Mounika”, 22, „Oracle”, „Testing”),
(12, „Chandrika”, 22, „Hadoop”, „C#”),
(12, „Chandrika”, 22, „Oracle”, „Testing”),
(4, „Sravan”, 23, „Oracle”, „C#”),
(4, „Deepika”, 21, „php”, „c#”),
(46, „Mounika”, 22, '.Net ', „testowanie”)
]
DataFrame_Obj = Spark_App.CreatedATAframe (studenci, [„Temat_id”, „nazwa”, „wiek”, „technologia1”, „technologia 2”])
Drukuj („---------- DataFrame ----------”)
DataFrame_Obj.pokazywać()
# Zaimportuj najmniejszą funkcję z modułu - PYSPARK.SQL.Funkcje
od Pyspark.SQL.Funkcje najmniej importują
#Komponuj kolumny - tematy_id i wiek i zwróć najniższe wartości w każdym rzędzie.
DataFrame_Obj.Wybierz (DataFrame_Obj.UTATES_ID, DataFrame_Obj.najmniej wiek (dataFrame_Obj.UTATES_ID, DataFrame_Obj.wiek)).pokazywać()
#Komponuj kolumny - nazwa, technologia 1, technologia2 i wiek i zwróć najniższe wartości w każdym rzędzie.
DataFrame_Obj.Wybierz (DataFrame_Obj.Nazwa, dataFrame_Obj.Technology1, DataFrame_Obj.Technologia2,
najmniej (dataFrame_Obj.Nazwa, dataFrame_Obj.Technology1, DataFrame_Obj.technologia2)).pokazywać()
Wniosek
Funkcja najmniej () służy do znalezienia najniższych wartości w wielu kolumnach we wszystkich rzędach w Pyspark RDD lub Pyspark DataFrame. Porównuje kolumny tylko z podobnymi typami danych. W przeciwnym razie podniesie wyjątek analizy. Wszystkie wyrażenia powinny mieć ten sam typ.