W Python PYSPARK to moduł Spark używany do zapewnienia podobnego rodzaju przetwarzania, takiego jak Spark za pomocą DataFrame. Max () w Pyspark zwraca maksymalną wartość z określonej kolumny w ramce danych. Możemy uzyskać maksymalną wartość na trzy sposoby.
- Metoda 1: metodą Select ()
- Metoda 2: Za pomocą metody AGG ()
- Metoda 3: Za pomocą metody GroupBy ()
Wcześniej musimy stworzyć PYSPARK DATAFRAME do demonstracji.
Przykład:
Utworzymy ramkę danych z 5 wierszami i 6 kolumnami i wyświetlimy ją za pomocą metody show ().
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [
„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23,
„Wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16,
„Wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7,
„Wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „nazwa”: „Rohith”, „wiek”: 9,
„Wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37,
„Wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Display DataFrame
df.pokazywać()
Wyjściowy zrzut ekranu:
Metoda 1: metodą Select ()
Możemy uzyskać maksymalną wartość z kolumny w ramce danych za pomocą metody select (). Za pomocą metody max () możemy uzyskać maksymalną wartość z kolumny. Aby użyć tej metody, musimy ją zaimportować z Pyspark.SQL.Moduł funkcji, a na koniec możemy użyć metody kolekcji (), aby uzyskać maksimum z kolumny.
Składnia:
df.Wybierz (max ('kolumn_name')))
Gdzie,
- DF to wejście PYSPARK DATAFRAME
- Kolumna_nazwa to kolumna, aby uzyskać maksymalną wartość
Jeśli chcemy zwrócić maksymalną wartość z wielu kolumn, musimy użyć metody Max () w metodzie Select (), określając nazwę kolumny oddzieloną przecinkiem.
Składnia:
df.Wybierz (max ('kolumn_name'), max ('kolumn_name'),… ., max („kolumn_nazwa”)))
Gdzie,
- DF to wejście PYSPARK DATAFRAME
- Kolumna_nazwa to kolumna, aby uzyskać maksymalną wartość
Przykład 1: Pojedyncza kolumna
Ten przykład otrzyma maksymalną wartość z kolumny wysokości w Pyspark DataFrame.
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wprowadź maksymalną funkcję MAX
od Pyspark.SQL.Funkcje importowe max
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [
„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23,
„Wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16,
„Wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7,
„Wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „nazwa”: „Rohith”, „wiek”: 9,
„Wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37,
„Wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#zwróć maksimum z kolumny wysokości
df.Wybierz (Max („wysokość”)).zbierać()
Wyjście:
[Wiersz (maks. (Wysokość) = 5.79)]
W powyższym przykładzie zwracana jest maksymalna wartość z kolumny wysokości.
Przykład 2: Wiele kolumn
Ten przykład otrzyma maksymalną wartość z kolumn wysokości, wieku i wagi w Pyspark DataFrame.
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wprowadź maksymalną funkcję MAX
od Pyspark.SQL.Funkcje importowe max
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [
„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23,
„Wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16,
„Wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7,
„Wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „nazwa”: „Rohith”, „wiek”: 9,
„Wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37,
„Wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#zwróć maksimum z kolumn wysokości, wieku i wagi
df.Wybierz (max („wysokość”), maks. („wiek”), max („waga”)).zbierać()
Wyjście:
[Wiersz (maks. (Wysokość) = 5.79, maks. (Wiek) = 37, maks. (Waga) = 67)]
W powyższym przykładzie zwracana jest maksymalna wartość z kolumn wysokości, wieku i wagi.
Metoda 2: Za pomocą metody AGG ()
Możemy uzyskać maksymalną wartość z kolumny w ramce danych za pomocą metody agg (). Ta metoda jest znana jako agregacja, która grupuje wartości w kolumnie. Wystąpi słownik jako parametr w tym kluczu, nazwa kolumny, a wartość jest funkcją agregowanej, i.mi., Max. Za pomocą metody max () możemy uzyskać maksymalną wartość z kolumny, a na koniec możemy użyć metody coler (), aby uzyskać maksimum z kolumny.
Składnia:
df.agg ('kolumn_name': max)
Gdzie,
- DF to wejście PYSPARK DATAFRAME
- Kolumna_nazwa to kolumna, aby uzyskać maksymalną wartość
- Max to funkcja agregacji używana do zwrócenia maksymalnej wartości
Jeśli chcemy zwrócić maksymalną wartość z wielu kolumn, musimy określić nazwę kolumny z funkcją maksymalną oddzieloną przecinkiem.
Składnia:
df.AGG ('kolumn_name': Max, 'kolumn_name': max,…, 'kolumn_name': max)
Gdzie,
- DF to wejście PYSPARK DATAFRAME
- Kolumna_nazwa to kolumna, aby uzyskać maksymalną wartość
- Max to funkcja agregacji używana do zwrócenia maksymalnej wartości
Przykład 1: Pojedyncza kolumna
Ten przykład otrzyma maksymalną wartość z kolumny wysokości w Pyspark DataFrame.
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [
„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79,
„Waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16,
„Wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7,
„Wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „nazwa”: „Rohith”, „wiek”: 9,
„Wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37,
„Wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#zwróć maksimum z kolumny wysokości
df.AGG („Height”: 'max').zbierać()
Wyjście:
[Wiersz (maks. (Wysokość) = 5.79)]
W powyższym przykładzie zwracana jest maksymalna wartość z kolumny wysokości.
Przykład 2: Wiele kolumn
Ten przykład otrzyma maksymalną wartość z kolumn wysokości, wieku i wagi w Pyspark DataFrame.
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [
„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23,
„Wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16,
„Wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7,
„Wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „nazwa”: „Rohith”, „wiek”: 9,
„Wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37,
„Wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#zwróć maksimum z kolumn wysokości, wieku i wagi
df.AGG („Height”: „Max”, „Age”: „Max”, „waga”: „Max”).zbierać()
Wyjście:
[Row (maks. (Waga) = 67, maks. (Wiek) = 37, maks. (Wysokość) = 5.79)]
W powyższym przykładzie zwracana jest maksymalna wartość z kolumn wysokości, wieku i wagi.
Metoda 3: Za pomocą metody GroupBy ()
Możemy uzyskać maksymalną wartość z kolumny w ramce danych za pomocą metody GroupBy (). Ta metoda zwróci maksymalną wartość, grupując podobne wartości w kolumnie. Musimy użyć funkcji Max () po wykonaniu funkcji grupy ()
Składnia:
df.Groupby (grupa_kolumn). max („kolumna_nazwa”)
Gdzie,
- DF to wejście PYSPARK DATAFRAME
- Group_Column to kolumna, w której wartości są pogrupowane na podstawie tej kolumny
- Kolumna_nazwa to kolumna, aby uzyskać maksymalną wartość
- Max to funkcja agregacji używana do zwrócenia maksymalnej wartości.
Przykład 1:
W tym przykładzie zgrupujemy kolumnę adresu z kolumną wysokości, aby zwrócić maksymalną wartość na podstawie tej kolumny adresu.
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [
„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23,
„Wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16,
„Wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7,
„Wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „nazwa”: „Rohith”, „wiek”: 9,
„Wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37,
„Wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#return maksimum z grupy kolumny wysokości za pomocą kolumny adresowej
df.Groupby („Adres”).maksymalna wysokość').zbierać()
Wyjście:
Istnieją trzy unikalne wartości w polu adresu - Hyd, Guntur i Patna. Tak więc maksimum zostanie utworzone przez grupowanie wartości między wartościami adresu.
[Wiersz (adres = „hyd”, maks. (Wysokość) = 5.59),
Wiersz (adres = „guntur”, maks. (Wysokość) = 5.79),
Wiersz (adres = „patna”, maks. (Wysokość) = 2.79)]
Przykład 2:
W tym przykładzie zgrupujemy kolumnę adresową z kolumną wagi, aby zwrócić maksymalną wartość na podstawie tej kolumny adresu.
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [
„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23,
„Wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16,
„Wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7,
„Wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „nazwa”: „Rohith”, „wiek”: 9,
„Wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37,
„Wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#zwróć maksimum z grupy kolumny wagowej z kolumną adresu
df.Groupby („Adres”).maksymalna waga').zbierać()
Wyjście:
Istnieją trzy unikalne wartości w polu adresu - Hyd, Guntur i Patna. Tak więc maksimum zostanie utworzone przez grupowanie wartości między wartościami adresu.
[Wiersz (adres = „hyd”, maks. (Waga) = 54),
Wiersz (adres = „guntur”, maks. (Waga) = 67),
Wiersz (adres = „patna”, maks. (Waga) = 17)]
Wniosek:
Omówiliśmy, jak uzyskać maksymalną wartość z Pyspark DataFrame za pomocą metod wybierania () i agg (). Aby uzyskać maksymalną wartość poprzez grupowanie z innymi kolumnami, użyliśmy grupy wraz z funkcją max (). Zobacz także artykuł Pyspark Min ().