PYSPARK - Min

Larysa Witczak

W Python PYSPARK to moduł Spark używany do zapewnienia podobnego rodzaju przetwarzania, takiego jak Spark za pomocą DataFrame. min () w PYSPARK służy do zwrócenia minimalnej wartości z określonej kolumny w ramce danych. Możemy uzyskać minimalną wartość na trzy sposoby.

Metoda 1: metodą Select ()
Metoda 2: Za pomocą metody AGG ()
Metoda 3: Za pomocą metody GroupBy ()

Wcześniej musimy stworzyć PYSPARK DATAFRAME do demonstracji.

Przykład:

Utworzymy ramkę danych z 5 wierszami i 6 kolumnami i wyświetlimy ją za pomocą metody show ().

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [
„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23,
„Wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16,
„Wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7,
„Wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „nazwa”: „Rohith”, „wiek”: 9,
„Wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37,
„Wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Display DataFrame
df.pokazywać()

Wyjściowy zrzut ekranu:

Metoda -1: metodą Select ()

Możemy uzyskać minimalną wartość z kolumny w ramce danych za pomocą metody select (). Za pomocą metody min () możemy uzyskać minimalną wartość z kolumny. Aby użyć tej metody, musimy ją zaimportować z Pyspark.SQL.Moduł funkcji, a na koniec możemy użyć metody kolekcji (), aby uzyskać minimum z kolumny

Składnia:

df.Wybierz (min ('kolumn_name'))

Gdzie,

DF to wejście PYSPARK DATAFRAME
Kolumna_nazwa to kolumna, aby uzyskać minimalną wartość

Jeśli chcemy zwrócić minimalną wartość z wielu kolumn, musimy użyć metody min (.

Składnia:

df.Wybierz (min ('kolumn_name'), min ('kolumn_name'),… ., Min ('kolumn_name')))

Gdzie,

DF to wejście PYSPARK DATAFRAME
Kolumna_nazwa to kolumna, aby uzyskać minimalną wartość

Przykład 1: Pojedyncza kolumna

Ten przykład otrzyma minimalną wartość z kolumny wysokości w Pyspark DataFrame.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wportu na minimalną funkcję - min
od Pyspark.SQL.Funkcje importowe min
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [
„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23,
„Wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16,
„Wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7,
„Wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „nazwa”: „Rohith”, „wiek”: 9,
„Wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37,
„Wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#zwróć minimum z kolumny wysokości
df.Wybierz (min („wysokość”)).zbierać()

Wyjście:

[Row (min (wysokość) = 2.79)]

W powyższym przykładzie zwracana jest minimalna wartość z kolumny wysokości.

Przykład 2: Wiele kolumn

Ten przykład otrzyma minimalną wartość z kolumn wysokości, wieku i wagi w Pyspark DataFrame.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wprowadź minimalną funkcję - min
od Pyspark.SQL.Funkcje importowe min
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23,
„Wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16,
„Wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7,
„Wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „nazwa”: „Rohith”, „wiek”: 9,
„Wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37,
„Wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#zwróć minimum z kolumn wysokości, wieku i wagi
df.Wybierz (min („wysokość”), min („wiek”), min („waga”)).zbierać()

Wyjście:

[Row (min (wysokość) = 2.79, min (wiek) = 7, min (waga) = 17)

W powyższym przykładzie zwracana jest minimalna wartość z kolumn wysokości, wieku i wagi.

Metoda - 2: Za pomocą metody AGG ()

Możemy uzyskać minimalną wartość z kolumny w ramce danych za pomocą metody agg (). Ta metoda jest znana jako agregacja, która grupuje wartości w kolumnie. Wystąpi słownik jako parametr w tym kluczu, nazwa kolumny, a wartość jest funkcją agregowanej, i.mi., min. Za pomocą metody min () możemy uzyskać minimalną wartość z kolumny, a na koniec możemy użyć metody kolekcji (), aby uzyskać minimum z kolumny.

Składnia:

df.AGG ('kolumn_name': min)

Gdzie,

DF to wejście PYSPARK DATAFRAME
Kolumna_nazwa to kolumna, aby uzyskać minimalną wartość
Min jest funkcją agregacji używaną do zwrócenia minimalnej wartości

Jeśli chcemy zwrócić minimalną wartość z wielu kolumn, musimy określić nazwę kolumny z funkcją min oddzieloną przecinkiem.

Składnia:

df.AGG ('kolumn_name': min, 'kolumn_name': min,…, 'kolumn_name': min)

Gdzie,

DF to wejście PYSPARK DATAFRAME
Kolumna_nazwa to kolumna, aby uzyskać minimalną wartość
Min jest funkcją agregacji używaną do zwrócenia minimalnej wartości

Przykład 1: Pojedyncza kolumna

Ten przykład otrzyma minimalną wartość z kolumny wysokości w Pyspark DataFrame.

Wyjście:

[Row (min (wysokość) = 2.79)]

W powyższym przykładzie zwracana jest minimalna wartość z kolumny wysokości.

Przykład 2: Wiele kolumn

Ten przykład otrzyma minimalną wartość z kolumn wysokości, wieku i wagi w Pyspark DataFrame.

Wyjście:

[Row (min (waga) = 17, min (wiek) = 7, min (wysokość) = 2.79)]

W powyższym przykładzie zwracana jest minimalna wartość z kolumn wysokości, wieku i wagi.

Metoda - 3: Za pomocą metody GroupBy ()

Możemy uzyskać minimalną wartość z kolumny w ramce danych za pomocą metody GroupBy (). Ta metoda zwróci minimalną wartość, grupując podobne wartości w kolumnie. Musimy użyć funkcji min () po wykonaniu funkcji grupy ()

Składnia:

df.Groupby (grupa_kolumn). Min („kolumn_nazwa”)

Gdzie,

DF to wejście PYSPARK DATAFRAME
Group_Column to kolumna, w której wartości są pogrupowane na podstawie tej kolumny
Kolumna_nazwa to kolumna, aby uzyskać minimalną wartość
Min jest funkcją agregacji używaną do zwrócenia minimalnej wartości.

Przykład 1:

W tym przykładzie zgrupujemy kolumnę adresu z kolumną wysokości, aby zwrócić wartość minimalną na podstawie tej kolumny adresu.

Wyjście:

Istnieją trzy unikalne wartości w polu adresu - Hyd, Guntur i Patna. Tak więc minimum zostanie utworzone przez grupowanie wartości w zakresie wartości adresu.

[Wiersz (adres = „hyd”, min (wysokość) = 3.69),
Wiersz (adres = „guntur”, min (wysokość) = 5.79),
Wiersz (adres = „patna”, min (wysokość) = 2.79)]

Przykład 2:

W tym przykładzie zgrupujemy kolumnę adresową z kolumną wagi, aby zwrócić wartość minimalną na podstawie tej kolumny adresu.

Wyjście:

Istnieją trzy unikalne wartości w polu adresu - Hyd, Guntur i Patna. Tak więc minimum zostanie utworzone przez grupowanie wartości w zakresie wartości adresu.

[Wiersz (adres = „hyd”, min (waga) = 28),
Wiersz (adres = „guntur”, min (waga) = 67),
Wiersz (adres = „patna”, min (waga) = 17)]

Wniosek:

Omówiliśmy, jak uzyskać minimalną wartość z Pyspark DataFrame za pomocą metod wybierania () i agg (). Aby uzyskać minimalną wartość poprzez grupowanie z innymi kolumnami, użyliśmy grupy wraz z funkcją min (. Zobacz także artykuł Pyspark Max ().

Internet

Błąd połączenia 868 Beeline Internet

Jak naprawić błąd 868 - Nie było możliwe rozwiązanie nazwy zdalnego serwera po podłączeniu do Intern...

Pan Edmund Kubacki

Windows

Jak dowiedzieć się, z czym miejsce jest zajęte?

Bezpłatne programy do analizy miejsca na dysku twardym, umożliwiające dowiedzieć się, co jest zajęte...

Jozue Noga

Windows

Microsoft wydał narzędzie do blokowania aktualizacji Windows 10

Microsoft wydał narzędzie do odłączenia wybranych aktualizacji Windows 10, aby zapobiec ich instalac...

Janusz Baranowski