PYSPARK - Pandas DataFrame Nsmallest &

PYSPARK - Pandas DataFrame Nsmallest &
„W Python PYSPARK to moduł Spark używany do zapewnienia podobnego rodzaju przetwarzania, takiego jak Spark przy użyciu DataFrame, który będzie przechowywał podane dane w formacie wierszowym i kolumnowym.

PYSPARK - Pandas DataFrame reprezentuje pandas DataFrame, ale wewnętrznie utrzymuje Pyspark DataFrame.

Pandy obsługują strukturę danych danych, a pandy są importowane z modułu PYSPARK.

Wcześniej musisz zainstalować moduł PYSPARK."

Komenda

PIP Instaluj PYSPARK

Składnia do importu

od Pyspark Import Pandas

Następnie możemy utworzyć lub użyć ramki danych z modułu pandaas.

Składnia do tworzenia pandas DataFrame

Pyspark.Pandy.Ramka danych()

Możemy przekazać słownik lub listę list z wartościami.

Utwórzmy Pandas DataFrame za pośrednictwem PYSPARK, który ma cztery kolumny i pięć wierszy.

#Import pandy z modułu PYSPARK
od Pyspark Import Pandas
#Ukreperowanie danych z Pandas Pyspark
PYSPARK_PANDAS = PANDAS.DataFrame („Student_lastname”: [„manasa”, „chamundi”, „lehara”, „kapila”, „hyna”], „Mark1”: [90,78,90,54,67], „Mark2”: [ 100 67,96,89,77], „Mark3”: [91,92,98,97,87]))
#wyświetlacz
Drukuj (PYSPARK_PANDAS)

Wyjście

Teraz wejdziemy do naszego samouczka.

Zobaczmy je jeden po drugim.

PYSPARK - PANDAS DATEFRAME: NSMALLEST ()

Pyspark.Pandy.Ramka danych.nsmallest ()

NSMALLEST () w Pyspark Pandas DataFrame służy do zwrócenia pierwszych wierszy, które są minimalne na podstawie kolumny. Zwróci więc pierwsze całe minimalne rzędy obecne w Pyspark Pandy DataFrame. Wymaga dwóch parametrów.

Składnia

PYSPARK_PANDAS.nsmallest (n, kolumna)

Parametry

  1. N służy do zwrócenia liczby minimalnych wierszy z całego pand Pyspark na podstawie kolumny
  2. Kolumna odnosi się do nazwy kolumny obecnej w Pyspark Pandas DataFrame.

Przykład 1
W tym przykładzie otrzymamy pierwsze 2 minimalne rzędy na podstawie kolumny Mark1.

#Import pandy z modułu PYSPARK
od Pyspark Import Pandas
#Ukreperowanie danych z Pandas Pyspark
PYSPARK_PANDAS = PANDAS.DataFrame („Student_lastname”: [„manasa”, „chamundi”, „lehara”, „kapila”, „hyna”], „Mark1”: [90,78,90,54,67], „Mark2”: [ 100 67,96,89,77], „Mark3”: [91,92,98,97,87]))
#Get Pierwsze 2 minimalne wiersze oparte na kolumnie Mark1
Drukuj (Pyspark_pandas.nsmallest (2, „Mark1”))

Wyjście

Tutaj 54 i 67 to pierwsze 2 najmniej (minimalne) wartości obecne w kolumnie Mark1. Zatem odpowiednie 2 wiersze zostały zwrócone.

Przykład 2
W tym przykładzie otrzymamy pierwsze 4 minimalne rzędy na podstawie kolumny Student_lastname.

#Import pandy z modułu PYSPARK
od Pyspark Import Pandas
#Ukreperowanie danych z Pandas Pyspark
PYSPARK_PANDAS = PANDAS.DataFrame („Student_lastname”: [„manasa”, „chamundi”, „lehara”, „kapila”, „hyna”], „Mark1”: [90,78,90,54,67], „Mark2”: [ 100 67,96,89,77], „Mark3”: [91,92,98,97,87]))
#Get First 4 minimalne wiersze oparte na kolumnie Student_lastname
Drukuj (Pyspark_pandas.nsmallest (4, „student_lastname”))

Wyjście

Tutaj Chamundi, Hyna, Kapila i Lehara to pierwsze 4 najmniej (minimalne) wartości obecne w kolumnie Student_name. Zatem odpowiednie 4 wiersze zostały zwrócone.

PYSPARK - PANDAS DATEFRAME: NLASTAND ()

Pyspark.Pandy.Ramka danych.nlANDAST ()

NLASTAND () w Pyspark Pandas DataFrame służy do zwracania pierwszych wierszy, które są maksymalne na podstawie kolumny. Zwróci więc pierwsze całe maksymalne rzędy obecne w Pyspark PandaSframe. Wymaga dwóch parametrów.

Składnia

PYSPARK_PANDAS.NLIEGDALNE (n, kolumna)

Parametry

  1. N służy do zwrócenia liczby maksymalnych wierszy z całego pand Pyspark na podstawie kolumny
  2. Kolumna odnosi się do nazwy kolumny obecnej w Pyspark Pandas DataFrame.

Przykład 1
W tym przykładzie otrzymamy pierwsze 2 maksymalne rzędy na podstawie kolumny Mark1.

#Import pandy z modułu PYSPARK
od Pyspark Import Pandas
#Ukreperowanie danych z Pandas Pyspark
PYSPARK_PANDAS = PANDAS.DataFrame („Student_lastname”: [„manasa”, „chamundi”, „lehara”, „kapila”, „hyna”], „Mark1”: [90,78,90,54,67], „Mark2”: [ 100 67,96,89,77], „Mark3”: [91,92,98,97,87]))
#Get Pierwsze 2 maksymalne wiersze oparte na kolumnie Mark1
Drukuj (Pyspark_pandas.NLARANDAL (2, „Mark1”))

Wyjście

Tutaj 90 i 90 to pierwsze 2 duże (maksymalne) wartości obecne w kolumnie Mark1. Zatem odpowiednie 2 wiersze zostały zwrócone.

Przykład 2
W tym przykładzie otrzymamy pierwsze 4 maksymalne wiersze na podstawie kolumny Student_lastname.

#Import pandy z modułu PYSPARK
od Pyspark Import Pandas
#Ukreperowanie danych z Pandas Pyspark
PYSPARK_PANDAS = PANDAS.DataFrame („Student_lastname”: [„manasa”, „chamundi”, „lehara”, „kapila”, „hyna”], „Mark1”: [90,78,90,54,67], „Mark2”: [ 100 67,96,89,77], „Mark3”: [91,92,98,97,87]))
#Get First 4 maksymalne wiersze oparte na kolumnie Student_lastname
Drukuj (Pyspark_pandas.NLAGIEL (4, „Student_lastname”))

Wyjście

Tutaj Manasa, Lehara, Kapila i Hyna są pierwszymi 4 wysokimi (maksymalnymi) wartościami obecnymi w nazwie Studenta.kolumna. Zatem odpowiednie 4 wiersze zostały zwrócone.

Wniosek

W tym samouczku Pyspark Pandas DataFrame widzieliśmy, jak uzyskać pierwsze minimalne i maksymalne wartości przy użyciu funkcji NSMallest () i. Funkcje te obejmują nazwę kolumny, która zwróci wiersze na podstawie tej kolumny.