PYSPARK - Pandas DataFrame Nsmallest &

Makary Stasiak

„W Python PYSPARK to moduł Spark używany do zapewnienia podobnego rodzaju przetwarzania, takiego jak Spark przy użyciu DataFrame, który będzie przechowywał podane dane w formacie wierszowym i kolumnowym.

PYSPARK - Pandas DataFrame reprezentuje pandas DataFrame, ale wewnętrznie utrzymuje Pyspark DataFrame.

Pandy obsługują strukturę danych danych, a pandy są importowane z modułu PYSPARK.

Wcześniej musisz zainstalować moduł PYSPARK."

Komenda

PIP Instaluj PYSPARK

Składnia do importu

od Pyspark Import Pandas

Następnie możemy utworzyć lub użyć ramki danych z modułu pandaas.

Składnia do tworzenia pandas DataFrame

Pyspark.Pandy.Ramka danych()

Możemy przekazać słownik lub listę list z wartościami.

Utwórzmy Pandas DataFrame za pośrednictwem PYSPARK, który ma cztery kolumny i pięć wierszy.

#Import pandy z modułu PYSPARK
od Pyspark Import Pandas
#Ukreperowanie danych z Pandas Pyspark
PYSPARK_PANDAS = PANDAS.DataFrame („Student_lastname”: [„manasa”, „chamundi”, „lehara”, „kapila”, „hyna”], „Mark1”: [90,78,90,54,67], „Mark2”: [ 100 67,96,89,77], „Mark3”: [91,92,98,97,87]))
#wyświetlacz
Drukuj (PYSPARK_PANDAS)

Wyjście

Teraz wejdziemy do naszego samouczka.

Zobaczmy je jeden po drugim.

PYSPARK - PANDAS DATEFRAME: NSMALLEST ()

Pyspark.Pandy.Ramka danych.nsmallest ()

NSMALLEST () w Pyspark Pandas DataFrame służy do zwrócenia pierwszych wierszy, które są minimalne na podstawie kolumny. Zwróci więc pierwsze całe minimalne rzędy obecne w Pyspark Pandy DataFrame. Wymaga dwóch parametrów.

Składnia

PYSPARK_PANDAS.nsmallest (n, kolumna)

Parametry

N służy do zwrócenia liczby minimalnych wierszy z całego pand Pyspark na podstawie kolumny
Kolumna odnosi się do nazwy kolumny obecnej w Pyspark Pandas DataFrame.

Przykład 1
W tym przykładzie otrzymamy pierwsze 2 minimalne rzędy na podstawie kolumny Mark1.

Wyjście

Tutaj 54 i 67 to pierwsze 2 najmniej (minimalne) wartości obecne w kolumnie Mark1. Zatem odpowiednie 2 wiersze zostały zwrócone.

Przykład 2
W tym przykładzie otrzymamy pierwsze 4 minimalne rzędy na podstawie kolumny Student_lastname.

Wyjście

Tutaj Chamundi, Hyna, Kapila i Lehara to pierwsze 4 najmniej (minimalne) wartości obecne w kolumnie Student_name. Zatem odpowiednie 4 wiersze zostały zwrócone.

PYSPARK - PANDAS DATEFRAME: NLASTAND ()

Pyspark.Pandy.Ramka danych.nlANDAST ()

NLASTAND () w Pyspark Pandas DataFrame służy do zwracania pierwszych wierszy, które są maksymalne na podstawie kolumny. Zwróci więc pierwsze całe maksymalne rzędy obecne w Pyspark PandaSframe. Wymaga dwóch parametrów.

Składnia

PYSPARK_PANDAS.NLIEGDALNE (n, kolumna)

Parametry

N służy do zwrócenia liczby maksymalnych wierszy z całego pand Pyspark na podstawie kolumny
Kolumna odnosi się do nazwy kolumny obecnej w Pyspark Pandas DataFrame.

Przykład 1
W tym przykładzie otrzymamy pierwsze 2 maksymalne rzędy na podstawie kolumny Mark1.

Wyjście

Tutaj 90 i 90 to pierwsze 2 duże (maksymalne) wartości obecne w kolumnie Mark1. Zatem odpowiednie 2 wiersze zostały zwrócone.

Przykład 2
W tym przykładzie otrzymamy pierwsze 4 maksymalne wiersze na podstawie kolumny Student_lastname.

Wyjście

Tutaj Manasa, Lehara, Kapila i Hyna są pierwszymi 4 wysokimi (maksymalnymi) wartościami obecnymi w nazwie Studenta.kolumna. Zatem odpowiednie 4 wiersze zostały zwrócone.

Wniosek

W tym samouczku Pyspark Pandas DataFrame widzieliśmy, jak uzyskać pierwsze minimalne i maksymalne wartości przy użyciu funkcji NSMallest () i. Funkcje te obejmują nazwę kolumny, która zwróci wiersze na podstawie tej kolumny.

Pyton

SEABORD TSPLOT

W Python „Seorborn.Metoda LinePlot () ”służy do wykonywania wielu linii w jednym wykresie, dostosowy...

Bruno Dobrowolski

Pyton

Python Chmod

„OS.Chmod () ”Funkcja modułu OS służy do zmiany własności pliku Pythona poprzez akceptowanie ścieżki...

Maja Kucharski

System systemu Windows

Jaka jest różnica między systemem Windows Top 10 a Pro

Wersja „pro” jest przeznaczona dla profesjonalnych użytkowników i ma więcej narzędzi administracyjny...

Igor Skrzypek