„W Python PYSPARK to moduł Spark używany do zapewnienia podobnego rodzaju przetwarzania, takiego jak Spark przy użyciu DataFrame, który będzie przechowywał podane dane w formacie wierszowym i kolumnowym.
PYSPARK - Pandas DataFrame reprezentuje pandas DataFrame, ale wewnętrznie utrzymuje Pyspark DataFrame.
Pandy obsługują strukturę danych danych, a pandy są importowane z modułu PYSPARK.
Wcześniej musisz zainstalować moduł PYSPARK."
Komenda
PIP Instaluj PYSPARK
Składnia do importu:
od Pyspark Import Pandas
Następnie możemy utworzyć lub użyć ramki danych z modułu pandaas.
Składnia do utworzenia PandaS DataFrame:
Pyspark.Pandy.Ramka danych()
Możemy przekazać słownik lub listę list z wartościami.
Utwórzmy Pandas DataFrame za pośrednictwem PYSPARK, który ma cztery kolumny i pięć wierszy.
#Import pandy z modułu PYSPARK
od Pyspark Import Pandas
#Ukreperowanie danych z Pandas Pyspark
PYSPARK_PANDAS = PANDAS.DataFrame („Student_lastname”: [„Manasa”, „Trisha”, „lehara”, „kapila”, „hyna”],
„Mark1”: [90,56,78,54,67], „Mark2”: [100 67,96,89,32], „Mark3”: [91,92,98,97,87])
Drukuj (PYSPARK_PANDAS)
Wyjście:
Teraz wejdziemy do naszego samouczka.
Istnieje kilka sposobów na zwrócenie górnych i ostatnich wierszy z Pyspark Pandas DataFrame.
Zobaczmy je jeden po drugim.
Pyspark.Pandy.Ramka danych.głowa
Head () zwróci górne rzędy z górnej części Pyspark Pandy DataFrame. Zajmuje n jako parametr, który określa liczbę wierszy wyświetlanych od góry. Domyślnie zwróci 5 najlepszych wierszy.
Składnia:
PYSPARK_PANDAS.głowa (n)
Gdzie Pyspark_Pandas jest Pyspark Panand DataFrame.
Parametr:
n Określa wartość liczb całkowitą, która wyświetla liczbę wierszy z góry Pyspark PandaSframe.
Możemy również użyć funkcji Head () do wyświetlania określonej kolumny.
Składnia:
PYSPARK_PANDAS.kolumna.głowa (n)
Przykład 1
W tym przykładzie zwrócimy górne 2 i 4 rzędy w kolumnie Mark1.
#Import pandy z modułu PYSPARK
od Pyspark Import Pandas
#Ukreperowanie danych z Pandas Pyspark
PYSPARK_PANDAS = PANDAS.DataFrame („Student_lastname”: [„Manasa”, „Trisha”, „lehara”, „kapila”, „hyna”], „Mark1”: [90,56,78,54,67], „Mark2”: [ 100 67,96,89,32], „Mark3”: [91,92,98,97,87]))
#Display 2 najlepsze rzędy w kolumnie Mark1
Drukuj (Pyspark_pandas.Mark1.głowa (2))
wydrukować()
#Display 4 najlepsze rzędy w kolumnie Mark1
Drukuj (Pyspark_pandas.Mark1.głowa (4))
Wyjście:
0 90
1 56
Nazwa: Mark1, Dtype: Int64
0 90
1 56
2 78
3 54
Nazwa: Mark1, Dtype: Int64
Widzimy, że z kolumny Marks1 wybrano górne 2 i 4.
Przykład 2
W tym przykładzie zwrócimy pierwsze 2 i 4 wiersze w kolumnie Student_lastname.
#Import pandy z modułu PYSPARK
od Pyspark Import Pandas
#Ukreperowanie danych z Pandas Pyspark
PYSPARK_PANDAS = PANDAS.DataFrame („Student_lastname”: [„Manasa”, „Trisha”, „lehara”, „kapila”, „hyna”], „Mark1”: [90,56,78,54,67], „Mark2”: [ 100 67,96,89,32], „Mark3”: [91,92,98,97,87]))
#Display 2 najlepsze wiersze w kolumnie Student_lastname
Drukuj (Pyspark_pandas.Student_lastname.głowa (2))
wydrukować()
#Display 4 najlepsze rzędy w kolumnie Student_lastname
Drukuj (Pyspark_pandas.Student_lastname.głowa (4))
Wyjście:
0 Manasa
1 Trisha
Nazwa: Student_lastname, DTYPE: OBIEC
0 Manasa
1 Trisha
2 Lehara
3 Kapila
Nazwa: Student_lastname, DTYPE: OBIEC
Widzimy, że z najlepszych 2 i 4 wierszy zostały wybrane z Student_lastname kolumna.
Przykład 3
W tym przykładzie zwrócimy 2 najlepsze rzędy z całej ramki danych.
#Import pandy z modułu PYSPARK
od Pyspark Import Pandas
#Ukreperowanie danych z Pandas Pyspark
PYSPARK_PANDAS = PANDAS.DataFrame („Student_lastname”: [„Manasa”, „Trisha”, „lehara”, „kapila”, „hyna”], „Mark1”: [90,56,78,54,67], „Mark2”: [ 100 67,96,89,32], „Mark3”: [91,92,98,97,87]))
#Display 2 najlepsze wiersze
Drukuj (Pyspark_pandas.głowa (2))
wydrukować()
#Display 4 najlepsze rzędy
Drukuj (Pyspark_pandas.głowa (4))
Wyjście:
Student_lastname Mark1 Mark2 Mark3
0 Manasa 90 100 91
1 Trisha 56 67 92
Student_lastname Mark1 Mark2 Mark3
0 Manasa 90 100 91
1 Trisha 56 67 92
2 Lehara 78 96 98
3 Kapila 54 89 97
Widzimy, że cała ramka danych jest zwracana z górnymi 2 i 4 wierszami.
Pyspark.Pandy.Ramka danych.ogon
Tail () zwróci wiersze z ostatniego w Pyspark Pandas DataFrame. Wymaga n jako parametr, który określa liczbę wierszy wyświetlanych z ostatniego.
Składnia:
PYSPARK_PANDAS.ogon (n)
Gdzie Pyspark_Pandas jest Pyspark Panand DataFrame.
Parametr:
n Określa wartość liczb całkowitą, która wyświetla liczbę wierszy z ostatniego Pyspark Pandas DataFrame. Domyślnie zwróci ostatnie 5 wierszy.
Możemy również użyć funkcji Tail () do wyświetlania określonych kolumn.
Składnia:
PYSPARK_PANDAS.kolumna.ogon (n)
Przykład 1
W tym przykładzie zwrócimy ostatnie 2 i 4 wiersze w kolumnie Mark1.
#Import pandy z modułu PYSPARK
od Pyspark Import Pandas
#Ukreperowanie danych z Pandas Pyspark
PYSPARK_PANDAS = PANDAS.DataFrame („Student_lastname”: [„Manasa”, „Trisha”, „lehara”, „kapila”, „hyna”], „Mark1”: [90,56,78,54,67], „Mark2”: [ 100 67,96,89,32], „Mark3”: [91,92,98,97,87]))
#Display Ostatnie 2 wiersze w kolumnie Mark1
Drukuj (Pyspark_pandas.Mark1.ogon (2))
wydrukować()
#Display Ostatnie 4 rzędy w kolumnie Mark1
Drukuj (Pyspark_pandas.Mark1.ogon (4))
Wyjście:
3 54
4 67
Nazwa: Mark1, Dtype: Int64
1 56
2 78
3 54
4 67
Nazwa: Mark1, Dtype: Int64
Widzimy, że ostatnie 2 i 4 wiersze zostały wybrane z kolumny Marks1.
Przykład 2
W tym przykładzie zwrócimy ostatnie 2 i 4 wiersze w kolumnie Student_lastname.
#Import pandy z modułu PYSPARK
od Pyspark Import Pandas
#Ukreperowanie danych z Pandas Pyspark
PYSPARK_PANDAS = PANDAS.DataFrame („Student_lastname”: [„Manasa”, „Trisha”, „lehara”, „kapila”, „hyna”], „Mark1”: [90,56,78,54,67], „Mark2”: [ 100 67,96,89,32], „Mark3”: [91,92,98,97,87]))
#Display Ostatnie 2 wiersze w kolumnie Student_lastname
Drukuj (Pyspark_pandas.Student_lastname.ogon (2))
wydrukować()
#Display Ostatnie 4 rzędy w kolumnie Student_lastname
Drukuj (Pyspark_pandas.Student_lastname.ogon (4))
Wyjście:
3 Kapila
4 Hyna
Nazwa: Student_lastname, DTYPE: OBIEC
1 Trisha
2 Lehara
3 Kapila
4 Hyna
Nazwa: Student_lastname, DTYPE: OBIEC
Widzimy, że ostatnie 2 i 4 rzędy zostały wybrane z Student_lastname kolumna.
Przykład 3
W tym przykładzie zwrócimy 2 ostatnie rzędy z całej ramki danych.
#Import pandy z modułu PYSPARK
od Pyspark Import Pandas
#Ukreperowanie danych z Pandas Pyspark
PYSPARK_PANDAS = PANDAS.DataFrame („Student_lastname”: [„Manasa”, „Trisha”, „lehara”, „kapila”, „hyna”], „Mark1”: [90,56,78,54,67], „Mark2”: [ 100 67,96,89,32], „Mark3”: [91,92,98,97,87]))
#Display ostatnie 2 wiersze
Drukuj (Pyspark_pandas.ogon (2))
wydrukować()
#Display ostatnie 4 wiersze
Drukuj (Pyspark_pandas.ogon (4))
Wyjście:
Student_lastname Mark1 Mark2 Mark3
3 Kapila 54 89 97
4 HYNA 67 32 87
Student_lastname Mark1 Mark2 Mark3
1 Trisha 56 67 92
2 Lehara 78 96 98
3 Kapila 54 89 97
4 HYNA 67 32 87
Widzimy, że cała ramka danych jest zwracana z ostatnimi 2 i 4 wierszami.
Wniosek
Widzieliśmy, jak wyświetlić górne i ostatnie rzędy z Pyspark Pandas DataFrame za pomocą funkcji Head () i Tail (). Domyślnie zwracają 5 wierszy.Funkcje Head () i Tail () są również używane do uzyskania górnych i ostatnich wierszy z określonymi kolumnami.