PYSPARK - PANDAS DATATFrame kształt, osie, NDIM i DTYPES

PYSPARK - PANDAS DATATFrame kształt, osie, NDIM i DTYPES
„W Python PYSPARK to moduł Spark używany do zapewnienia podobnego rodzaju przetwarzania, takiego jak Spark przy użyciu DataFrame, który będzie przechowywał podane dane w formacie wierszowym i kolumnowym.

PYSPARK - Pandas DataFrame reprezentuje pandas DataFrame, ale wewnętrznie utrzymuje Pyspark DataFrame.

Pandy obsługują strukturę danych danych, a pandy są importowane z modułu PYSPARK.

Wcześniej musisz zainstalować moduł PYSPARK."

Komenda

PIP Instaluj PYSPARK

Składnia do importu

od Pyspark Import Pandas

Następnie możemy utworzyć lub użyć ramki danych z modułu pandaas.

Składnia do tworzenia pandas DataFrame

Pyspark.Pandy.Ramka danych()

Możemy przekazać słownik lub listę list z wartościami.

Utwórzmy Pandas DataFrame za pośrednictwem PYSPARK, który ma cztery kolumny i pięć wierszy.

#Import pandy z modułu PYSPARK
od Pyspark Import Pandas
#Ukreperowanie danych z Pandas Pyspark
PYSPARK_PANDAS = PANDAS.DataFrame („Student_lastname”: [„manasa”, „chamundi”, „lehara”, „kapila”, „hyna”], „Mark1”: [90,78,90,54,67], „Mark2”: [ 100 67,96,89,77], „Mark3”: [91,92,98,97,87]))
#wyświetlacz
Drukuj (PYSPARK_PANDAS)

Wyjście

Teraz wejdziemy do naszego samouczka.

Zobaczmy je jeden po drugim.

PYSPARK - PANDAS DANEFRAME: Shape ()

Pyspark.Pandy.Ramka danych.kształt()

Shape () w Pyspark Pandas DataFrame służy do zwrócenia liczby wierszy i liczby kolumn w krotce.

Pierwsza wartość w krążku reprezentuje liczbę wierszy, a druga wartość reprezentuje liczbę kolumn.

Składnia

PYSPARK_PANDAS.kształt

Gdzie Pyspark_Pandas jest Pyspark Panand DataFrame.

Jeśli chcesz zwrócić tylko całkowitą liczbę wierszy lub kolumn, możesz je uzyskać za pomocą pozycji indeksu.

Składnia
Zwracaj całkowitą liczbę wierszy

PYSPARK_PANDAS.kształt [0]

Zwróć całkowitą liczbę kolumny

PYSPARK_PANDAS.kształt [1]

Przykład
W tym przykładzie zobaczymy, ile wierszy i kolumn, które istnieją w powyższym Pyspark Pandas DataFrame.

#Import pandy z modułu PYSPARK
od Pyspark Import Pandas
#Ukreperowanie danych z Pandas Pyspark
PYSPARK_PANDAS = PANDAS.DataFrame („Student_lastname”: [„manasa”, „chamundi”, „lehara”, „kapila”, „hyna”], „Mark1”: [90,78,90,54,67], „Mark2”: [ 100 67,96,89,77], „Mark3”: [91,92,98,97,87]))
#Zgodzą się kształt
Drukuj („Łączne wiersze i kolumny:”, Pyspark_pandas.kształt)
#ge tylko całkowita liczba wierszy
Drukuj („Total Rows:”, Pyspark_pandas.kształt [0])
#ge tylko całkowita liczba kolumn
Drukuj („Total Columns:”, Pyspark_pandas.kształt [1])

Wyjście

Całkowite rzędy i kolumny: (5, 4)
Całkowite wiersze: 5
Całkowite kolumny: 4

Widzimy, że całkowite rzędy i kolumny zostały zwrócone.

PYSPARK - PANDAS DANEFRAME: AXES ()

Pyspark.Pandy.Ramka danych.osie ()

AXES () w Pyspark Pandy DataFrame służy do zwracania nazw wierszy i kolumn na liście.

Pierwsza wartość na liście reprezentuje nazwy wierszy, a druga wartość reprezentuje nazwy kolumn.

Składnia

PYSPARK_PANDAS.osie

Gdzie Pyspark_Pandas jest Pyspark Panand DataFrame.

Jeśli chcesz zwrócić tylko wiersze lub kolumny, możesz je uzyskać za pomocą pozycji indeksu.

Składnia

Zwróć nazwy wierszy

PYSPARK_PANDAS.osie [0]

Zwróć nazwy kolumn

PYSPARK_PANDAS.osie [1]

Przykład
W tym przykładzie zobaczymy wiersze i kolumny, które istnieją w powyższym Pyspark Pandas DataFrame.

#Import pandy z modułu PYSPARK
od Pyspark Import Pandas
#Ukreperowanie danych z Pandas Pyspark
PYSPARK_PANDAS = PANDAS.DataFrame („Student_lastname”: [„manasa”, „chamundi”, „lehara”, „kapila”, „hyna”], „Mark1”: [90,78,90,54,67], „Mark2”: [ 100 67,96,89,77], „Mark3”: [91,92,98,97,87]))
#Zagonuj wszystkie osie
Drukuj (Pyspark_pandas.osie)
#Zagostuj osie wiersza
Drukuj („nazwy wierszy:”, Pyspark_pandas.osie [0])
#Zagostuj osie kolumny
Drukuj („Nazwy kolumn:”, Pyspark_pandas.osie [1])

Wyjście

[Int64Index ([0, 1, 2, 3, 4], dtype = „int64”), indeks (['student_lastname', „mark1”, 'mark2', 'mark3'], dtype = "object")]
Nazwy wierszy: int64Index ([0, 1, 2, 3, 4], dtype = „int64”)
Nazwy kolumn: indeks (['student_lastname', 'mark1', 'mark2', 'mark3'], dtype = "object")

Widzimy, że zwrócone nazwy wierszy i kolumn zostały zwrócone.

PYSPARK - PANDAS DANEFRAME: NDIM ()

Pyspark.Pandy.Ramka danych.ndim ()

NDIM () w Pyspark Pandas DataFrame służy do zwracania całkowitych wymiarów. Tutaj Pyspark Pandas DataFrame zawiera dwa wymiary - wiersz i kolumna. Więc zwróci 2.

Składnia

PYSPARK_PANDAS.ndim

Gdzie Pyspark_Pandas jest Pyspark Panand DataFrame.

Przykład
W tym przykładzie otrzymamy całkowite wymiary z Pyspark Pandas DataFrame.

#Import pandy z modułu PYSPARK
od Pyspark Import Pandas
#Ukreperowanie danych z Pandas Pyspark
PYSPARK_PANDAS = PANDAS.DataFrame („Student_lastname”: [„manasa”, „chamundi”, „lehara”, „kapila”, „hyna”], „Mark1”: [90,78,90,54,67], „Mark2”: [ 100 67,96,89,77], „Mark3”: [91,92,98,97,87]))
#Wymień wymiary
Drukuj (Pyspark_pandas.ndim)

Wyjście

2

PYSPARK - PANDAS DATEFRAME: DTYPES ()

Pyspark.Pandy.Ramka danych.dTypes ()

DTYPES () w Pyspark Pandas DataFrame służy do zwrócenia typów danych dla wszystkich kolumn

Składnia

PYSPARK_PANDAS.Dtypes

Gdzie Pyspark_Pandas jest Pyspark Panand DataFrame.

Przykład
W tym przykładzie otrzymamy typy danych z Pyspark Pandas DataFrame.

#Import pandy z modułu PYSPARK
od Pyspark Import Pandas
#Ukreperowanie danych z Pandas Pyspark
PYSPARK_PANDAS = PANDAS.DataFrame („Student_lastname”: [„manasa”, „chamundi”, „lehara”, „kapila”, „hyna”], „Mark1”: [90,78,90,54,67], „Mark2”: [ 100 67,96,89,77], „Mark3”: [91,92,98,97,87]))
#Zadzwoń typy danych wszystkich kolumn
Drukuj (Pyspark_pandas.Dtypes)

Wyjście

obiekt Student_lastName
Mark1 Int64
Mark2 Int64
Mark3 Int64
DTYPE: Object

Możliwe jest również uzyskanie danych z jednej kolumny.

Składnia

PYSPARK_PANDAS.kolumna.Dtypes

Gdzie kolumna to nazwa kolumny

Przykład
W tym przykładzie otrzymamy typy danych Student_lastName i kolumny Mark1.

#Import pandy z modułu PYSPARK
od Pyspark Import Pandas
#Ukreperowanie danych z Pandas Pyspark
PYSPARK_PANDAS = PANDAS.DataFrame („Student_lastname”: [„manasa”, „chamundi”, „lehara”, „kapila”, „hyna”], „Mark1”: [90,78,90,54,67], „Mark2”: [ 100 67,96,89,77], „Mark3”: [91,92,98,97,87]))
#Zadzwoń typ danych kolumny Student_lastname
Drukuj (Pyspark_pandas.Student_lastname.Dtypes)
#Zadzwoń typ danych kolumny Mark1
Drukuj (Pyspark_pandas.Mark1.Dtypes)

Wyjście

obiekt
INT64

Wniosek

W tym samouczku Pyspark Pandas DataFrame widzieliśmy różne metody uzyskania informacji o danych danych.

  1. Kształt służy do zwrócenia wielkości Pyspark Panandframe.
  2. Osie służą do zwracania nazw wierszy i kolumn.
  3. NDIM zwróci całkowitą liczbę wymiarów w Pyspark Pandas DataFrame.
  4. DTYPES Zwraca wszystkie typy danych kolumnowych.