PYSPARK - Pandas DataFrame reprezentuje pandas DataFrame, ale wewnętrznie utrzymuje Pyspark DataFrame.
Pandy obsługują strukturę danych danych, a pandy są importowane z modułu PYSPARK.
Wcześniej musisz zainstalować moduł PYSPARK."
Komenda
PIP Instaluj PYSPARKSkładnia do importu
od Pyspark Import PandasNastępnie możemy utworzyć lub użyć ramki danych z modułu pandaas.
Składnia do tworzenia pandas DataFrame
Pyspark.Pandy.Ramka danych()Możemy przekazać słownik lub listę list z wartościami.
Utwórzmy Pandas DataFrame za pośrednictwem PYSPARK, który ma cztery kolumny i pięć wierszy.
#Import pandy z modułu PYSPARKWyjście
Teraz wejdziemy do naszego samouczka.
Zobaczmy je jeden po drugim.
PYSPARK - PANDAS DANEFRAME: Shape ()
Pyspark.Pandy.Ramka danych.kształt()Shape () w Pyspark Pandas DataFrame służy do zwrócenia liczby wierszy i liczby kolumn w krotce.
Pierwsza wartość w krążku reprezentuje liczbę wierszy, a druga wartość reprezentuje liczbę kolumn.
Składnia
PYSPARK_PANDAS.kształtGdzie Pyspark_Pandas jest Pyspark Panand DataFrame.
Jeśli chcesz zwrócić tylko całkowitą liczbę wierszy lub kolumn, możesz je uzyskać za pomocą pozycji indeksu.
Składnia
Zwracaj całkowitą liczbę wierszy
Zwróć całkowitą liczbę kolumny
PYSPARK_PANDAS.kształt [1]Przykład
W tym przykładzie zobaczymy, ile wierszy i kolumn, które istnieją w powyższym Pyspark Pandas DataFrame.
Wyjście
Całkowite rzędy i kolumny: (5, 4)Widzimy, że całkowite rzędy i kolumny zostały zwrócone.
PYSPARK - PANDAS DANEFRAME: AXES ()
Pyspark.Pandy.Ramka danych.osie ()AXES () w Pyspark Pandy DataFrame służy do zwracania nazw wierszy i kolumn na liście.
Pierwsza wartość na liście reprezentuje nazwy wierszy, a druga wartość reprezentuje nazwy kolumn.
Składnia
PYSPARK_PANDAS.osieGdzie Pyspark_Pandas jest Pyspark Panand DataFrame.
Jeśli chcesz zwrócić tylko wiersze lub kolumny, możesz je uzyskać za pomocą pozycji indeksu.
Składnia
Zwróć nazwy wierszy
PYSPARK_PANDAS.osie [0]Zwróć nazwy kolumn
PYSPARK_PANDAS.osie [1]Przykład
W tym przykładzie zobaczymy wiersze i kolumny, które istnieją w powyższym Pyspark Pandas DataFrame.
Wyjście
[Int64Index ([0, 1, 2, 3, 4], dtype = „int64”), indeks (['student_lastname', „mark1”, 'mark2', 'mark3'], dtype = "object")]Widzimy, że zwrócone nazwy wierszy i kolumn zostały zwrócone.
PYSPARK - PANDAS DANEFRAME: NDIM ()
Pyspark.Pandy.Ramka danych.ndim ()
NDIM () w Pyspark Pandas DataFrame służy do zwracania całkowitych wymiarów. Tutaj Pyspark Pandas DataFrame zawiera dwa wymiary - wiersz i kolumna. Więc zwróci 2.
Składnia
PYSPARK_PANDAS.ndimGdzie Pyspark_Pandas jest Pyspark Panand DataFrame.
Przykład
W tym przykładzie otrzymamy całkowite wymiary z Pyspark Pandas DataFrame.
Wyjście
2PYSPARK - PANDAS DATEFRAME: DTYPES ()
Pyspark.Pandy.Ramka danych.dTypes ()
DTYPES () w Pyspark Pandas DataFrame służy do zwrócenia typów danych dla wszystkich kolumn
Składnia
PYSPARK_PANDAS.DtypesGdzie Pyspark_Pandas jest Pyspark Panand DataFrame.
Przykład
W tym przykładzie otrzymamy typy danych z Pyspark Pandas DataFrame.
Wyjście
obiekt Student_lastNameMożliwe jest również uzyskanie danych z jednej kolumny.
Składnia
PYSPARK_PANDAS.kolumna.DtypesGdzie kolumna to nazwa kolumny
Przykład
W tym przykładzie otrzymamy typy danych Student_lastName i kolumny Mark1.
Wyjście
obiektWniosek
W tym samouczku Pyspark Pandas DataFrame widzieliśmy różne metody uzyskania informacji o danych danych.