Konwertuj PYSPARK PANDASFrame na różne formaty

Konwertuj PYSPARK PANDASFrame na różne formaty
„W Python PYSPARK to moduł Spark, który zapewnia podobny rodzaj przetwarzania do Spark za pomocą DataFrame, który zapisuje podane dane w formacie wierszowym i kolumnowym.

PYSPARK - Pandas DataFrame reprezentuje pandas DataFrame, ale wewnętrznie utrzymuje Pyspark DataFrame.

Pandy obsługują strukturę danych danych, a pandy są importowane z modułu PYSPARK.

Wcześniej musisz zainstalować moduł PYSPARK."

Komenda

PIP Instaluj PYSPARK

Składnia do importu:

od Pyspark Import Pandas

Następnie możemy utworzyć lub użyć ramki danych z modułu pandaas.

Składnia do utworzenia PandaS DataFrame:

Pyspark.Pandy.Ramka danych()

Możemy przekazać słownik lub listę list z wartościami.

Utwórzmy Pandas DataFrame za pośrednictwem PYSPARK z trzema kolumnami i pięcioma wierszami.

#Import pandy z modułu PYSPARK
od Pyspark Import Pandas
#Ukreperowanie danych z Pandas Pyspark
PYSPARK_PANDAS = PANDAS.DataFrame ('Mark1': [90,56,78,54,67], „Mark2”: [100,67,96,89,32], „Mark3”: [91 92,98,97,87] )
Drukuj (PYSPARK_PANDAS)

Wyjście:

Teraz wejdziemy do naszego samouczka.

Zobaczymy różne formaty, w których powyższy utworzony PYSPARK PANDAS DATAFRAME jest konwertowany.

Pyspark.Pandy.Ramka danych.to_html ()

PYSPARK PANDAS DataFrame jest konwertowany na format HTML, tak aby nazwy kolumn były umieszczane pod znacznik i wartości kolumn są umieszczone pod etykietka.

Składnia:

PYSPARK_PANDAS.to_html ()

Gdzie Pyspark_Pandas jest Pyspark Panand DataFrame.

Przykład 1

W tym przykładzie przekonwertujemy powyższy PYSPARK PANDASFrame na format HTML.

#Import pandy z modułu PYSPARK
od Pyspark Import Pandas
#Ukreperowanie danych z Pandas Pyspark
PYSPARK_PANDAS = PANDAS.DataFrame ('Mark1': [90,56,78,54,67], „Mark2”: [100,67,96,89,32], „Mark3”: [91 92,98,97,87] )
#Convert PYSPARK_PANDAS do HTML
Drukuj (Pyspark_pandas.to_html ())

Wyjście:

Możesz zobaczyć, że nazwy kolumn są umieszczone w środku Tagi i wartości są umieszczane w środku tagi.

Pyspark.Pandy.Ramka danych.To_Json ()

PYSPARK PANDAS DataFrame jest przekonwertowany na format JSON, tak aby nazwy kolumn działały jako kluczowe i wartości kolumny.

Składnia:

PYSPARK_PANDAS.To_Json ()

Gdzie Pyspark_Pandas jest Pyspark Panand DataFrame.

Przykład: 2

W tym przykładzie przekonwertujemy powyższy PYSPARK PANDASFrame na format JSON.

#Import pandy z modułu PYSPARK
od Pyspark Import Pandas
#Ukreperowanie danych z Pandas Pyspark
PYSPARK_PANDAS = PANDAS.DataFrame ('Mark1': [90,56,78,54,67], „Mark2”: [100,67,96,89,32], „Mark3”: [91 92,98,97,87] )
#Convert Pyspark_pandas do JSON
Drukuj (Pyspark_pandas.to_JSON ())

Wyjście:

[„Mark1”: 90, „Mark2”: 100, „Mark3”: 91, „Mark1”: 56, „Mark2”: 67, „Mark3”: 92, „Mark1”: 78, „Mark2 „: 96,„ Mark3 ”: 98, „ Mark1 ”: 54,„ Mark2 ”: 89,„ Mark3 ”: 97, „ Mark1 ”: 67,„ Mark2 ”: 32,„ Mark3 ”: 87 ]

Możesz zobaczyć, że nazwy kolumn to klucze.

Pyspark.Pandy.Ramka danych.to_numpy ()

PYSPARK PANDAS DataFrame jest konwertowany na format tablicy za pomocą metody To_Numpy ().

Składnia:

PYSPARK_PANDAS.to_numpy ()

Gdzie Pyspark_Pandas jest Pyspark Panand DataFrame.

Przykład: 3

W tym przykładzie przekonwertujemy powyższe PYSPARK PANDASFrame na format tablicy.

#Import pandy z modułu PYSPARK
od Pyspark Import Pandas
#Ukreperowanie danych z Pandas Pyspark
PYSPARK_PANDAS = PANDAS.DataFrame ('Mark1': [90,56,78,54,67], „Mark2”: [100,67,96,89,32], „Mark3”: [91 92,98,97,87] )
#Konwerguj do tablicy Numpy
Drukuj (Pyspark_pandas.to_numpy ())

Wyjście:

[[90 100 91]
[56 67 92]
[78 96 98]
[54 89 97]
[67 32 87]]

Możesz zobaczyć, że wartości są przechowywane w postaci tablicy 2-D z pięcioma wierszami i trzema kolumnami.

Pyspark.Pandy.Ramka danych.to_pandas ()

PYSPARK PANDAS DataFrame jest konwertowany na pandas DataFrame za pomocą metody to_pandas ().

Składnia:

PYSPARK_PANDAS.to_pandas ()

Gdzie Pyspark_Pandas jest Pyspark Panand DataFrame.

Przykład: 4

W tym przykładzie przekonwertujemy powyższy PYSPARK PANDASFrame na pandas DataFrame.

#Import pandy z modułu PYSPARK
od Pyspark Import Pandas
#Ukreperowanie danych z Pandas Pyspark
PYSPARK_PANDAS = PANDAS.DataFrame ('Mark1': [90,56,78,54,67], „Mark2”: [100,67,96,89,32], „Mark3”: [91 92,98,97,87] )
#Convert to Pandas
Drukuj (Pyspark_pandas.to_pandas ())

Wyjście:

Mark1 Mark2 Mark3
0 90 100 91
1 56 67 92
2 78 96 98
3 54 89 97
4 67 32 87

Widać, że wartości są przechowywane w postaci pandasframe z pięcioma wierszami i trzema kolumnami.

Pyspark.Pandy.Ramka danych.to_markdown ()

PYSPARK PANDASFrame jest przekonwertowany na Markdown za pomocą metody TO_MARDDOWN ().

Składnia:

PYSPARK_PANDAS.to_markdown ()

Gdzie Pyspark_Pandas jest Pyspark Panand DataFrame.

Przykład: 5

W tym przykładzie przekonwertujemy powyższe PYSPARK PANDASFrame na format Markdown.

#Import pandy z modułu PYSPARK
od Pyspark Import Pandas
#Ukreperowanie danych z Pandas Pyspark
PYSPARK_PANDAS = PANDAS.DataFrame ('Mark1': [90,56,78,54,67], „Mark2”: [100,67,96,89,32], „Mark3”: [91 92,98,97,87] )
#Display w formacie Markdown
Drukuj (Pyspark_pandas.to_markdown ())

Wyjście:

Widać, że Pyspark Pandas DataFrame jest konwertowany na format Markdown.

Pyspark.Pandy.Ramka danych.to_dict ()

PYSPARK PANDASFrame jest konwertowany na słownik za pomocą metody To_Dict ().Nazwy kolumn będą klucze.

Składnia:

PYSPARK_PANDAS.to_dict ()

Gdzie Pyspark_Pandas jest Pyspark Panand DataFrame.

Przykład: 6

W tym przykładzie przekonwertujemy powyższe PYSPARK PANDASFrame na słownik za pomocą metody To_Dict ().

#Import pandy z modułu PYSPARK
od Pyspark Import Pandas
#Ukreperowanie danych z Pandas Pyspark
PYSPARK_PANDAS = PANDAS.DataFrame ('Mark1': [90,56,78,54,67], „Mark2”: [100,67,96,89,32], „Mark3”: [91 92,98,97,87] )
#Convert to Dictionary
Drukuj (Pyspark_pandas.to_dict ())

Wyjście:

'Mark1': 0: 90, 1: 56, 2: 78, 3: 54, 4: 67, 'mark2': 0: 100, 1: 67, 2: 96, 3: 89, 4: 32, „Mark3”: 0: 91, 1: 92, 2: 98, 3: 97, 4: 87

Widać, że Pyspark PanandFrame jest przekonwertowany na słownik z klawiszami jako nazwami kolumn.

Pyspark.Pandy.Ramka danych.to_records ()

PYSPARK PANDASFrame jest konwertowany na rekord za pomocą metody TO_Records (). Tutaj, dla każdego wiersza rekordu, umieszcza się identyfikator, który zaczyna się od 1.

Składnia:

PYSPARK_PANDAS.to_records ()

Gdzie Pyspark_Pandas jest Pyspark Panand DataFrame.

Przykład: 7

W tym przykładzie przekonwertujemy powyższe PYSPARK PANDASFrame na rekord przy użyciu metody To_Records ().

#Import pandy z modułu PYSPARK
od Pyspark Import Pandas
#Ukreperowanie danych z Pandas Pyspark
PYSPARK_PANDAS = PANDAS.DataFrame ('Mark1': [90,56,78,54,67], „Mark2”: [100,67,96,89,32], „Mark3”: [91 92,98,97,87] )
#Convert to Records
Drukuj (Pyspark_pandas.to_records ())

Wyjście:

[(0, 90, 100, 91) (1, 56, 67, 92) (2, 78, 96, 98) (3, 54, 89, 97)
(4, 67, 32, 87)]

Pyspark.Pandy.Ramka danych.to_latex ()

PYSPARK PANDASFrame jest konwertowany na rekord za pomocą metody TO_LATEX ().

Składnia:

PYSPARK_PANDAS.to_latex ()

Gdzie Pyspark_Pandas jest Pyspark Panand DataFrame.

Przykład: 8

W tym przykładzie przekonwertujemy powyższe PYSPARK PANDASFrame na format lateks.

#Import pandy z modułu PYSPARK
od Pyspark Import Pandas
#Ukreperowanie danych z Pandas Pyspark
PYSPARK_PANDAS = PANDAS.DataFrame ('Mark1': [90,56,78,54,67], „Mark2”: [100,67,96,89,32], „Mark3”: [91 92,98,97,87] )
#Konwerguj do lateksu
Drukuj (Pyspark_pandas.to_latex ())

Wyjście:

Widzimy, że Pyspark Pandas DataFrame jest konwertowany na format lateksowy.

Pyspark.Pandy.Ramka danych.to_spark ()

PYSPARK PANDAS DataFrame jest konwertowany na Spark DataFrame za pomocą metody To_Spark (). Używa metody show () do wyświetlania ramki danych w formacie tabelarycznym.

Składnia:

PYSPARK_PANDAS.to_spark ()

Gdzie Pyspark_Pandas jest Pyspark Panand DataFrame.

Przykład: 9

W tym przykładzie przekonwertujemy powyższy PYSPARK PANDASFrame na Spark DataFrame.

#Import pandy z modułu PYSPARK
od Pyspark Import Pandas
#Ukreperowanie danych z Pandas Pyspark
PYSPARK_PANDAS = PANDAS.DataFrame ('Mark1': [90,56,78,54,67], „Mark2”: [100,67,96,89,32], „Mark3”: [91 92,98,97,87] )
#Konwerguj do Spark
PYSPARK_PANDAS.to_spark ().pokazywać()

Wyjście:

Widzimy, że Pyspark Pandas DataFrame jest przekonwertowany na Spark DataFrame.

Pyspark.Pandy.Ramka danych.to_string ()

PYSPARK PANDASFrame jest konwertowany na ciąg za pomocą metody TO_String (). Wyświetla się w formacie tabelarycznym.

Składnia:

PYSPARK_PANDAS.to_string ()

Gdzie Pyspark_Pandas jest Pyspark Panand DataFrame.

Przykład: 10

W tym przykładzie przekonwertujemy powyższe PYSPARK PANDASFrame na ciąg

#Import pandy z modułu PYSPARK
od Pyspark Import Pandas
#Ukreperowanie danych z Pandas Pyspark
PYSPARK_PANDAS = PANDAS.DataFrame ('Mark1': [90,56,78,54,67], „Mark2”: [100,67,96,89,32], „Mark3”: [91 92,98,97,87] )
#Konwerguj do formatu ciągów
Drukuj (Pyspark_pandas.to_string ())

Wyjście:

Mark1 Mark2 Mark3
0 90 100 91
1 56 67 92
2 78 96 98
3 54 89 97
4 67 32 87

Widzimy, że Pyspark Pandas DataFrame jest konwertowany na ciąg z formatem tabelarycznym.

Wniosek

W tym samouczku widzieliśmy różne formaty, które konwertują Pyspark Pandas DataFrame.

To_html () przekształca Pyspark Pandas DataFrame w format HTML. Jeśli chcesz przekonwertować go w tablicę Numpy, możesz wybrać metodę To_Numpy (). Jeśli chcesz przekonwertować go na pandas DataFrame, możesz wybrać metodę to_pandas ().

To_Latex () formatuje Pyspark PandaSframe do lateksu, to_markdown formaty PYSPARK PANDASFrame do Markdown. Jeśli chcesz, aby kolumna była kluczem, możesz preferować to_dict () i to_Json ().