„W Python PYSPARK to moduł Spark, który zapewnia podobny rodzaj przetwarzania do Spark za pomocą DataFrame, który zapisuje podane dane w formacie wierszowym i kolumnowym.
PYSPARK - Pandas DataFrame reprezentuje pandas DataFrame, ale wewnętrznie utrzymuje Pyspark DataFrame.
Pandy obsługują strukturę danych danych, a pandy są importowane z modułu PYSPARK.
Wcześniej musisz zainstalować moduł PYSPARK."
Komenda
1 | PIP Instaluj PYSPARK |
Składnia do importu:
1 | od Pyspark Import Pandas |
Następnie możemy utworzyć lub użyć ramki danych z modułu pandaas.
Składnia do utworzenia PandaS DataFrame:
1 | Pyspark.Pandy.Ramka danych() |
Możemy przekazać słownik lub listę list z wartościami.
Utwórzmy Pandas DataFrame za pośrednictwem PYSPARK z czterema kolumnami i pięcioma wierszami.
1 2 3 4 5 6 7 8 9 10 11 12 13 | #Import pandy z modułu PYSPARK |
Wyjście:
Teraz wejdziemy do naszego samouczka.
Możliwe jest dodanie prefiksów i sufiksów do określonej kolumny lub wszystkich kolumn za pomocą metod add_prefix () i add_suffix (). Omów je jeden po drugim.
1 | Pyspark.Pandy.Ramka danych.add_prefix () |
add_prefix () służy do dodawania ciągu prefiksów do każdej kolumny na początku Pyspark Pananderframe. Możliwe jest również dodanie przedrostka tylko do jednej kolumny, określając nazwę kolumny. W tym scenariuszu zostanie dodany do etykiet wierszy.
Składnia:
Dla całej ramki danych - PYSPARK_PANDAS.add_prefix („string”)
Dla określonej kolumny - PYSPARK_PANDAS.kolumna.add_prefix („string”)
Gdzie, Pyspark_pandas to Pyspark Panandframe.
Parametr:
Ciąg to prefiks dodany do kolumny na początku.
Przykład 1
W tym przykładzie dodajemy prefiks - „Linux_hint” do wszystkich powyższych kolumn, aby utworzyć Pyspark Pandas DataFrame.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 | #Import pandy z modułu PYSPARK |
Wyjście:
Widzimy, że przedrostek jest dodawany do wszystkich kolumn.
Przykład 2
Dodaj prefiks do wartości w kolumnie Mark1.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 | #Import pandy z modułu PYSPARK |
Wyjście:
1 2 3 4 5 6 7 8 9 10 11 | Linux_hint0 90 |
Widzimy, że prefiks jest dodawany do wszystkich wartości w kolumnie Mark1.
1 | Pyspark.Pandy.Ramka danych.add_suffix () |
add_suffix () służy do dodawania łańcucha sufiksu do każdej kolumny na końcu Pyspark PandaSframe. Możliwe jest również dodanie przyrostka tylko do jednej kolumny, określając nazwę kolumny. W tym scenariuszu zostanie dodany do etykiet wierszy.
Składnia:
Dla całej ramki danych - PYSPARK_PANDAS.add_suffix („String”)
Dla określonej kolumny - PYSPARK_PANDAS.kolumna.add_suffix („String”)
Gdzie, Pyspark_pandas to Pyspark Panandframe.
Parametr:
Ciąg to sufiks dodany do kolumny na początku.
Przykład 1
W tym przykładzie dodajemy sufiks - „Linux_hint” do wszystkich powyższych kolumn, aby utworzyć PYSPARK PANDAS DataFrame.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 | #Import pandy z modułu PYSPARK |
Wyjście:
Widzimy, że sufiks jest dodawany do wszystkich kolumn.
Przykład 2
Dodaj sufiks do wartości w kolumnie Mark1.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 | #Import pandy z modułu PYSPARK |
Wyjście:
1 2 3 4 5 6 7 8 9 10 11 | 0linux_hint 90 |
Widzimy, że sufiks jest dodawany do wszystkich wartości w kolumnie Mark1.
Wniosek
W tym samouczku Pyspark Panand widzieliśmy, jak dodać prefiks za pomocą add_prefix () i sufiks za pomocą add_suffix () do Pyspark Pandas DataFrame. Zostanie dodany do nazw kolumn, gdy określimy całą ramkę danych. Jeśli zastosujemy powyższe metody do określonej kolumny, prefiks/sufiks zostanie dodany do pozycji wierszy.