W Python PYSPARK to moduł Spark używany do zapewnienia podobnego rodzaju przetwarzania, takiego jak Spark za pomocą DataFrame. Możemy uzyskać informacje PYSpark DataFrame, takie jak całkowita liczba wierszy i kolumn, statystyki danych danych i rozmiar DataFrame. Utwórzmy Pyspark DataFrame do demonstracji.
Przykład:
W tym przykładzie utworzymy Pyspark DataFrame z 5 wierszy i 6 kolumnami i wyświetlacz za pomocą metody show ().
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci1 = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci1)
# Wyświetl ramkę danych
df.pokazywać()
Wyjście:
Scenariusz 1: Uzyskaj całkowitą liczbę wierszy
Możemy uzyskać całkowitą liczbę wierszy w Pyspark DataFrame za pomocą funkcji Count ().
Składnia:
ramka danych.liczyć()
Gdzie DataFrame to wejście PYSPARK DataFrame.
Przykład:
W tym przykładzie użyjemy funkcji Count (), aby uzyskać całkowitą liczbę wierszy.
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci1 = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci1)
# Wyświetl liczbę wierszy
Wydrukuj (DF.liczyć())
Wyjście:
5
Scenariusz 2: Uzyskaj całkowitą liczbę kolumn
Możemy uzyskać całkowitą liczbę kolumn w Pyspark DataFrame za pomocą funkcji len () z metodą kolumn.
Metoda kolumn zwróci wszystkie kolumny na liście. Możemy więc zastosować do niej funkcję len (), aby zwrócić liczbę kolumn.
Składnia:
Len (DataFrame.kolumny)
Gdzie DataFrame to wejście PYSPARK DataFrame.
Przykład:
W tym przykładzie użyjemy funkcji LEN (), aby uzyskać całkowitą liczbę kolumn i wyświetlić kolumny za pomocą metody kolumn.
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci1 = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci1)
# Wyświetl liczbę kolumn
wydrukować (len (df.kolumny))
# Wyświetl kolumny
Wydrukuj (DF.kolumny)
Wyjście:
6
[„Adres”, „wiek”, „wysokość”, „nazwa”, „Rollno”, „waga”]
Scenariusz 3: Zdobądź statystyki
Możemy uzyskać statystyki takie jak liczba, średnia, odchylenie standardowe i minimalna wartość oraz maksymalna wartość z PYSPARK DATAFRAME za pomocą metody opisowej ()
Składnia:
ramka danych.opisać()
Gdzie DataFrame to wejście PYSPARK DataFrame.
Notatka - Nie ma średniej i odchylenia standardowego dla wartości typu ciągów. W takim przypadku wynik jest zerowy.
Przykład:
W tym przykładzie użyjemy funkcji Opis (), aby uzyskać statystyki.
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci1 = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci1)
df.opisać().pokazywać()
Wyjście:
Z powyższego wyjścia nazwa jest typu ciągu. Tak więc wartość zerowa jest zajęta dla średniej i standardowej odchylenia.
Możemy użyć podsumowania (), aby zwrócić statystyki. Jest podobny do metody opisu (). Ale zwróci to wartości 25%, 50% i 75%.
Przykład:
W tym przykładzie użyjemy funkcji Opis (), aby uzyskać statystyki.
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci1 = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci1)
# Zdobądź podsumowanie
df.streszczenie().pokazywać()
Wyjście:
Wniosek
W tym artykule omówiliśmy zastosowanie funkcji opisu () i podsumowującego (). Służą one do zwrócenia statystyki danych danych wejściowych PYSPARK. Widzieliśmy, że za pomocą metody LEN () możemy uzyskać całkowitą liczbę kolumn i za pomocą metody Count () możemy uzyskać całkowitą liczbę wierszy w Pyspark DataFrame.