Uzyskaj informacje Pyspark DataFrame

Uzyskaj informacje Pyspark DataFrame
W Python PYSPARK to moduł Spark używany do zapewnienia podobnego rodzaju przetwarzania, takiego jak Spark za pomocą DataFrame. Możemy uzyskać informacje PYSpark DataFrame, takie jak całkowita liczba wierszy i kolumn, statystyki danych danych i rozmiar DataFrame. Utwórzmy Pyspark DataFrame do demonstracji.

Przykład:
W tym przykładzie utworzymy Pyspark DataFrame z 5 wierszy i 6 kolumnami i wyświetlacz za pomocą metody show ().

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci1 = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci1)
# Wyświetl ramkę danych
df.pokazywać()

Wyjście:

Scenariusz 1: Uzyskaj całkowitą liczbę wierszy

Możemy uzyskać całkowitą liczbę wierszy w Pyspark DataFrame za pomocą funkcji Count ().

Składnia:
ramka danych.liczyć()

Gdzie DataFrame to wejście PYSPARK DataFrame.

Przykład:
W tym przykładzie użyjemy funkcji Count (), aby uzyskać całkowitą liczbę wierszy.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci1 = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci1)
# Wyświetl liczbę wierszy
Wydrukuj (DF.liczyć())

Wyjście:

5

Scenariusz 2: Uzyskaj całkowitą liczbę kolumn

Możemy uzyskać całkowitą liczbę kolumn w Pyspark DataFrame za pomocą funkcji len () z metodą kolumn.

Metoda kolumn zwróci wszystkie kolumny na liście. Możemy więc zastosować do niej funkcję len (), aby zwrócić liczbę kolumn.

Składnia:
Len (DataFrame.kolumny)

Gdzie DataFrame to wejście PYSPARK DataFrame.

Przykład:
W tym przykładzie użyjemy funkcji LEN (), aby uzyskać całkowitą liczbę kolumn i wyświetlić kolumny za pomocą metody kolumn.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci1 = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci1)
# Wyświetl liczbę kolumn
wydrukować (len (df.kolumny))
# Wyświetl kolumny
Wydrukuj (DF.kolumny)

Wyjście:

6

[„Adres”, „wiek”, „wysokość”, „nazwa”, „Rollno”, „waga”]

Scenariusz 3: Zdobądź statystyki

Możemy uzyskać statystyki takie jak liczba, średnia, odchylenie standardowe i minimalna wartość oraz maksymalna wartość z PYSPARK DATAFRAME za pomocą metody opisowej ()

Składnia:
ramka danych.opisać()

Gdzie DataFrame to wejście PYSPARK DataFrame.

Notatka - Nie ma średniej i odchylenia standardowego dla wartości typu ciągów. W takim przypadku wynik jest zerowy.

Przykład:
W tym przykładzie użyjemy funkcji Opis (), aby uzyskać statystyki.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci1 = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci1)
df.opisać().pokazywać()

Wyjście:

Z powyższego wyjścia nazwa jest typu ciągu. Tak więc wartość zerowa jest zajęta dla średniej i standardowej odchylenia.

Możemy użyć podsumowania (), aby zwrócić statystyki. Jest podobny do metody opisu (). Ale zwróci to wartości 25%, 50% i 75%.

Przykład:
W tym przykładzie użyjemy funkcji Opis (), aby uzyskać statystyki.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci1 = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci1)
# Zdobądź podsumowanie
df.streszczenie().pokazywać()

Wyjście:

Wniosek

W tym artykule omówiliśmy zastosowanie funkcji opisu () i podsumowującego (). Służą one do zwrócenia statystyki danych danych wejściowych PYSPARK. Widzieliśmy, że za pomocą metody LEN () możemy uzyskać całkowitą liczbę kolumn i za pomocą metody Count () możemy uzyskać całkowitą liczbę wierszy w Pyspark DataFrame.