PYSPARK - Count

W Python PYSPARK to moduł Spark używany do zapewnienia podobnego rodzaju przetwarzania, takiego jak Spark za pomocą DataFrame. Count () w PYSPARK służy do zwrócenia liczby wierszy z określonej kolumny w ramce danych. Możemy uzyskać liczbę na trzy sposoby.

Metoda 1: metodą Select ()
Metoda 2: Za pomocą metody AGG ()
Metoda 3: Za pomocą metody GroupBy ()

Wcześniej musimy stworzyć PYSPARK DATAFRAME do demonstracji.

Przykład:

Utworzymy ramkę danych z 5 wierszami i 6 kolumnami i wyświetlimy ją za pomocą metody show ().

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [
„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23,
„Wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16,
„Wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7,
„Wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „nazwa”: „Rohith”, „wiek”: 9,
„Wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37,
„Wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Display DataFrame
df.pokazywać()

Wyjście:

Metoda -1: metodą Select ()

Możemy uzyskać liczbę z kolumny w ramce danych za pomocą metody select (). Za pomocą metody Count () możemy uzyskać całkowitą liczbę wierszy z kolumny. Aby użyć tej metody, musimy ją zaimportować z Pyspark.SQL.Moduł funkcji, a na koniec możemy użyć metody kolekcji (), aby uzyskać liczbę z kolumny

Składnia:

df.Wybierz (hrabia ('kolumn_name')))

Gdzie,

DF to wejście PYSPARK DATAFRAME
Kolumna_nazwa to kolumna, która otrzymuje całkowitą liczbę wierszy (liczba).

Jeśli chcemy zwrócić liczbę z wielu kolumn, musimy użyć metody hrabiego (.

Składnia:

df.Wybierz (hrabia ('kolumn_name'), count ('kolumn_name'),… ., hrabia ('kolumn_name')))

Gdzie,

DF to wejście PYSPARK DATAFRAME
Kolumna_nazwa to kolumna, która otrzymuje całkowitą liczbę wierszy (liczba).

Przykład 1: Pojedyncza kolumna

Ten przykład otrzyma liczbę z kolumny wysokości w Pyspark DataFrame.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wportu na funkcję Count
od Pyspark.SQL.Funkcje importowe liczba
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [
„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23,
„Wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16,
„Wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7,
„Wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „nazwa”: „Rohith”, „wiek”: 9,
„Wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37,
„Wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#zwróć liczbę wartości/wierszy z kolumny wysokości
#Korzystanie z liczby
df.Wybierz (count („wysokość”)).zbierać()

Wyjście:

[Wiersz (liczba (wysokość) = 5)]

W powyższym przykładzie zwracana jest liczba z kolumny wysokości.

Przykład 2: Wiele kolumn

Ten przykład otrzyma liczbę z kolumn wysokości, wieku i wagi w Pyspark DataFrame.

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wportu na funkcję Count
od Pyspark.SQL.Funkcje importowe liczba
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [
„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23,
„Wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16,
„Wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7,
„Wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „nazwa”: „Rohith”, „wiek”: 9,
„Wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37,
„Wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
#Zwróć liczbę z kolumn wysokości, wieku i wagi
df.Wybierz (count („wysokość”), Count („Age”), Count („waga”)).zbierać()

Wyjście:

[Wiersz (liczba (wysokość) = 5, liczba (wiek) = 5, liczba (waga) = 5)]

W powyższym przykładzie zwracana jest liczba z kolumn wysokości, wieku i wagi.

Metoda - 2: Za pomocą metody AGG ()

Możemy uzyskać liczbę z kolumny w ramce danych za pomocą metody agg (). Ta metoda jest znana jako agregacja, która grupuje wartości w kolumnie. Wystąpi słownik jako parametr w tym kluczu, nazwa kolumny, a wartość jest funkcją agregowanej, i.mi., liczyć. Za pomocą metody Count () możemy uzyskać liczbę wierszy z kolumny, a na koniec możemy użyć metody Collect (), aby uzyskać liczbę z kolumny.

Składnia:

df.AGG ('kolumn_name': count)

Gdzie,

DF to wejście PYSPARK DATAFRAME
Kolumna_nazwa to kolumna, która otrzymuje całkowitą liczbę wierszy (liczba).
Liczba jest funkcją agregacji używaną do zwrócenia liczby wierszy

Jeśli chcemy zwrócić liczbę z wielu kolumn, musimy określić nazwę kolumny z funkcją liczby oddzielonej przecinkiem.

Składnia:

df.agg ('kolumn_name': count, 'kolumn_name': count,…, 'kolumn_name': count)

Gdzie,

DF to wejście PYSPARK DATAFRAME
Kolumna_nazwa to kolumna, która otrzymuje całkowitą liczbę wierszy (liczba).
Liczba jest funkcją agregacji używaną do zwrócenia całkowitej liczby wierszy

Przykład 1: Pojedyncza kolumna

Ten przykład otrzyma liczbę z kolumny wysokości w Pyspark DataFrame.

Wyjście:

[Wiersz (liczba (wysokość) = 5)]

W powyższym przykładzie zwracana jest liczba z kolumny wysokości.

Przykład 2: Wiele kolumn

Ten przykład otrzyma liczbę z kolumn wysokości, wieku i wagi w Pyspark DataFrame.

Wyjście:

[Wiersz (liczba (waga) = 5, liczba (wiek) = 5, liczba (wysokość) = 5)]

W powyższym przykładzie zwracana jest liczba z kolumn wysokości, wieku i wagi.

Metoda - 3: Za pomocą metody GroupBy ()

Możemy uzyskać liczbę z kolumny w ramce danych za pomocą metody GroupBy (). Ta metoda zwróci całkowitą liczbę wierszy, grupując podobne wartości w kolumnie. Musimy użyć funkcji Count () po wykonaniu funkcji GroupBy ()

Składnia:

df.Groupby (grupa_kolumn). liczyć()

Gdzie,

DF to wejście PYSPARK DATAFRAME
Group_Column to kolumna, w której wartości są pogrupowane na podstawie tej kolumny
Liczba jest funkcją zagregowaną używaną do zwrócenia całkowitej liczby wierszy na podstawie zgrupowanych wierszy

Przykład :

W tym przykładzie zamierzamy zgrupować kolumnę adresową i otrzymamy liczbę

Wyjście:

Istnieją trzy unikalne wartości w polu adresu - Hyd, Guntur i Patna. Więc liczba zostanie utworzona przez grupowanie wartości między wartościami adresu.

[Wiersz (adres = „hyd”, count = 3),
Wiersz (adres = „guntur”, count = 1),
Wiersz (adres = „patna”, count = 1)]

Wniosek:

Omówiliśmy, jak uzyskać liczbę z Pyspark DataFrame za pomocą metod select () i agg (). Aby uzyskać całkowitą liczbę wierszy poprzez grupowanie z innymi kolumnami, użyliśmy grupy wraz z funkcją Count ().

Windows

Jak utworzyć obraz ISO

Instrukcje tworzenia plików obrazów ISO dyski. Bezpłatne programy. Jak utworzyć obraz ładowania syst...

Pani Patrycjusz Sokołowski

Windows

Poproś o zgodę administratorów

Jak zażądać od administratora zgody na usunięcie folderu lub pliku, jeśli system Windows zgłasza, że...

Pan Ludwik Żak

Windows

Jak pobrać ISO Windows 8.1 (oryginalny obraz)

Oficjalne sposoby Pobierz ISO Windows 8.1 64-bitowy i 32-bitowy z witryny Microsoft. Bezpłatne ładow...

Pan Sara Łapiński