W Python PYSPARK to moduł Spark używany do zapewnienia podobnego rodzaju przetwarzania, takiego jak Spark za pomocą DataFrame.
Omówimy funkcje Collect_List () i Collect_Set () w Pyspark DataFrame.
Przed przejściem do tych funkcji utworzymy PYSPARK DATAFRAME
Przykład:
Tutaj utworzymy PYSPARK DATAFRAME z 5 wierszy i 6 kolumnami.
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci1 = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 2.79, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 9, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci1)
# Wyświetl ramkę danych
df.pokazywać()
Wyjście:
PYSPARK - COLLETH_LIST ()
Metoda collect_list () jest używana do pobierania danych z kolumn PYSPARK DATAFRAME i zwracania wartości w formacie wiersza. Zwróci wszystkie wartości wraz z duplikatami. Ale musimy zaimportować tę metodę z Pyspark.SQL.Moduł funkcji.
Możemy użyć tej metody do wyświetlania zebranych danych w postaci wiersza.
Składnia:
ramka danych.Wybierz („Collect_List („ kolumna ”))
Gdzie:
- DataFrame to wejście PYSPARK DATAFRAME
- Kolumna to nazwa kolumny, w której stosuje się collect_list ()
Przykład 1:
W tym przykładzie zbieramy dane z kolumny adresowej i wyświetlamy wartości metodą kolekcji ().
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Import Collect_List Funkcja
od Pyspark.SQL.Funkcje importuj bollec_list
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci1 = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci1)
# COLLET_LIST na adresie
df.Wybierz (Collect_List („Adres”)).zbierać()
Wyjście:
[Row (collect_list (adres) = [„guntur”, „hyd”, „patna”, „hyd”, „hyd”])]
Przykład 2:
W tym przykładzie zbieramy dane z kolumn wysokości i wagi i wyświetlamy wartości metodą kolekcji ().
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Import Collect_List Funkcja
od Pyspark.SQL.Funkcje importuj bollec_list
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci1 = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci1)
# Collect_list na kolumnach wysokości i wagi
df.Wybierz (collect_list („wysokość”), collect_list („waga”)).zbierać()
Wyjście:
[Row (colll_list (wysokość) = [5.79, 3.79, 2.79, 3.69, 5.59], COCTER_LIST (waga) = [67, 34, 17, 28, 54])]
PYSPARK - COBOLD_SET ()
Metoda collect_set () służy do uzyskania danych z kolumn PYSPARK DataFrame i zwracania wartości w formacie wiersza. Zwróci wszystkie wartości bez duplikatów.
Możemy użyć tej metody do wyświetlania zebranych danych w postaci wiersza. Ale musimy zaimportować tę metodę z Pyspark.SQL.Moduł funkcji.
Składnia:
ramka danych.Wybierz („collect_set („ kolumna ”))
Gdzie:
- DataFrame to wejście PYSPARK DATAFRAME
- Kolumna to nazwa kolumny, w której stosuje się collect_list ()
Przykład 1:
W tym przykładzie zbieramy dane z kolumny adresowej i wyświetlamy wartości metodą kolekcji ().
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Import Collect_Set Funkcja
od Pyspark.SQL.Funkcje importuj_set
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci1 = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci1)
# Collect_Set na adresie
df.Wybierz (collect_set („Adres”)).zbierać()
Wyjście:
[Row (collect_set (adres) = [„hyd”, „guntur”, „patna”])]
Przykład 2:
W tym przykładzie zbieramy dane z kolumn wysokości i wagi i wyświetlamy wartości metodą kolekcji ().
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Import Collect_Set Funkcja
od Pyspark.SQL.Funkcje importuj_set
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci1 = [„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23, „wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16, „wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7, „wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „Nazwa”: „Rohith”, „wiek”: 9, „wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37, „wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci1)
# Collect_set na kolumnach wysokości i wagi
df.Wybierz (collect_set („wysokość”), collect_list („waga”)).zbierać()
Wyjście:
[Row (colll_set (wysokość) = [5.59, 3.69, 2.79, 5.79, 3.79], COCTER_LIST (waga) = [67, 34, 17, 28, 54])]
Wniosek
Widzieliśmy, że metody kolekcji () i collect_set () są używane do uzyskania danych z kolumny w Pyspark DataFrame. Na podstawie tych metod zaobserwowaliśmy, że collect_set () nie pozwoli na duplikaty, ale collect_list () zezwala na duplikaty wartości.