W Python PYSPARK to moduł Spark używany do zapewnienia podobnego rodzaju przetwarzania, takiego jak Spark za pomocą DataFrame. Możemy połączyć dwie lub więcej kolumn w ramce danych przy użyciu dwóch metod. Są conat () i conat_ws (). Są to metody dostępne w Pyspark.SQL.Moduł funkcji. Przed poznaniem tych metod stwórzmy Pyspark DataFrame.
Przykład
W tym przykładzie utworzymy Pyspark DataFrame z 5 wierszy i 6 kolumnami i wyświetlimy ją za pomocą metody show ().
# Zaimportuj moduł PYSPARK
Import Pyspark
# Import Sparksessicess do tworzenia sesji
od Pyspark.SQL Import Sparksession
# Utwórz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [
„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23,
„Wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16,
„Wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7,
„Wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „nazwa”: „Rohith”, „wiek”: 9,
„Wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37,
„Wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
# Wyświetl ramkę danych
df.pokazywać()
Wyjście:
PYSPARK - CONTAT ()
concat () dołączy do dwóch lub więcej kolumn w danej Pyspark DataFrame i doda te wartości do nowej kolumny.
Za pomocą metody Select () możemy wyświetlić połączoną kolumnę i za pomocą metody alias () możemy nazwać połączoną kolumnę.
Składnia
ramka danych.Wybierz (Conat (kolumny,…).alias („New_Column”))
Gdzie,
- DataFrame to wejście PYSPARK DATAFRAME
- concat () - Potrzeba połączenia wielu kolumn - kolumna będzie reprezentowana za pomocą DataFrame.kolumna
- NEW_COLUMN to nazwa kolumny dla połączonej kolumny.
Przykład 1
W tym przykładzie połączymy kolumny wysokości i wagi w nową kolumnę i nazwie kolumnę jako indeks ciała. Wreszcie, wybierzemy tylko tę kolumnę i wyświetlimy Metodę danych za pomocą metody show ().
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Import Conat Funkcja
od Pyspark.SQL.Funkcje importuj
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [
„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23,
„Wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16,
„Wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7,
„Wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „nazwa”: „Rohith”, „wiek”: 9,
„Wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37,
„Wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
# Kontatenowanie wysokości i wagi w nowej kolumnie o nazwie - „Wskaźnik ciała”
df.Wybierz (Conat (DF.Wysokość, df.waga).alias („wskaźnik ciała”)).pokazywać()
Wyjście:
Przykład 2
W tym przykładzie połączymy kolumny Rollno, Nazwa i adres. Wreszcie, wybierzemy tylko tę kolumnę i wyświetlimy Metodę danych za pomocą metody show ().
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Import Conat Funkcja
od Pyspark.SQL.Funkcje importuj
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [
„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23,
„Wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16,
„Wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7,
„Wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „nazwa”: „Rohith”, „wiek”: 9,
„Wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37,
„Wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
# Contagening Rollno, Nazwa i adres w nowej kolumnie o nazwie - „Szczegóły”
df.Wybierz (Conat (DF.Rollno, DF.Nazwa, df.adres).alias („szczegóły”)).pokazywać()
Wyjście:
PYSPARK - CONTAT_WS ()
Concat_ws () dołączy do dwóch lub więcej kolumn w danej Pyspark DataFrame i doda te wartości do nowej kolumny. Oddzieli wartości każdej kolumny za pomocą separatora.
Za pomocą metody Select () możemy wyświetlić połączoną kolumnę i za pomocą metody alias () możemy nazwać połączoną kolumnę.
Składnia
ramka danych.Wybierz (Conat („separator”, kolumny,…).alias („New_Column”))
Gdzie,
- DataFrame to wejście PYSPARK DATAFRAME
- concat () - Potrzeba połączenia wielu kolumn - kolumna będzie reprezentowana za pomocą DataFrame.kolumna
- NEW_COLUMN to nazwa kolumny dla połączonej kolumny.
- separator może być czymś w rodzaju przestrzeni, charakteru specjalnego itp.
Przykład 1
W tym przykładzie połączymy kolumny wysokości i wagi w nową kolumnę i nazwie kolumnę jako indeks ciała oddzielony „_.”Wreszcie, wybierzemy tylko tę kolumnę i wyświetlimy Metodę danych za pomocą metody show ().
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Import Conat_WS funkcja
od Pyspark.SQL.Funkcje importują Conat_WS
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [
„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23,
„Wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16,
„Wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7,
„Wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „nazwa”: „Rohith”, „wiek”: 9,
„Wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37,
„Wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
# Kontatenowanie wysokości i wagi w nowej kolumnie o nazwie - „Wskaźnik ciała”
df.Wybierz (conat_ws („_”, DF.Wysokość, df.waga).alias („wskaźnik ciała”)).pokazywać()
Wyjście:
Przykład 2
W tym przykładzie połączymy kolumny Rollno, Nazwa i adres.”Wreszcie, wybierzemy tylko tę kolumnę i wyświetlimy Metodę danych za pomocą metody show ().
#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Import Conat_WS funkcja
od Pyspark.SQL.Funkcje importują Conat_WS
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [
„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23,
„Wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16,
„Wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7,
„Wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „nazwa”: „Rohith”, „wiek”: 9,
„Wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37,
„Wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
# Contagening Rollno, Nazwa i adres w nowej kolumnie o nazwie - „Szczegóły”
df.Wybierz (conat_ws („***”, DF.Rollno, DF.Nazwa, df.adres).alias („szczegóły”)).pokazywać()
Wyjście:
Wniosek
Możemy połączyć dwie lub więcej kolumn za pomocą metod Concat () i Conat_WS (). Główną różnicą między dwiema metodami jest dodanie separatora w metodzie conat_ws ().