Jak połączyć kolumny w Pyspark DataFrame

Jak połączyć kolumny w Pyspark DataFrame
W Python PYSPARK to moduł Spark używany do zapewnienia podobnego rodzaju przetwarzania, takiego jak Spark za pomocą DataFrame. Możemy połączyć dwie lub więcej kolumn w ramce danych przy użyciu dwóch metod. Są conat () i conat_ws (). Są to metody dostępne w Pyspark.SQL.Moduł funkcji. Przed poznaniem tych metod stwórzmy Pyspark DataFrame.

Przykład
W tym przykładzie utworzymy Pyspark DataFrame z 5 wierszy i 6 kolumnami i wyświetlimy ją za pomocą metody show ().

# Zaimportuj moduł PYSPARK
Import Pyspark
# Import Sparksessicess do tworzenia sesji
od Pyspark.SQL Import Sparksession
# Utwórz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [
„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23,
„Wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16,
„Wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7,
„Wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „nazwa”: „Rohith”, „wiek”: 9,
„Wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37,
„Wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
# Wyświetl ramkę danych
df.pokazywać()

Wyjście:

PYSPARK - CONTAT ()

concat () dołączy do dwóch lub więcej kolumn w danej Pyspark DataFrame i doda te wartości do nowej kolumny.

Za pomocą metody Select () możemy wyświetlić połączoną kolumnę i za pomocą metody alias () możemy nazwać połączoną kolumnę.

Składnia

ramka danych.Wybierz (Conat (kolumny,…).alias („New_Column”))

Gdzie,

  1. DataFrame to wejście PYSPARK DATAFRAME
  2. concat () - Potrzeba połączenia wielu kolumn - kolumna będzie reprezentowana za pomocą DataFrame.kolumna
  3. NEW_COLUMN to nazwa kolumny dla połączonej kolumny.

Przykład 1
W tym przykładzie połączymy kolumny wysokości i wagi w nową kolumnę i nazwie kolumnę jako indeks ciała. Wreszcie, wybierzemy tylko tę kolumnę i wyświetlimy Metodę danych za pomocą metody show ().

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Import Conat Funkcja
od Pyspark.SQL.Funkcje importuj
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [
„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23,
„Wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16,
„Wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7,
„Wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „nazwa”: „Rohith”, „wiek”: 9,
„Wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37,
„Wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
# Kontatenowanie wysokości i wagi w nowej kolumnie o nazwie - „Wskaźnik ciała”
df.Wybierz (Conat (DF.Wysokość, df.waga).alias („wskaźnik ciała”)).pokazywać()

Wyjście:

Przykład 2
W tym przykładzie połączymy kolumny Rollno, Nazwa i adres. Wreszcie, wybierzemy tylko tę kolumnę i wyświetlimy Metodę danych za pomocą metody show ().

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Import Conat Funkcja
od Pyspark.SQL.Funkcje importuj
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [
„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23,
„Wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16,
„Wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7,
„Wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „nazwa”: „Rohith”, „wiek”: 9,
„Wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37,
„Wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
# Contagening Rollno, Nazwa i adres w nowej kolumnie o nazwie - „Szczegóły”
df.Wybierz (Conat (DF.Rollno, DF.Nazwa, df.adres).alias („szczegóły”)).pokazywać()

Wyjście:

PYSPARK - CONTAT_WS ()

Concat_ws () dołączy do dwóch lub więcej kolumn w danej Pyspark DataFrame i doda te wartości do nowej kolumny. Oddzieli wartości każdej kolumny za pomocą separatora.

Za pomocą metody Select () możemy wyświetlić połączoną kolumnę i za pomocą metody alias () możemy nazwać połączoną kolumnę.

Składnia

ramka danych.Wybierz (Conat („separator”, kolumny,…).alias („New_Column”))

Gdzie,

  1. DataFrame to wejście PYSPARK DATAFRAME
  2. concat () - Potrzeba połączenia wielu kolumn - kolumna będzie reprezentowana za pomocą DataFrame.kolumna
  3. NEW_COLUMN to nazwa kolumny dla połączonej kolumny.
  4. separator może być czymś w rodzaju przestrzeni, charakteru specjalnego itp.

Przykład 1
W tym przykładzie połączymy kolumny wysokości i wagi w nową kolumnę i nazwie kolumnę jako indeks ciała oddzielony „_.”Wreszcie, wybierzemy tylko tę kolumnę i wyświetlimy Metodę danych za pomocą metody show ().

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Import Conat_WS funkcja
od Pyspark.SQL.Funkcje importują Conat_WS
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [
„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23,
„Wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16,
„Wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7,
„Wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „nazwa”: „Rohith”, „wiek”: 9,
„Wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37,
„Wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
# Kontatenowanie wysokości i wagi w nowej kolumnie o nazwie - „Wskaźnik ciała”
df.Wybierz (conat_ws („_”, DF.Wysokość, df.waga).alias („wskaźnik ciała”)).pokazywać()

Wyjście:

Przykład 2
W tym przykładzie połączymy kolumny Rollno, Nazwa i adres.”Wreszcie, wybierzemy tylko tę kolumnę i wyświetlimy Metodę danych za pomocą metody show ().

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Import Conat_WS funkcja
od Pyspark.SQL.Funkcje importują Conat_WS
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 6 atrybutów
studenci = [
„Rollno”: „001”, „nazwa”: „Sravan”, „wiek”: 23,
„Wysokość”: 5.79, „waga”: 67, „Adres”: „Guntur”,
„Rollno”: „002”, „nazwa”: „Ojaswi”, „wiek”: 16,
„Wysokość”: 3.79, „waga”: 34, „Adres”: „Hyd”,
„Rollno”: „003”, „nazwa”: „Gnanesh Chowdary”, „wiek”: 7,
„Wysokość”: 2.79, „waga”: 17, „Adres”: „Patna”,
„Rollno”: „004”, „nazwa”: „Rohith”, „wiek”: 9,
„Wysokość”: 3.69, „waga”: 28, „Adres”: „hyd”,
„Rollno”: „005”, „nazwa”: „Sridevi”, „wiek”: 37,
„Wysokość”: 5.59, „waga”: 54, „Adres”: „Hyd”]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
# Contagening Rollno, Nazwa i adres w nowej kolumnie o nazwie - „Szczegóły”
df.Wybierz (conat_ws („***”, DF.Rollno, DF.Nazwa, df.adres).alias („szczegóły”)).pokazywać()

Wyjście:

Wniosek

Możemy połączyć dwie lub więcej kolumn za pomocą metod Concat () i Conat_WS (). Główną różnicą między dwiema metodami jest dodanie separatora w metodzie conat_ws ().