PYSPARK - Funkcje znacznika czasu

Maja Kucharski

W Python PYSPARK to moduł Spark używany do zapewnienia podobnego rodzaju przetwarzania, takiego jak Spark za pomocą DataFrame.

Omówimy funkcje znacznika czasu w Pyspark. Najpierw utwórzmy ramkę danych.

Znak czasu

Znacznik czasu to dane, które obejmują datę i godzinę.

Data obejmuje miesiące, datę i rok.

Czas obejmuje godzinę, minutę, drugą i młyna.

Możemy reprezentować znacznik czasu jako - (Jyyy, MM, DD, H, M, S, MI.S)

Gdzie:

ROK - reprezentuje rok w formacie czterocyfrowym
MM - reprezentuje miesiąc w dwóch cyfrowych formatach
DD - reprezentuje datę w dwóch cyfrowych formatach
H - reprezentuje godzinę
M - reprezentuje minutę
S - reprezentuje drugie miejsce
Mi.S reprezentuje Milli-sekundowy

Korzystając z modułu DATETIME, możemy tworzyć znaczniki czasu. Zatem wymaga importowania modułu DATETIME.

Przykładowe stworzenie:
Datetime.DateTime (2022, 2, 16, 2, 46, 30, 144585)

Przykład:
Tutaj utworzymy Pyspark DataFrame z 5 wierszy i 3 kolumnami z znacznikami znaczników czasu i wyświetli się metodę zbiorów zbiorów ().

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wprowadź wszystkie metody Pyspark.SQL.Moduł funkcji
od Pyspark.SQL.Funkcje importu *
# Importuj moduł DATETIME
Importuj datetime
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 3 atrybutami
studenci = [„Rollno”: „001”, „nazwa”: „sravan”, „admtisted_date”: dateTime.DateTime (2022, 2, 16, 2, 46, 30, 144585),
„Rollno”: „002”, „nazwa”: „deepika”, „admtisted_date”: dateTime.DateTime (2022, 2, 11, 3, 46, 10, 144582),
„Rollno”: „003”, „Nazwa”: „Chandrika”, „admtisted_date”: dateTime.DateTime (2021, 1, 8, 4, 46, 44, 194585),
„RollNo”: „004”, „nazwa”: „Akash”, „Admisted_date”: DateTime.DateTime (2022, 4, 16, 6, 46, 45, 144185),
„Rollno”: „005”, „nazwa”: „Thanuja”, „admtisted_date”: dateTime.DateTime (2012, 5, 6, 2, 46, 47, 154585)
]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
# Wyświetl ramkę danych
df.zbierać()

Wyjście:

[Wiersz (admtisted_date = dateTime.DateTime (2022, 2, 16, 2, 46, 30, 144585), nazwa = „Sravan”, Rollno = '001'),
Wiersz (admtisted_date = dateTime.DateTime (2022, 2, 11, 3, 46, 10, 144582), nazwa = „Deepika”, Rollno = '002'),
Wiersz (admtisted_date = dateTime.DateTime (2021, 1, 8, 4, 46, 44, 194585), nazwa = „Chandrika”, Rollno = '003'),
Wiersz (admtisted_date = dateTime.DateTime (2022, 4, 16, 6, 46, 45, 144185), nazwa = „Akash”, Rollno = „004”),
Wiersz (admtisted_date = dateTime.DateTime (2012, 5, 6, 2, 46, 47, 154585), name = „Thanuja”, Rollno = '005')]

format daty()

Ten format służy do wyodrębnienia daty/godziny z danego znacznika czasu. Zajmie format daty/godziny i otrzyma datę/godzinę na podstawie tego formatu.

Aby uzyskać datę, format jest „Ryyy-MM-DD”. Możemy złożyć MM/DD/YYYY na dowolnym zamówieniu.

Składnia:
DATE_FORMAT (col („Timestamp_Column”), „Yyyy-Mm-Dd”).alias („Result_Column”)

Gdzie:

Timestamp_Column to kolumna danych znaczników czasu
Result_Column to etykieta dla tej sformatowanej kolumny

Aby uzyskać czas, format brzmi „HH: MM: SS.SSS ”.

Składnia:
ramka danych.Wybierz (date_format (col („mimestamp_column”), „HH: MM: SS.SSS ”).alias („wynik_kolusz”))

Gdzie:

Timestamp_Column to kolumna danych znaczników czasu
Result_Column to etykieta dla tej sformatowanej kolumny

Przykład 1:
W tym przykładzie wyodrębnimy datę jako „datę” z kolumny MEDITED_DATE MESTAMP i wyświetlimy ją za pomocą metody show ().

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wprowadź wszystkie metody Pyspark.SQL.Moduł funkcji
od Pyspark.SQL.Funkcje importu *
# Importuj moduł DATETIME
Importuj datetime
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 3 atrybutami
studenci = [„Rollno”: „001”, „nazwa”: „sravan”, „admtisted_date”: dateTime.DateTime (2022, 2, 16, 2, 46, 30, 144585),
„Rollno”: „002”, „nazwa”: „deepika”, „admtisted_date”: dateTime.DateTime (2022, 2, 11, 3, 46, 10, 144582),
„Rollno”: „003”, „Nazwa”: „Chandrika”, „admtisted_date”: dateTime.DateTime (2021, 1, 8, 4, 46, 44, 194585),
„RollNo”: „004”, „nazwa”: „Akash”, „Admisted_date”: DateTime.DateTime (2022, 4, 16, 6, 46, 45, 144185),
„Rollno”: „005”, „nazwa”: „Thanuja”, „admtisted_date”: dateTime.DateTime (2012, 5, 6, 2, 46, 47, 154585)
]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
# Wyodrębnij datę znacznika czasu
df.Wybierz (col („admtisted_date”), date_format (col („admtisted_date”), „yyyy-mm-dd”).alias („data”)).pokazywać()

Wyjście:

Przykład 2:
W tym przykładzie wyodrębnimy czas jako „czas” z kolumny MEDITED_DATE MEDAME i wyświetlimy go za pomocą metody show ().

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wprowadź wszystkie metody Pyspark.SQL.Moduł funkcji
od Pyspark.SQL.Funkcje importu *
# Importuj moduł DATETIME
Importuj datetime
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 3 atrybutami
studenci = [„Rollno”: „001”, „nazwa”: „sravan”, „admtisted_date”: dateTime.DateTime (2022, 2, 16, 2, 46, 30, 144585),
„Rollno”: „002”, „nazwa”: „deepika”, „admtisted_date”: dateTime.DateTime (2022, 2, 11, 3, 46, 10, 144582),
„Rollno”: „003”, „Nazwa”: „Chandrika”, „admtisted_date”: dateTime.DateTime (2021, 1, 8, 4, 46, 44, 194585),
„RollNo”: „004”, „nazwa”: „Akash”, „Admisted_date”: DateTime.DateTime (2022, 4, 16, 6, 46, 45, 144185),
„Rollno”: „005”, „nazwa”: „Thanuja”, „admtisted_date”: dateTime.DateTime (2012, 5, 6, 2, 46, 47, 154585)
]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
# Wyodrębnij czas ze znacznika czasu
df.Wybierz (col („admtisted_date”), date_format (col („admtisted_date”), „HH: mm: ss.SSS ”).alias („czas”)).pokazywać()

Wyjście:

godzina()

hour () to metoda, która powróci godzinę z danego znacznika czasu. Powróci godziny na rzędach w kolumnie znacznika czasu.

Składnia:
ramka danych.Wybierz (hour (col („timestamp_column”)))))

Gdzie, mimestamp_column to kolumna danych znaczników czasu.

minuta()

Minute () to metoda, która powróci minuty z danego znacznika czasu. Zwróci minuty w rzędach w kolumnie znacznika czasu.

Składnia:
ramka danych.Wybierz (minute (col („Timestamp_Column”))))

Gdzie, mimestamp_column to kolumna danych znaczników czasu.

drugi()

Second () to metoda, która powróci sekund z danego znacznika czasu. Powróci sekundy w rzędach w kolumnie znacznika czasu.

Składnia:
ramka danych.Wybierz (drugie (col („Timestamp_Column”))))

Gdzie, mimestamp_column to kolumna danych znaczników czasu.

Przykład:
W tym przykładzie wyodrębnimy godzinę, minuty i sekundy z kolumny MADED_DATE MESPINES przy użyciu powyższych metod i wyświetlaj ramkę danych za pomocą metody show ().

#Wportu na moduł PYSPARK
Import Pyspark
#Import Sparksession do tworzenia sesji
od Pyspark.SQL Import Sparksession
#Wprowadź wszystkie metody Pyspark.SQL.Moduł funkcji
od Pyspark.SQL.Funkcje importu *
# Importuj moduł DATETIME
Importuj datetime
#Utworz aplikację o nazwie Linuxhint
Spark_App = Sparksession.budowniczy.AppName („Linuxhint”).getorCreate ()
# Utwórz dane ucznia z 5 wierszy i 3 atrybutami
studenci = [„Rollno”: „001”, „nazwa”: „sravan”, „admtisted_date”: dateTime.DateTime (2022, 2, 16, 2, 46, 30, 144585),
„Rollno”: „002”, „nazwa”: „deepika”, „admtisted_date”: dateTime.DateTime (2022, 2, 11, 3, 46, 10, 144582),
„Rollno”: „003”, „Nazwa”: „Chandrika”, „admtisted_date”: dateTime.DateTime (2021, 1, 8, 4, 46, 44, 194585),
„RollNo”: „004”, „nazwa”: „Akash”, „Admisted_date”: DateTime.DateTime (2022, 4, 16, 6, 46, 45, 144185),
„Rollno”: „005”, „nazwa”: „Thanuja”, „admtisted_date”: dateTime.DateTime (2012, 5, 6, 2, 46, 47, 154585)
]
# Utwórz ramkę danych
df = Spark_App.CreatedataFrame (studenci)
# Wyodrębnij godziny ze znacznika czasu
df.Wybierz (col („admtisted_date”), hour (col („admtisted_date”)))).pokazywać()
# Wyciągnij minuty ze znacznika czasu
df.Select (col („admtiste_date”), minute (col („admtisted_date”))))).pokazywać()
# Wyodrębnij sekundy ze znacznika czasu
df.Wybierz (col („admtite_date”), drugi (col („adminted_date”)))))).pokazywać()

Wyjście:

Wniosek

W tym samouczku omówiliśmy, jak wyodrębnić datę i godzinę za pomocą metody date_format () oraz przy użyciu hour (), minute () i second (). Wyodrębniliśmy godziny, minuty i sekundy z kolumny czasowej w Pyspark DataFrame.

Doker

Jak definiowane są tomy w Docker Compose YAML?

Objętości są zdefiniowane przy użyciu klawisza „Volume” w pliku YAML Docker Compose. Użytkownicy mog...

Bruno Dobrowolski

Sqlite

Jak korzystać z aplikacji internetowej SQLite Viewer

Aplikacja internetowa SQLite Viewer zapewnia doskonałe funkcje do przeglądania baz danych SQLite onl...

Pani Alicja Szafrański

Siły sprzedaży

Salesforce Apex - lista

Praktyczny samouczek na temat kolekcji „listy” w języku programowania APEX i jego metodach oraz spos...

Oliwia Makowski