Zapewnia metody struktury () i structfield (), które są używane do definiowania kolumn w Pyspark DataFrame.
Korzystając z tych metod, możemy zdefiniować nazwy kolumn i typy danych kolumn.
StructType ()
Ta metoda służy do zdefiniowania struktury Pyspark DataFrame. Zaakceptuje listę typów danych wraz z nazwami kolumn dla danej ramki danych. Jest to znane jako schemat ramki danych. Przechowuje zbiór pól.
Structfield ()
Ta metoda jest stosowana w metodzie structType () Pyspark DataFrame. Zaakceptuje nazwy kolumn z typem danych.
Arrytype ()
Ta metoda służy do zdefiniowania struktury tablicy Pyspark DataFrame. Zaakceptuje listę typów danych. Przechowuje zbiór pól. Możemy umieszczać dane danych wewnątrz ArrayType ().
W tym artykule musimy utworzyć ramkę danych za pomocą tablicy.
Utwórzmy ramkę danych z 2 kolumnami. Pierwsza kolumna to Student_Category, która odnosi się do pola liczb całkowitych do przechowywania identyfikatorów studentów. Druga kolumna - Student_Full_Name służy do przechowywania wartości ciągów w tablicy utworzonej za pomocą ArrayType ().
#Wportu na moduł PYSPARKWyjście:
array_min ()
Teraz zobaczymy, co robi Array_min ().
array_min () zwraca wartości minimalne w każdym rzędzie kolumny typu tablicy.
Jest to możliwe przy użyciu metody Select (). Wewnątrz tej metody możemy użyć funkcji array_min () i zwrócić wynik.
Składnia:
ramka danych.Wybierz (array_min (array_column))Parametry:
Array_Column zawiera wartości typu tablicyPowrót:
Zwróci minimalne wartości w tablicy we wszystkich wierszach w kolumnie tablicy.
Przykład:
W tym przykładzie zwrócimy wartości minimalne w kolumnie tablicy - Student_Full_Name
#Wportu na moduł PYSPARKWyjście:
Widzimy, że w pierwszym rzędzie - tablica zawiera: a, więc A będzie minimum (w porównaniu na podstawie wartości ASCII).
W drugim rzędzie - tablica ma b, l, b. - B jest minimum
W trzecim rzędzie - tablica ma k, a, k. - A jest minimum
W czwartym rzędzie - tablica ma k-. K jest minimum
W piątym rzędzie - tablica ma b, p. - B jest minimum
array_max ()
Teraz zobaczymy, co robi Array_max ().
array_max () Zwraca maksymalne wartości w każdym rzędzie kolumny typu tablicy.
Jest to możliwe przy użyciu metody Select (). Wewnątrz tej metody możemy użyć funkcji array_max () i zwrócić wynik.
Składnia:
ramka danych.Wybierz (array_max (array_column))Parametry:
Array_Column zawiera wartości typu tablicyPowrót:
Zwróci maksymalne wartości w tablicy we wszystkich wierszach w kolumnie tablicy.
Przykład:
W tym przykładzie zwrócimy maksymalne wartości w kolumnie tablicy - Student_Full_Name
#Wportu na moduł PYSPARKWyjście:
Widzimy, że w pierwszym rzędzie - tablica zawiera: a, więc a będzie maksimum (w porównaniu na podstawie wartości ASCII).
W drugim rzędzie - tablica ma b, l, b. - L jest maksymalny
W trzecim rzędzie - tablica ma k, a, k. - K jest maksymalne
W czwartym rzędzie - tablica ma k-. K jest maksymalne
W piątym rzędzie - tablica ma b, p. - P jest maksymalne.
Wniosek
W tym samouczku widzieliśmy funkcje Array_min () i Array_max (). array_min używany do zwracania wartości minimalnych w kolumnie typu tablicy we wszystkich wierszach. array_max służy do zwracania maksymalnych wartości w kolumnie typu tablicy we wszystkich wierszach.