Funkcja mediany przesunięcia ku czerwieni

Funkcja mediany przesunięcia ku czerwieni
Mediana jest prostą i powszechną koncepcją statystyki i prawdopodobieństwa. Uczniowie związani z takimi dziedzinami matematycznymi znają jego użycie i jak obliczyć je ustnie. Jest to po prostu wartość środkowa w zaaranżowanym zestawie danych. Jeśli chcesz znaleźć medianę zestawu, po prostu ułóż wartości w kolejności rosnącej lub malejącej i wybierz z niego wartość środkową.

Istnieją dwa różne scenariusze, obliczając medianę zestawu danych:

  • Masz nieparzystą liczbę wartości w naszym zbiorze danych
  • Masz w naszym zestawie danych parzystą liczbę wartości

Jeśli masz nieparzystą liczbę wartości, rozwiązanie jest proste i można łatwo znaleźć liczbę środkową.

Jeśli próbujesz znaleźć medianę dla parzystej liczby wartości, musisz wziąć średni lub średnią z dwóch średnich liczb. Innymi słowy, musisz dodać dwie wartości, które leżą na środku zestawu danych i podzielić ich sumę przez dwa.

W tym artykule skupimy się na tym, jak znaleźć medianę zestawu danych w bazie danych Amazon Redshift. Redshift to bardzo znana usługa magazynowania danych AWS do rozwiązywania złożonych zapytań bazy danych i uruchamiania zadań analizy dużych zbiorów danych.

Składnia do użycia funkcji mediany

Jeśli pracujesz z Redshift, możesz łatwo znaleźć medianę zestawu danych za pomocą następującej składni:

Mediana ( )

Tutaj Mediana ekspresji to po prostu zestaw danych lub nazwa kolumny, dla której chcesz znaleźć medianę.

Przykłady stosowania funkcji mediany

Teraz weźmy przykład, w którym chcesz znaleźć medianę dla wieku uczniów w klasie. Masz stół class_data z dwiema kolumnami nazwa I wiek w klastrze Redshift.

Mamy dane losowe i nieoporządkowane i chcemy mediana tych danych. Aby znaleźć medianę dla takiego zestawu danych, będziesz pisać następujące zapytanie w Redshift:

Wybierz medianę (wiek)
Z organizacji.class_data

Zapytanie jest proste i krótkie, ale zwraca medianę zestawu danych dostarczonego przez wyrażenie wejściowe. Funkcja mediana może być po prostu niewielką częścią wielu złożonych zapytań w trudnej analizie danych i zadaniach statystycznych.

Widziałeś, jak znaleźć medianę kolumny należącej do określonej tabeli bazy danych. Przejdźmy na wyższy poziom i zobaczmy, w jaki sposób funkcję mediany może być stosowana w złożonych zapytaniach o przesunięcie ku czerwieni.

Przypadek warunkowy

Tutaj zobaczysz, jak możesz dodać warunkowe stwierdzenie, próbując znaleźć medianę zestawu danych. Załóżmy, że pracujesz jako specjalista IT w dziale sprzedaży i przychodów Twojej organizacji. Znaleziono ci zadanie, aby znaleźć medianę dla projektów kosztujących ponad tysiąc dolarów, a teraz wszystkie projekty są wymienione w jednej tabeli bazy danych bez segregacji kosztów.

Wiesz już, jak znaleźć medianę dla tej kolumny. Ale tutaj nasze wymagania są nieco inne, dlatego będziesz używać następującego zapytania, aby osiągnąć pożądane wyniki:

Wybierz medianę (koszt)
z organizacji.projektowanie
gdzie koszt> 1000

Otrzymasz następujące dane wyjściowe z tego zapytania. Mediana, którą otrzymaliśmy, jest obliczana po zignorowaniu wszystkich wartości koszt mniej niż tysiąc.

W ten sposób możesz wykorzystać funkcję mediany z warunkowym limitem, aby uzyskać wymagane wyniki w bazie danych Redshift.

Mediana funkcji okna

Jeśli nie znasz funkcji okien, są one używane, gdy nie chcesz stosować funkcji w całej tabeli lub kolumnie bazy danych. Funkcje okienne pozwalają zastosować funkcję w zestawie lub określonej grupie lub zakres danych. Każda grupa zwróci swój wynik dla tej konkretnej funkcji w jednym wyjściu. Odpowiednie funkcje okienne można znaleźć dla wielu funkcji SQL w Amazon Redshift.

Załóżmy, że rozpoczniesz nowy projekt, ale w Twojej firmie brakuje niektórych zestawów umiejętności, aby ukończyć ten projekt. Z tego powodu chcesz zlecić część części projektu, dla których masz inne organizacje, które dostarczają ci cytaty o tym projekcie outsourcingu. Każdy klient wymyślił trzy różne plany wykonania, z których musisz wybrać jeden.

Teraz musisz iść z umiarkowanym planem dla każdego klienta. Aby znaleźć rozwiązanie najpierw, znajdziesz medianę dla każdego klienta osobno. Będziemy używać funkcji okna mediany do tego zadania.

Wybierz nazwę_namiczną, Project_Type, Mediana (Quottation_Value)
Over (partycja według nazwy_ klienta)
z organizacji.klienci
Zamów według nazwy_ klienta;

W wyjściu otrzymasz następujące wyniki. Mediana dla każdego klienta jest obliczana i wyświetlana osobno za pomocą NAD klauzula, w której wspomnialiśmy o Nazwa klienta Podstawa tej partycji.

W ten sposób możesz użyć funkcji okiennej za pomocą Amazon Redshift. Ten schemat może być również używany do bardziej złożonych i znacznie większych zestawów danych.

Wniosek

Jeśli chcesz znaleźć medianę zestawu danych w Amazon Redshift, możesz łatwo wykonać funkcję mediany Mediany Redshift, która pozwala obliczyć medianę dla pełnej kolumny lub po prostu dla niewielkiej grupy wartości przy użyciu środkowej funkcji okna. Na tym blogu są pewne przypadki i scenariusze funkcji mediany.