Istnieją dwa różne scenariusze, obliczając medianę zestawu danych:
Jeśli masz nieparzystą liczbę wartości, rozwiązanie jest proste i można łatwo znaleźć liczbę środkową.
Jeśli próbujesz znaleźć medianę dla parzystej liczby wartości, musisz wziąć średni lub średnią z dwóch średnich liczb. Innymi słowy, musisz dodać dwie wartości, które leżą na środku zestawu danych i podzielić ich sumę przez dwa.
W tym artykule skupimy się na tym, jak znaleźć medianę zestawu danych w bazie danych Amazon Redshift. Redshift to bardzo znana usługa magazynowania danych AWS do rozwiązywania złożonych zapytań bazy danych i uruchamiania zadań analizy dużych zbiorów danych.
Składnia do użycia funkcji mediany
Jeśli pracujesz z Redshift, możesz łatwo znaleźć medianę zestawu danych za pomocą następującej składni:
Mediana (Tutaj Mediana ekspresji to po prostu zestaw danych lub nazwa kolumny, dla której chcesz znaleźć medianę.
Przykłady stosowania funkcji mediany
Teraz weźmy przykład, w którym chcesz znaleźć medianę dla wieku uczniów w klasie. Masz stół class_data z dwiema kolumnami nazwa I wiek w klastrze Redshift.
Mamy dane losowe i nieoporządkowane i chcemy mediana tych danych. Aby znaleźć medianę dla takiego zestawu danych, będziesz pisać następujące zapytanie w Redshift:
Wybierz medianę (wiek)Zapytanie jest proste i krótkie, ale zwraca medianę zestawu danych dostarczonego przez wyrażenie wejściowe. Funkcja mediana może być po prostu niewielką częścią wielu złożonych zapytań w trudnej analizie danych i zadaniach statystycznych.
Widziałeś, jak znaleźć medianę kolumny należącej do określonej tabeli bazy danych. Przejdźmy na wyższy poziom i zobaczmy, w jaki sposób funkcję mediany może być stosowana w złożonych zapytaniach o przesunięcie ku czerwieni.
Przypadek warunkowy
Tutaj zobaczysz, jak możesz dodać warunkowe stwierdzenie, próbując znaleźć medianę zestawu danych. Załóżmy, że pracujesz jako specjalista IT w dziale sprzedaży i przychodów Twojej organizacji. Znaleziono ci zadanie, aby znaleźć medianę dla projektów kosztujących ponad tysiąc dolarów, a teraz wszystkie projekty są wymienione w jednej tabeli bazy danych bez segregacji kosztów.
Wiesz już, jak znaleźć medianę dla tej kolumny. Ale tutaj nasze wymagania są nieco inne, dlatego będziesz używać następującego zapytania, aby osiągnąć pożądane wyniki:
Wybierz medianę (koszt)Otrzymasz następujące dane wyjściowe z tego zapytania. Mediana, którą otrzymaliśmy, jest obliczana po zignorowaniu wszystkich wartości koszt mniej niż tysiąc.
W ten sposób możesz wykorzystać funkcję mediany z warunkowym limitem, aby uzyskać wymagane wyniki w bazie danych Redshift.
Mediana funkcji okna
Jeśli nie znasz funkcji okien, są one używane, gdy nie chcesz stosować funkcji w całej tabeli lub kolumnie bazy danych. Funkcje okienne pozwalają zastosować funkcję w zestawie lub określonej grupie lub zakres danych. Każda grupa zwróci swój wynik dla tej konkretnej funkcji w jednym wyjściu. Odpowiednie funkcje okienne można znaleźć dla wielu funkcji SQL w Amazon Redshift.
Załóżmy, że rozpoczniesz nowy projekt, ale w Twojej firmie brakuje niektórych zestawów umiejętności, aby ukończyć ten projekt. Z tego powodu chcesz zlecić część części projektu, dla których masz inne organizacje, które dostarczają ci cytaty o tym projekcie outsourcingu. Każdy klient wymyślił trzy różne plany wykonania, z których musisz wybrać jeden.
Teraz musisz iść z umiarkowanym planem dla każdego klienta. Aby znaleźć rozwiązanie najpierw, znajdziesz medianę dla każdego klienta osobno. Będziemy używać funkcji okna mediany do tego zadania.
Wybierz nazwę_namiczną, Project_Type, Mediana (Quottation_Value)W wyjściu otrzymasz następujące wyniki. Mediana dla każdego klienta jest obliczana i wyświetlana osobno za pomocą NAD klauzula, w której wspomnialiśmy o Nazwa klienta Podstawa tej partycji.
W ten sposób możesz użyć funkcji okiennej za pomocą Amazon Redshift. Ten schemat może być również używany do bardziej złożonych i znacznie większych zestawów danych.
Wniosek
Jeśli chcesz znaleźć medianę zestawu danych w Amazon Redshift, możesz łatwo wykonać funkcję mediany Mediany Redshift, która pozwala obliczyć medianę dla pełnej kolumny lub po prostu dla niewielkiej grupy wartości przy użyciu środkowej funkcji okna. Na tym blogu są pewne przypadki i scenariusze funkcji mediany.