Stąd test chi-kwadrat jest wyjątkową alternatywą dla pomocy w lepszym zrozumieniu, a także oceny związku między dwiema zmiennymi kategorialnymi. Obie zmienne muszą pochodzić z podobnej populacji i być kategorycznym; Te zmienne są następnie klasyfikowane jako tak/nie, mężczyzna/kobieta, czerwony/zielony i tak dalej.
Podczas oceny wartości i liczby skategoryzowanych odpowiedzi między wieloma niezależnymi grupami test chi-kwadrat jest korzystny."
Test chi-kwadrat w r
Po zakończeniu testu wynikiem jest wartość „p”, której używasz do ustalenia, czy twoja hipoteza niezależności jest poprawna, czy nie. Liczba „p” reprezentuje po prostu prawdopodobieństwo, że twoje zmienne są niezależne.
Jeśli wartość „p” wynosi więcej niż 0.05, prawdopodobieństwo niezależności jest dość silne i wystarczające do ustalenia, że czynniki są niezwiązane. Z drugiej strony cokolwiek mniej niż 0.05, z drugiej strony, oznacza nieistotną szansę na niezależność i istnieje duży związek między czynnikami.
Możesz pytać, dlaczego 0.05 i nie żadna inna ilość. Liczba ta została opracowana przez badaczy statystyki i została szeroko przyjęta tylko dlatego, że 0.05 jest powszechnie wykorzystywany jako miejsce definiujące.
Podsumowując to, co zostało powiedziane powyżej:
H0: Zmienne nie są ze sobą powiązane i nie ma między nimi korelacji.
H1: Zmienne są ze sobą powiązane.
Programowanie r zapewnia nam „Chisq.test()" funkcja przeprowadzenia testów chi-kwadrat i oceny, czy istnieje jakikolwiek związek między obiema zmiennymi dostarczonych danych.
Testowanie chi-kwadrat działa w R przy użyciu następującej składni:
# chisq.test (v1, v2)
W tym artykule nauczy Cię, jak biegać i rozumieć test chi-kwadrat w R z podanymi poniżej przykładami.
Przykład 1
Rozpoczynamy wdrażanie testu chi-kwadrat z najprostszym i podstawowym przykładem.
W pierwszym etapie użyliśmy funkcji „rm ()”, aby usunąć wszystkie niepotrzebne obiekty na wypadek, gdyby już istniały. Teraz zaczyna się główny kod. Utworzyliśmy dwie zmienne obiektowe; „X_actual” i „x_predict.”Przypisz„ x_actual ”listę rzeczywistych wartości za pomocą funkcji„ C () ”w R. Przypisując „x_predict” listę przewidywanych wartości. Teraz nazywając „chisq.test () ”i przekazywanie zarówno rzeczywistych, jak i przewidywanych wartości jako jego parametru. Korzystając z przechowywanego obiektu „chi”, wartości testu chi-kwadrat. Instrukcja „print ()” po prostu wydrukuje wynik testu chi-kwadrat.
Zanim zinterpretujemy wynik testu chi-kwadrat, pozwólmy Ci przedstawić w niektórych terminologiach, które zostaną użyte w wyniku testu chi-kwadrat.
„DF” są wartościami, które mogą swobodnie zmieniać się od dostarczonych zmiennych.
„X-Squared” jest arbitralną zmienną w teście chi-kwadrat, która ilustruje średnią obserwowaną zmiennych. Przewidywana liczba częstotliwości.
„Wartość p” wyraża perspektywę próbki.
Jeśli wartość p jest mniejsza niż wartość istotności, która wynosi 0.05 Zazwyczaj możemy interpretować test chi-kwadrat. Jeśli tak, eliminujemy hipotezę zerową i oświadczamy, że istnieje związek między dwiema zmiennymi. Innymi słowy, jedna zmienna może wyjaśnić drugą.
Wartość p w naszym scenariuszu jest większa niż podana wartość istotności (0.05). Ostatecznie akceptujemy zerową hipotezę i zakładamy, że zmienne są autonomiczne.
Przykład nr 2
W tym przykładzie użyjemy wbudowanego zestawu danych dostarczonego przez B base i przeprowadzimy na nim test chi-kwadrat. Zestaw danych, którego zamierzamy użyć.„Dostarcza nam danych na temat wagi piskląt na podstawie ich diety i okresu po urodzeniu.
Przeprowadzamy ten test, aby sprawdzić, czy istnieje jakikolwiek związek między dietą pisklęcia a wagą pisklęcia. Wbudowana funkcja R „Chisq.test () ”elegancko zapewnia wszystko, co musisz wiedzieć o niezależności zmiennych w zestawie danych, aby ustalić, czy są one powiązane.
Zaczniemy od zaimportowania zestawu danych do R.
Wynik testów chi-kwadrat na poniższym obrazku pokazuje, że wartość „wartość p” tego testu jest większa niż znacząca „wartość p”, która wynosi 0.05, co wskazuje, że waga pisklęta jest niezależna od ich diety. Mimo że może to wydawać się dziwne, ponieważ waga każdej pisklęcia powinna być określona przez to, co zużywa laska. Chociaż może tak nie być w tej ilustracji.
Teraz porównamy wagę z inną zmienną, czyli „czas.„Ta zmienna oblicza, jak długo to trwało od urodzenia pisklęcia.
W tym segmencie kodu po prostu zastąpiliśmy kolumnę „diety” kolumną „czas”, ponieważ teraz porównujemy czas pisania z ich wagą do testu chi-kwadrat.
W wynikowym teście chi-kwadrat można zobaczyć wartość „p”, która jest bardzo mała. Oznacza to, że istnieje silny związek między czasem, w którym urodziły się pisklęta a ciężarem piskląt. Oznacza to, że zaczynają przybierać na wadze, gdy się starzeją.
Wniosek
Nasz dzisiejszy artykuł obraca się na temat testu chi-kwadrat w R. W sekcji wprowadzającej wyjaśniliśmy test chi-kwadrat, dlaczego jest on przeprowadzany i jak jest przeprowadzany. Omówiliśmy całe zwykłe pojęcia zawarte w tym temacie. Następnie przeprowadziliśmy 2 praktyczne przykłady kodowania w RStudio w Ubuntu 20.04. Nasz pierwszy przykład pomoże Ci przeprowadzić test chi-kwadrat na zmiennych zdefiniowanych przez użytkownika, a 2Nd Przykład jest wykonywany za pomocą wbudowanej ramki danych z bazy R. Spodziewamy się, że ten kawałek pisania ułatwi Ci przeprowadzenie testu chi-kwadrat w programowaniu R.