R TUTORIAL ROZWIĄZANIA

R TUTORIAL ROZWIĄZANIA
Chcesz szybko dla początkujących programist? R jest jednym z najlepszych języków programowania do pracy ze statystykami, matematyką i naukami danych. Ten samouczek pomoże Ci nauczyć się R i zbudować swój pierwszy model uczenia maszynowego. Zacznijmy.

Kompilowanie i działanie R z wiersza poleceń

Dwa sposoby uruchamiania programów r to: skrypt r, który jest szeroko używany i jest najbardziej preferowany, a drugi to partia r cmd, nie jest to powszechnie używane polecenie. Możemy je wywołać bezpośrednio z wiersza poleceń lub dowolnego innego harmonogramu zadań.

Możesz wywołać te polecenia ze skorupy wbudowanej w IDE, a obecnie RStudio IDE ma narzędzia, które ulepszają lub zarządzają funkcjami wsadowymi R i R CMD.

Funkcja źródła () wewnątrz R jest dobrą alternatywą dla korzystania z wiersza poleceń. Ta funkcja może również wywołać skrypt, ale aby użyć tej funkcji, musisz znajdować się w środowisku R.

R Wbudowane zestawy danych

Aby wymienić zestawy danych wbudowanych z R, użyj polecenia data (), a następnie znajdź to, co chcesz, i użyj nazwy zestawu danych w funkcji data (). Jak dane (nazwa funkcji).

Pokaż zestawy danych w R

Znak zapytania (?) może być używany do poproszenia o pomoc w zakresie zestawów danych.

Aby sprawdzić, czy wszystko użyj podsumowania ().

Wykres () jest również funkcją używaną do wykreślania wykresów.

Utwórzmy skrypt testowy i uruchommy go. Tworzyć P1.R Złóż i zapisz katalog domowy z następującymi treściami:

Przykład kodu:

 # Prosty kod Hello World w R Print („Witaj świat!") print („ Linuxhint ”) print (5+6) 

Bieganie Hello World

R ramy danych

Do przechowywania danych w tabelach używamy struktury w R o nazwie A Ramka danych. Służy do wymienienia wektorów o równej długości. Na przykład następująca zmienna NM to ramka danych zawierająca trzy wektory x, y, z:

x = c (2, 3, 5) y = c („aa”, „bb”, „cc”) z = c (true, false, true) # nm to ramka danych nm = dane danych.Rama (n, s, b) 

Istnieje koncepcja o nazwie WbudowanyRamy danych również w R. MTCARS to jedna taka wbudowana ramka danych w R, którą wykorzystamy jako przykład, dla naszego lepszego zrozumienia. Zobacz kod poniżej:

 > MTCARS MPG CYL DISP HP DRAT WT… MAZDA RX4 21.0 6 160 110 3.90 2.62… Bus Rx4 WAG 21.0 6 160 110 3.90 2.88… Datsun 710 22.8 4 108 93 3.85 2.32… 

MTCARS Bulitin DataFrame

Nagłówek to górna linia tabeli, która zawiera nazwy kolumn. Rzędy danych są przekazywane przez każdą linię poziomą; Każda linia zaczyna się od nazwy wiersza, a następnie rzeczywistych danych. Członek danych wiersza jest określany jako komórka.

Wprowadzilibyśmy współrzędne wiersza i kolumny w jednym kwadratowym operatorie „[]”, aby pobrać dane w komórce. Aby oddzielić współrzędne, używamy przecinka. Zamówienie jest niezbędne. Współrzędna zaczyna się od wiersza, a następnie przecinka, a następnie kończy się kolumną. Wartość komórki 2Nd Rząd i 1St Kolumna jest podana jako:

 > MTCARS [2, 2] [1] 6 

Możemy również użyć nazwy wiersza i kolumny zamiast współrzędnych:

 > MTCARS [„BUS RX4”, „MPG”] [1] 6 

Funkcja NROW służy do znalezienia liczby wierszy w ramce danych.

 > nrow (MTCARS) # Liczba wierszy danych [1] 32 

Funkcja NCOL służy do znalezienia liczby kolumn w ramce danych.

 > NCOL (MTCARS) # Liczba kolumn [1] 11 

R Pętle programowe

W niektórych warunkach używamy pętli, gdy chcemy zautomatyzować część kodu lub chcemy powtórzyć sekwencję instrukcji.

Do pętli w R

Jeśli chcemy wydrukować te lata więcej niż jeden raz.

 Drukuj (Paste („The Year Is”, 2000)) „Rok to 2000” druk (wklej („The Year Is”, 2001)) „Rok to 2001„ Pledte („The Year Is”, 2002) . Rok to „, 2005))„ Rok to 2005 ” 

Zamiast powtarzać nasze stwierdzenie raz po raz, jeśli używamy Do pętla, będzie nam o wiele łatwiej. Lubię to:

 dla (rok w C (2000 2001 2002 2003 2004 2005)) print (wklej („rok to”, rok)) „Rok to 2000” „Rok to 2001” „Rok jest 2002 „„ The Year Is 2003 ”„ Rok to 2004 ”„ Rok to 2005 ” 

Podczas pętli w R

 while (wyrażenie) instrukcja 

Jeśli wynik ekspresji jest prawdą, wprowadzane jest ciało pętli. Wykonane są stwierdzenia wewnątrz pętli, a przepływ powraca, aby ponownie ocenić wyrażenie. Pętla powtórzy się, dopóki wyrażenie nie oceni fałszu, w takim przypadku pętla wyjdzie.

Przykład pobytu:

 # i początkowo inicjowane do 0 i = 0, podczas gdy i<5)  print (i) i=i+1  Output: 0 1 2 3 4 

W powyższej pętli wyrażenie jest I<5co mierzy się prawdziwe, ponieważ 0 jest mniej niż 5. Stąd ciało pętli jest wykonywane i I jest wyjściowe i zwiększane. Ważne jest, aby zwiększyć I wewnątrz pętli, więc w pewnym momencie spełni to stan. W następnej pętli wartość I jest 1, a pętla trwa. Powtórzy się do I równa się 5, gdy warunek 5<5 reached loop will give FALSE and the while loop will exit.

R funkcje

Stworzyć funkcjonować Używamy funkcji dyrektywy (). W szczególności są to obiekty klasy funkcjonować.

F <- function()  ##some piece of instructions  

W szczególności funkcje mogą być przekazywane do innych funkcji, ponieważ argumenty i funkcje mogą być zagnieżdżone, aby umożliwić określenie funkcji wewnątrz innej funkcji.

Funkcje opcjonalnie mogą mieć niektóre nazwane argumenty, które mają wartości domyślne. Jeśli nie chcesz wartości domyślnej, możesz ustawić jej wartość na NULL.

Niektóre fakty dotyczące argumentów funkcji R:

  • Argumenty przyznane w definicji funkcji to formalne argumenty
  • Funkcja formalów może zwrócić listę wszystkich formalnych argumentów funkcji
  • Nie każde wywołanie funkcji w R wykorzystuje wszystkie formalne argumenty
  • Argumenty funkcyjne mogą mieć wartości domyślne lub mogą ich brakować
#Definiowanie funkcji: F <- function (x, y = 1, z = 2, s= NULL)   

Tworzenie modelu regresji logistycznej z wbudowanym zestawem danych

glm () Funkcja jest używana w R do dopasowania regresji logistycznej. Funkcja glm () jest podobna do LM (), ale glm () ma dodatkowe parametry. Jego format wygląda tak:

 glm (x ~ z1+z2+z3, rodzina = dwumian (link = ”logit”), data = mydata) 

X zależy od wartości Z1, Z2 i Z3. Co oznacza, że ​​Z1, Z2 i Z3 są zmiennymi niezależnymi, a X jest funkcją zależną obejmującą dodatkową rodzinę parametrów i ma wartość dwumianową (link = „logit”), co oznacza, że ​​funkcja łącza jest logit, a rozkład prawdopodobieństwa modelu regresji jest dwumianowy.

Załóżmy, że mamy przykład studenta, w którym otrzyma przyjęcie na podstawie dwóch wyników egzaminu. Zestaw danych zawiera następujące elementy:

  • wynik _1- Wynik-1
  • wynik _2- wynik -2
  • przyznany- 1, jeśli zostanie przyjęty lub 0, jeśli nie zostanie przyjęty
  • W tym przykładzie mamy dwie wartości 1, jeśli uczeń otrzymał przyjęcie i 0, jeśli nie otrzymał wstępu. Musimy wygenerować model, aby przewidzieć, że uczeń otrzymał przyjęcie, czy nie,. W przypadku danego problemu przyznane jest uważane za zmienną zależną, egzamin_1 i egzamin_2 są uważane za zmienne niezależne. Dla tego modelu nasz kod R jest podany

     > Model_1<-glm(admitted ~ result_1 +result_2, family = binomial("logit"), data=data) 

    Załóżmy, że mamy dwa wyniki ucznia. Wynik 1 65% i wynik 2 90%, teraz przewidujemy, że uczeń otrzyma przyjęcie lub nie za oszacowanie prawdopodobieństwa, że ​​student otrzymał przyjęcie, nasz kod R jest poniżej:

     > in_framePredict (model_1, in_frame, type = "response") wyjście: 0.9894302 

    Powyższe wyjście pokazuje nam prawdopodobieństwo między 0 a 1. Jeśli wtedy jest mniej niż 0.5 oznacza to, że student nie otrzymał wstępu. W tym stanie będzie fałszywe. Jeśli jest większy niż 0.5, warunek będzie uważany za prawdziwy, co oznacza, że ​​uczeń ma przyjęcie. Musimy użyć funkcji okrągłej (), aby przewidzieć prawdopodobieństwo między 0 a 1.

    Kod R dla tego pokazano poniżej:

     > Round (Predict (Model_1, in_frame, type = "response")) [/code] Wyjście: 1 

    Student otrzyma wstęp, ponieważ wynik wynosi 1. Ponadto możemy również przewidzieć inne obserwacje w ten sam sposób.

    Korzystanie z modelu regresji logistycznej (punktacji) z nowymi danymi

    W razie potrzeby możemy zapisać model w pliku. Kod R dla naszego modelu pociągu będzie wyglądał tak:

     The_Model <- glm(my_formula, family=binomial(link='logit'),data=model_set) 

    Ten model można zapisać z:

     Zapisz (file = „nazwa pliku”, plik_ 

    Możesz użyć pliku po zapisaniu IT, używając tego pokoju R:

     załaduj (file = „nazwa pliku”) 

    Do zastosowania modelu nowych danych możesz użyć tego wiersza kodu:

     model_set $ pred <- predict(the_model, newdata=model_set, type="response") 

    NOTATKA: Model_set nie można przypisać do żadnej zmiennej. Aby załadować model, użyjemy funkcji load (). Nowe obserwacje niczego nie zmieni w modelu. Model pozostanie taki sam. Używamy starego modelu, aby przewidywać nowe dane, aby niczego nie zmieniać w modelu.

    Wniosek

    Mam nadzieję, że widziałeś, jak działa programowanie R w podstawowy sposób i jak szybko wejść w działanie, wykonując uczenie maszynowe i kodowanie statystyk z R.