Ana Sayfa » Genel » R ve RStudio: Hızlı Analizler, Şık Grafikler

R ve RStudio: Hızlı Analizler, Şık Grafikler

Hazel Kavılı

Hazel Kavılı toplam 1 yazısı bulunmakta.

İTÜ Yer Sistem Bilimi Doktora Öğrencisi, YTÜ Lisanslı İstatistikçi, RLadiesIstanbul Organizatörü

Bilgisayarların hesaplama gücü arttıkça daha büyük miktardaki verilere erişim ve onları işleyebilme gücü de her geçen gün artıyor. İnsanlar artık günlük olarak attıkları adımları, uykularını, yaktıkları kalorileri ölçüyor; firmalar kitlelerine daha hızlı ve etkili ulaşabilmek için analizler yapıyor; partiler sürekli anketler yapıp alabilecekleri oy oranlarını ölçmeye çalışıyor.
Analizi yapılacak bu kadar veri varken analiz araçlarının da gün geçtikçe çoğalması doğal bir durumdur. R ve RStudio da bu analizlerin yapıldığı başlıca araçlardan biri.
R, ücretsiz bir istatistik hesaplama ve grafik çizdirme yazılımıdır. RStudio ise R programlama dili için oluşturulmuş entegre geliştirme ortamıdır (IDE: integrated development environment). RStudio’yu hem masaüstü ortamında hem de sunucu üzerinde çalıştırabilirsiniz. MacOS, Windows, Linux için versiyonları mevcuttur ve

Bu araçları indirdikten sonra RStudio’yu çalıştırdığınızda  karşınıza aşağıdaki gibi bir ekran çıkacaktır:

r-ve-rstudio-1

 

Sol üst köşede gördüğünüz Editör yani R kodlarını yazdığınız (daha sonra saklamak istediğiniz kodlar da olabilir) kısım. Çalıştırma butonu haricinde “Source on Save” butonu işinize yarayacaktır. Bunun anlamı “RStudio’yu yeniden başlattığımda, daha önceden üzerinde çalıştığım dosyanın içeriğini tekrar yükle”. Özellikle sık kullandığınız paketleri, fonksiyonları, class’ları görmek istiyorsanız çok faydalı olacaktır.

Sol alt köşede gördüğünüz ise Console. Burası REPL (read-eval-print loop) yani denemek istediklerinizi, data setlerini, filtreleri burada test edebilirsiniz.

Sağ üst köşede ise Environment ve History kısımlarını görüyorsunuz. Environment sekmesinde, console’da tanımladığınız her şeyi (değişken, liste, data seti vb.) görebilirsiniz. History ise console’da çalıştırdığınız her komutu listeler. Eğer işlemlerinizi tamamladıktan sonra Environment’ta herhangi bir şey kaydetmezseniz, History de bir şey saklamaz.

Son olarak sağ alt köşede Files, Plots, Packages, Help ve Viewer bulunmaktadır. Buraya aynı zamanda Misc Paneli de deniyor. Files kısmını kendi bilgisayarlarınızda test edebilirsiniz. Plot, ürettiğiniz grafikleri görmenize yarar. Packages ise gerekli gördüğünüz paketleri yüklemenizi sağlar. Help ise aradığımız herhangi bir fonksiyon hakkında kapsamlı dökümanlar sunar.

Bunlarla birlikte, bu 4 ekranın yerlerini “Preferences” kısmından istediğiniz gibi değiştirebilir, seçenekler arasında istediğiniz yazı tipini kullanarak kodlamalarınızı yapabilirsiniz.

En Sık Kullanılan R Paketleri

Kullandığımız birçok R fonksiyonu paketlerden, R kullanıcıları tarafından oluşturulmuş ücretsiz kütüphanelerden gelir. Paketleri yüklemek için kullandığımız komut ise  install.packages(“paketin_adı”). R, paketi CRAN’dan (kodların ve kütüphanelerin güncel versiyonlarının tutulduğu ftp ağı) indirir ve library(“paketin_adı”) komutunu çalıştırdığınızda paketi kullanılır hale getirmiş olursunuz.

En sık kullanılan paketleri aşağıdaki şekilde kategorize edip, kısaca bahsetmek gerekirse:

  1. Datayı yüklemek için:
    - XLConnect, xlsx: Excel dosyalarını R’da okuyup yazmaya yarar.
    - RSQLite, RMySQL, RPostgresSQL: Veri tabanlarından okumaya yarar.
    - foreign: SAS ya da SPSS’ten veri okumaya yarar.
    - table: data.frame’in uzantısı gibidir. Büyük verilerde daha hızlıdır.
    - readr: Text datalarını okumaya yarar.
  1. Data ile oynamak için:
    dplyr: Alt kümelere ayırma (subsetting), özetleme (summarizing), yeniden düzenleme (rearranging) ve data setlerini bir araya getirme (joining) işlemleri için olmazsa olmaz paketler arasındadır.
    tidyr: Data setlerini düzenlemek için kullanılır. Özellikle gather ve spread fonksiyonları düzenli bir data seti elde etmenize yardımcı olacaktır.
    stringr: Düzenli İfadeler (regular expressions) ile uğraşanlar için öğrenmesi kolay bir paket.
    lubridate: Zaman serileri ile uğraşmanıza yardımcı olur.
  1. Datalarınızı görselleştirmek için:
    - ggplot2: En ünlü R paketlerinden birisidir. “Grammar of Graphics” kullanarak çok güzel, açıklayıcı grafikler elde edebilirsiniz.
    - ggvis: İnteraktif, web tabanlı grafikler yapmanızı sağlar.

r-ve-rstudio-2

r-ve-rstudio3

 

             – rgl: İnteraktif, 3 boyutlu grafikler yapmanızı sağlar.
             – htmlwidgets: Java tabanlı grafikler yapmanızı sağlar.
             – shiny: İnteraktif web uygulamaları yapmanızı sağlar.

  1. Datalarınızı modellemek için:
     – car: Tip 2 ve Tip 3 Anova tabloları için kullanılabilir.
     – randomForest: Makine Öğrenmesi için kullanılan Random Forest yöntemini uygulamanızı sağlar.
     – survival: Survival analizleri için kullanılabilir.
     – caret: Regresyon ve sınıflandırma modelleri üzerinde çalışmak için kullanılabilir.
    İstatistikçiler, veri madencileri, analistler arasında yaygın olarak kullanılan R programını öğrenmek için aşağıdaki siteleri kullanabilirsiniz:
    https://datacamp.com
    http://tryr.codeschool.com
    https://www.edx.org
    https://www.coursera.org
, , , ,

Bir Cevap Yazın

E-posta hesabınız yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir


− 4 = üç

Şu HTML etiketlerini ve özelliklerini kullanabilirsiniz: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>