0

MATLAB ile Veri Analizi : İstatistiksel Veri Analizine Giriş

Hepinize merhaba. Hatırlayacağınız üzere bir önceki yazımızda grafikler konusunu bitirmiştik. Şimdi ise yazı serisine de ismini veren istatistiksel veri analizi konusuna giriş yapıyoruz. Hadi başlayalım.

         MATLAB istatistiksel veri analizi yaparken bu amaç için özelleştirilmiş istatistik araç kutusunu kullanır. Bu bölümde sizlere genel olarak araç kutusu içeriğinden bahsedilecektir. Detaylı bilgiyi MATLAB resmi sitesinden “statistics toolbox user’s guide” dökümanını indirerek elde edebilirsiniz.

        

         MATLAB dilinde istatistiksel hesaplamaları yapmak için hazırlanan fonksiyonların bulunduğu araç kutusu “statistics toolbox” yani istatistik araç kutusu olarak adlandırılır. İstatistiksel işlemlerin ve tekniklerin hazır fonksiyon yapısında sağlanmasının en önemli avantajı, hazır fonksiyonları beraber kullanarak farklı hesaplamalar yapılmasına olanak sağlamasıdır. Böylelikle biz kullanıcılar hazır fonksiyonları kullanarak kendi araç kutumuzu geliştirebilir ve diğer programların yapamadığı hesaplamaları MATLAB ile yapabiliriz.

 

         İstatistik araç kutusu, iki farklı araç tipi içerir:

  • MATLAB programlamada kullanılacak olan hazır istatistiksel fonksiyonlar
  • Fonksiyonların interaktif kullanımı için kullanıcı grafik arayüzleri (GUI)

 

Hazır fonksiyonların kodları açıktır ve MATLAB düzenleyicisi kullanılarak incelenebilir ve geliştirilebilir. Kodları yeni m-dosyalarına kopyalayarak araç kutusunu geliştirebilir veya bu fonksiyonları çağıran yeni m-dosyaları yazabilirsiniz. Aşağıdaki tabloda, istatistik araç kutusundaki hazır fonksiyonların genel ayrışımı görünmektedir.

KONU
Dağılımlar

Parametre tahminleme

Olasılık yoğunluk fonksiyonları
Kümülatif dağılım fonksiyonları
Dağılım fonksiyonlarının kritik değerleri
Rassal sayı üreteçleri
İstatistikler
Benzerlik fonksiyonları
Tanımlayıcı istatistikler
Doğrusal modeller
Doğrusal olmayan modeller
Deney tasarımı
İstatistiksel süreç kontrol
Çok değişkenli istatistikler
Kümeleme analizi
Boyut indirgeme teknikleri
Çizimler
Diğer çok değişkenli metotlar
Karar ağacı teknikleri
Hipotez testleri
Dağılım testleri
Parametrik olmayan fonksiyonlar
Gizli Markov modelleri
İstatistiksel çizimler
İstatistik demoları
Dosya alma/verme
Yardımcı fonksiyonlar

 

Tanımlayıcı istatistikler, verileri diğer veri setlerinden ayırt etmemizi ve tanımamızı sağlayan yer, değişkenlik, çarpıklık ve basıklık ölçüleridir. Yer ölçülerinin kullanım amacı, verilerin sayı doğrusu üzerindeki yerini belirlemektir. Değişkenlik ölçüleri, veri değerlerinin yayılımını gösterirler. Değişkenlik ölçülerinin diğer bir adı da yayılım ölçüleridir. Çarpıklık, verilerin kendi ortalaması etrafındaki asimetrisinin bir ölçüsüdür. Çarpıklık pozitif ise veriler ortalamasının sağında, solunda olunduğundan daha uzağa yayılmış demektir. Bunun tersinde ise çarpıklık negatiftir. Normal dağılım gibi mükemmel simetriye sahip dağılımlarda ise çarpıklık sıfırdır. Basıklık ise bir dağılımın ne kadar sapan değerlere yatkın olduğunun bir ölçüsüdür. Normal dağılım için basıklık 3’tür. Normal dağılımdan daha fazla sapan değerlere yatkın dağılımlarda basıklık 3’ten büyüktür, daha az sapan değere yatkın olanlarda ise 3’ten küçüktür.

 

MATLAB programlama dilinde tüm tanımlayıcı istatistikleri birden hesaplayacak tek bir komut yoktur. Tanımlayıcı istatistiklerden sadece bazıları MATLAB genel araç kutusunda bulunur. Diğer istatistikleri hesaplayan tüm fonksiyonlar istatistik araç kutusu ile birlikte gelmektedir. Tanımlayıcı istatistikler 4 ana başlığa ayrılır.

Yer Ölçüleri

  • Aritmetik ortalama
  • Geometrik ortalama
  • Harmonik ortalama
  • Mod
  • Medyan
  • Kartiller

Değişkenlik Ölçüleri

  • Aralık
  • Standart sapma
  • Varyans
  • Ortalama mutlak sapma
  • Değişkenlik katsayısı

Çarpıklık Ölçüleri

  • Pearson asimetrik ölçüsü

Basıklık Ölçüleri

  • Basıklık

 

MATLAB dilinde istatistiksel fonksiyonlar aksini belirtmediğiniz takdirce sütun istatistiklerini hesaplar. Değişkenlerin sütun olarak yazılması işinizi kolaylaştırır yani elinizde eğer nxm bir matris varsa sonucunuz 1xm boyutlu bir vektör olur. Aşağıdaki tabloda 5 x 5 bir matris için hesaplama değerleri yapılmıştır ve fonksiyon kullanımlar gösterilmiştir.

 

FONKSİYON SONUÇ
>> ort = mean(m) ort =

 

    5.2000    4.6000    7.0000    4.4000    2.4000

>> geoort = geomean(m) geoort =

 

    4.1123    4.1392    6.7106    3.2772         0

>> harmort = harmmean(m) harmort =

 

    2.8669    3.8136    6.3959    2.3954         0

>> medyan = median(m) medyan =

 

     7     3     7     3     3

>> kartiller = prctile(m,[25,50,75]) kartiller =

 

    2.5000    3.0000    5.5000    1.7500    0.7500

    7.0000    3.0000    7.0000    3.0000    3.0000

    7.2500    6.0000    9.0000    7.5000    4.0000

>> aralik = range(m) aralik =

 

     7     6     5     8     4

>> sapma = std(m) sapma =

 

    3.0332    2.6077    2.1213    3.4351    1.8166

>> varyans = var(m) varyans =

 

    9.2000    6.8000    4.5000   11.8000    3.3000

>> oms = mad(m) oms =

 

    2.5600    1.9200    1.6000     2.8800    1.5200

>> kas = iqr(m) kas =

 

    4.7500    3.0000    3.5000    5.7500    3.2500

>> carpiklik = skewness(m) carpiklik =

 

   -0.5120    1.1500   -0.3514    0.4071   -0.3805

>> basiklik = kurtosis(m) basiklik =

 

    1.5398    2.6661    1.7593    1.4904    1.4421

 

Bu yazıda sizlerle istatistik araç kutusuna giriş yapmış olduk sonraki yazımızda yine araç kutusu üzerinden işlemlere devam edeceğiz. Mutlu kalın…


Like it? Share with your friends!

0

0 Comments

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir