0

MATLAB ile Veri Analizi : İstatistiksel Veri Analizine Giriş 2

Hepinize merhabalar. Bir önceki yazımızda İstatistiksel Veri Analizi konusunu giriş yapmıştık. Şimdi ise kaldığımızdan yerden devam ediyoruz.

            Uç değerlerin bulunduğu veri setlerinde medyan, aritmetik ortalamaya göre daha iyi bir yer ölçüsüdür. Bu tip veri setlerinde ayrıca düzeltilmiş ortalamayı bulabilmek için “trimmean” fonksiyonu da kullanılabilir. Fonksiyon kullanımı >>değişken = trimmean(X,yuzde) şeklindedir, trimmean fonksiyonu dizinin her iki ucundan da “belirtilen yüzde değerinin yarısı” kadarlık veriyi alıp ortalamayı hesaplar. Eğer veri setiniz yeterince büyük değil ise mean ile aynı sonucu verir. trimmean fonksiyonunu kullanırken dikkat etmeniz gereken diğer bir nokta ise veri setindeki tüm verilerin dağılımıdır eğer hepsi de aynı dağılımdan geliyorsa, ya da uç değer yoksa trimmean fonksiyonu mean fonksiyonunda daha az etkin bir tahminleyici olacaktır. Eğer verilerinizin ölçüm skalası logaritmik veya ters(reciprocal) ise, geometrik veya harmonik ortalamanın kullanılması daha uygun olacaktır.

 

         İçinde eksik veri bulunan veri setleri için nanmean, nanstd, nanvar, nanmin, nanmax, nanmedian, fonksiyonları da kullanılabilir. Böylelikle eksik verilerden kaynaklanan yanlış hesaplamaların önüne geçilmiş olur. Fakat diğer bazı veri setlerinde eksik veriler de sayılarak hesap yapılır. Bu yüzden tüm fonksiyonları da kullanırken eksik verileri veri setinden uzaklaştırmak veya eksik verilerin olduğu veri setleri için yazılmış özel fonksiyonlar kullanmak daha doğru sonuç verecektir. Bunlara ek olarak kullanılan diğer bazı fonksiyonlar da aşağıdaki tabloda bildirilmiştir.

 

>> minimum = min(m) minimum =

 

     1     3     4     1     0

 

>> maksimum = max(m) maksimum =

 

     8     9     9     9     4

>> momentt = moment(m(:,2),2) momentt =

 

    5.4400

2. sütunun 2. derece momenti

>> kovaryans = cov(m) kovaryans =

 

    9.2000   -5.4000   -3.2500   -2.3500    1.9000

   -5.4000    6.8000    1.0000   -2.3000   -3.3000

   -3.2500    1.0000    4.5000   -2.0000    1.7500

   -2.3500   -2.3000   -2.0000   11.8000   -1.7000

    1.9000   -3.3000    1.7500   -1.7000    3.3000

 

 

         Kesikli ve kategorik verilerin daha kolay yorumlanabilmesi için frekans tabloları ve çapraz tablolar (crosstab) kullanılabilir. Frekans tablosu, “tabulate(Data)” komutu ile oluşturulur. Data karakter ya da bir sayısal dizi olabilir.

 

Çapraz tablo ise “crosstab(x1,x2)” komutu ile oluşturulur. Dilerseniz çapraz tablonun yanında, incelenen verilerin birbirinden bağımsız olup olmadıklarını da test etmek için ki-kare bağımsızlık testi yapılabilir. Bunun için “[table,chi2,p,label] = crosstab(x1,x2)” komutu kullanılır. Bu komut sonucu çapraz tablo, table adlı matrise, ki-kare test değeri chi2 adlı değişkene, test sonucu çıkan değer p-değeri p değişkenine ve çapraz tablonun satır-sütun isimleri label adlı değişkene atılır. Örneğin elinizde 6 erkek ve kadından oluşan bir topluluğun kendilerine sorulan “Kırmızı mı Beyaz mı ?” sorusuna verdikleri yanıtlar olsun ve bunları çapraz tablo ile ekrana yazdıralım.

Eğer verilerimiz birden fazla grup üzerinden toplanmışsa, her grup için ortalama, ortalamanın standart sapması ve gruptaki birim sayısı “grpstats” fonksiyonu ile bulunabilir. “[means, sem, counts, name] = grpstats(grup, vektör)”. Buradaki means grup ortalamaları, sem ortalamanın standart sapması, counts her gruptaki veri sayısı, name her grubun adıdır. Örnek olarak elimiz 4 kadın ve erkek ile oluşturulmuş bir topluluğun boy ve kilo değerleri olsun. Bunlardan boy ve kiloyu aynı matriste tutarken cinsiyetlerini farklı bir vektör ile tutalım.

“>> [means, sem, counts, name] = grpstats(boy_kilo , cins)” komutu, kadınlar ve erkekler için ayrı ayrı boy ve kilo ortalamalarını, ortalamaların standart sapmalarını, kaçar tane kadın ve erkek olduğunu ve grup isimlerini çıktı olarak vermiştir. Topluluktaki erkeklerin boy ortalaması 177.5 kadınların boy ortalaması ise 155 çıkmış. Erkelerin kilo ortalaması 60 iken kadınlarda bu sayı 46 olmuş. Eğer fonksiyonu “>>grpstats(matris, vektör, alpha)” şeklinde kullanırsanız bu kez de her otlamanın etrafına % (1- alpha)’ lık güven aralığı çizer.

 

Bu yazımda sizlerle İstatistiksel Veri Analizi ile ilgili diğer önemli fonksiyonları öğrendik. Sonraki yazımda ise verilerin grafiksel gösterimi ile devam edeceğiz.  

 


Like it? Share with your friends!

0

0 Comments

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir