ÖLÇME VE DEĞERLENDİRME

"İzlenemeyen süreç kontrol altına alınamaz!" Bu ifade ölçmenin önemini vurgulama bakımından benim  hoşuma giden ifadelerden birisidir. Eğer, okul öğrenmelerini izleyemezsek, okulun işleyişi rastlantılara bırakılmış olur. Başka bir deyişle, okulun hedeflerine ulaşmadaki yeterliliğini saptayamayız. O nedenle, işe ölçme ve değerlendirmenin eğitim sistemi içerisindeki rollerinin neler olduğunu açıklayarak başlayabiliriz.

Ölçme ve değerlendirme;

 

okula , derse veya kursa yeni başlayanların hazırbulunuşluk düzeylerini belirlemek,

 

dersin hedeflerinden ne kadarının önceden kazanılmış olduğunu saptamak,

 

öğrenme ve öğretme süreci boyunca ünite ya da ünitelerin hedeflerine ulaşma derecelerini belirleyerek süreci kontrol altına almak ve

 

dersin veya kursun sonunda gerçekleşen öğrenmelerin hedeflerle tutarlılığını saptamak amacıyla yapılabilir (bu konuyla ilgili daha ayrıntılı açıklamaları ölçme ve değerlendirme kitaplarından okuyabilirsiniz).

    Ölçme ve değerlendirmeyle ilgili sonraki konulara geçmeden önce temel kavramların bilinmesinde yarar var. Bu kavramlardan başlıcaları, "ölçme, birim, gerçek sıfır, itibari (tanımlanmış) sıfır , ölçek ve ölçek türleri" kavramlarıdır.

    Ölçme : Ölçme, herhangi bir niteliği gözleyip gözlem sonucunu sayı ya da başka sembollerle gösterme işlemi olarak tanımlanabilir. Tanımda geçen nitelik sözcüğü, öğrenme ve öğretme sürecinde öğrencilere kazandırılması kararlaştırılan hedef ve bu hedeflerle tutarlı olarak tanımlanan davranışları ifade eder (hedefler ve hedeflerin davranışlara dönüştürülmesine ilişkin geniş açıklamaları "Eğitimde Program Geliştirme" kitaplarından okuyabilirsiniz).  Gözlem sözcüğü davranışın doğrudan veya bir araç yardımıyla ölçülmesini ifade eder. Örneğin, bahçenin enini adımlayarak ölçme doğrudan , bir öğrencinin matematik dersindeki başarısını geliştirilen bir test yardımıyla ölçmek ise dolaylı ölçme olarak bilinir. Ölçme sonuçları her zaman bir sayı ya da bir sembol (A, B, X, Y gibi) kullanılarak gösterilir.

    Birim : Ölçme sonuçlarının ifade edilmesinde birim önemlidir. Örneğin, uzunluğun "km", "m" veya "cm", ağırlığın ise "kg" veya "gr" olarak ifade edilmesi gibi. Ölçülen değişkenlerden kimilerinin doğal, kimilerinin ise tanımlanmış birimleri vardır. Sınıfta bulunan öğrencileri saymada birim "bir tek öğrenci" iken (doğal birim), sıcaklık ölçmede birim  °C  (tanımlanmış birim) olabilir.

    Gerçek sıfır : Örneğin, "sıfır kg elma" ifadesiyle söylenmek istenen şey, gerçekte elmanın olmadığıdır. Çünkü, elmayı ölçmek için kullanılan terazinin "sıfır" değeri yokluk ifade eder. Öyleyse, bir ölçme aracının "sıfır" değeri yokluk anlamına geliyorsa, o zaman "gerçek sıfır"dan söz edebiliriz.

    Tanımlanmış (itibari) sıfır : Örneğin, termometrenin "0 °C" yi göstermesi o anda ısının olmadığı anlamına gelmez, tersine bir başlangıç noktasını gösterdiğini çünkü, ısının yok edilemeyeceğini düşünürüz. Öyleyse, bir ölçme aracının "sıfır" değeri itibar edilen bir başlangıç noktasını ifade ediyorsa, araçtaki "sıfır" değeri herhangi bir ölçüte göre tanımlanmıştır.

    Ölçek: Bu sözcüğü duyunca yaşantımızda önemli bir yer tutan haritaları hatırlarız. Ancak, ölçme konusuyla ilişkili olan "ölçek" sözcüğü genellikle "ölçme aracı" anlamında kullanılır. Oysa, "ölçek" kavramının buradaki tanımı daha farklıdır. O nedenle ölçek, aşağıda değinilen çeşitli ölçek türleriyle elde edilmiş ölçme sonuçlarının matematiksel nitelikleri olarak tanımlanır.

    Ölçek Türleri: Çeşitli şekillerde ölçme yapılabilir. Örneğin, öğrencileri uzunluklarına göre sıralamak, cinsiyetlerine göre sınıflamak, başarı düzeylerini saptamak veya ağırlıklarını belirlemek için yapılan işlemlerin tümü birer ölçmedir. Ancak, ölçme amacıyla baş vurulan yollar farklıdır. Birinde, öğrencileri boy uzunluklarına göre sıralama söz konusuyken, diğerinde başatı düzeylerini tespit etmek. Farklı yollarla yapılan ölçmelerin sonuçları üzerinde yapılabilecek matematiksel işlemler de farklılık gösterir. Bu işlemlerin neler olabileceği ölçek türlerinin bilinmesine bağlıdır. Başlıca ölçek türleri:

bullet

Sınıflama-adlandırma ( nominal) ölçeği

bullet

Sıralama ( ordinal) ölçeği

bullet

Eşit aralıklı ( interval) ölçek

bullet

Oranlı ( ratio) ölçek

    Sınıflama Ölçeği: Öğrencileri cinsiyetlerine göre gruplama, futbol oyuncularına sırt numarası verme, otomobillere plaka numarası verme veya bitkileri çeşitli özelliklerine göre sınıflama olayı birer ölçme işlemidir. Ancak, bu çeşit ölçmeler sınıflama ölçeği niteliğindedir. Örneğin sırt numarası 22 olan bir oyuncunun sırt numarası 11 olan bir başka oyuncudan iki kat daha iyi oynadığını söyleyemeyiz. Çünkü, sırt numaraları sadece onları tanımamıza yardımcı olur.

    Sıralama Ölçeği:   Değişkenin ilgilenilen özelliğe sahip oluş derecelerine göre, büyükten küçüğe veya küçükten büyüğe doğru sıralanması, bu nitelikteki ölçmeler arasında yer alır. Örneğin, kişileri eğitim durumlarına göre, "1 = okumaz-yazmaz, 2 = okur-yazar, 3 = ilkokul, 4 = ortaokul, 5 = lise, 6 = üniversite" şeklinde sıralamak gibi. Burada, sıra numaralarını gösteren sayıların aritmetik değerleri onlara karşılık gelen özelliklerde temsil edilmez. Yani, aritmetik olarak 1-2 = 3-4 olmasına karşın, nitelik olarak okumaz-yazmaz (1) ile okur-yazar (2)arasındaki fark, ilkokul (3) ile ortaokul (4) arasındaki farka eşit değildir. Sıralamada, farklı iki sırada yer alan özellikler arasındaki farkın miktarını açıklamak mümkün değildir.

    Eşit Aralıklı Ölçek: Bir ölçme aracında sıfır değeri tanımlanmış, sıfırın sağında ve solunda kalan alan eşit aralıklarla bölmelenmiş ise eşit aralıklı ölçek niteliğinden söz edilebilir. Termometre, saat ve standardize edilmiş testler bu koşulları sağladığından eşit aralıklı ölçekler olarak bilinir. Sıralama ölçeklerinin tersine, eşit aralıklı ölçeklerde ölçme sonuçları arasındaki fark bunlara karşılık gelen özelliklerde de korunur. Örneğin, 10 °C ile 20 °C arasındaki fark, 30 °C ile 40 °C arasındaki farka eşittir. Ancak, bu ölçekle elde edilen iki ölçme sonucunun birbirine oranı, onlara karşılık gelen özelliklerin oranına eşit değildir. Yani, 40 °C sıcaklık 20 °C sıcaklığın iki katıdır diyemeyiz.

    Eşit Oranlı Ölçek: Bir değişkene ait iki ölçme sonucunun bir birine oranı, onlara karşılık gelen gerçek değerlerin oranına eşitse, eşit oranlılıktan söz edilebilir. Başka bir deyişle, eşit oranlı ölçeklerle elde edilen ölçme sonuçlarıyla ilgili şu eşitlik doğrudur: (4/2) = (4 kg elma)/(2 kg elma). Bunun nedeni eşit oranlı ölçeklerin gerçek sıfır değerine sahip olmalarıdır. O nedenle, eşit oranlı ölçeklerle elde edilen ölçme sonuçları üzerinde her türlü matematiksel işlem yapılabilir.

      Sonuç olarak, yukarıdan aşağıya doğru gidildikçe ölçeklerin matematiksel değerlerin arttığı söylenebilir. Bu durumu en iyi özetleyen bir tablo aşağıda verilmiştir:

Ölçek Türleri

Başlangıç noktası

Birimleri (Aralıkları)

Nitelik Gösterme

       Nicelik Gösterme Gücü            Sıra            Fark            Oran

Sınıflama Ölçeği

Sıralama Ölçeği

Aralıklı Ölçek

Oranlı Ölçek

 Yok

 Var (değişir)

 Var (tanımlı)

 Var (gerçek)

  Yok

  Var (değişir)

  Var (eşit)

  Var (eşit)

       Var

       Var

       Var

       Var

                                 _            _

      Var           _

      Var            Var                     

      Var            Var                 Var

Tablo: Özçelik, D. Ali, Okullarda Ölçme ve Değerlendirme. ÜSYM, No: 3

GÜVENİLİRLİK

    Güvenilirlik, hem kullandığımız ölçme araçları hem de bu araçlarla elde edilen ölçümlerin kalitesiyle ilgili olan bir kavramdır. Bilindiği üzere, günlük kullanımlarımızda güvenirlik, daha çok ölçümlerimizin tutarlığı ve tekrar edilebilirliği ile ilişkilidir. Burada, güvenilirliği tam olarak tanımlamadan önce, güvenirlik kavramıyla ilgili bazı temel bilgilere yer verilecek sonra, özellikle güvenilirliğin dayandığı temellerle ilgili olan "gerçek puan kuramı"nın ne olduğu kısaca açıklanmaya çalışılacaktır. Bununla beraber, ölçümlerin güvenirliğini düşürmede etkili rol oynayan "hata" kavramı ile "hatanın kaynakları" ve "türleri" konusunda kısa bilgilere yer verilecektir. Sizler bu temel bilgilere sahip olduktan sonra güvenirli kavramının tanımını ele alabiliriz. 

    GERÇEK PUAN KURAMI

 Gözlenen Puan = Gerçek Puan + Hata

(X = T + e)           (1)

Gerçek Puan = Gözlenen Puan - Hata

(T = X - e)           (2)

Hata = Gerçek Puan - Gözlenen Puan

e = T - X             (3)

                     Var(X) = Var(T) + Var(e)  (4)

        Gerçek Puan Kuramı ölçmeyle ilgili bir kuramdır. Diğer bir çok kuramda olduğu gibi, gerçek puan kuramının da ispatlanmadığı dikkate alınmalıdır. Gerçek puan kuramı, hem güçlü hem de basit dolayısıyla, anlaşılması son derece kolay olan bir kuramdır. Bunun için yukarıda verilen 1 numaralı eşitliği incelemek yeterlidir.  Gerçek puan kuramına göre her ölçüm (gözlenen puanlar), iki bileşenden oluşur: 1. Gerçek puan (ölçülenin sahip olduğu gerçek değer), 2. ölçme sonuçlarına karışan hata. Öyleyse, ölçme sonunda elde ettiğimiz ölçümler (gözlenen puan), gerçek değerlerle ölçme sonuçlarına karışan hataların bileşimidir. O nedenle, ölçme sonuçlarına karışan hatanın miktarı arttıkça, gözlenen puan gerçek değerden sapma gösterir. Eğer, ölçme sonuçlarına karışabilecek hataları önleme konusunda çabalar artarsa, gözlenen puan gerçek değere o denli yaklaşabilir. Çünkü, 3 numaralı eşitliğe göre, hata gerçek puanlarla gözlenen puanların farkına eşittir. Ancak, teorik bir durum olmasına karşın, gerçek puanın olduğunu kabul ederiz fakat, gerçek puanın ne olduğunu hiç bir zaman bilemeyiz.  Öte yandan, 2 numaralı eşitlik incelendiğinde, gerçek puanın, gözlenen puandan hatanın çıkartılmasıyla elde edilebileceği görülebilir. Ölçme sonuçlarına karışan hatanın miktarını tam olarak bilemeyiz ancak, hatanın miktarını istatistiksel olarak kestirmeye çalışırız. Ayrıca, ölçme sonuçlarına çeşitli kaynaklardan hata karışabilir. Hata kaynaklarının neler olduğunun bilinmesi, hatayı azaltma konusundaki çabaları destekleyebilir.  

    Gerçek Puan Kuramı, ölçmede güçlü bir modeldir ve her ölçümde hata olabileceğini kabul eder. Ölçme araç ve puanlarının güvenirliği bu kurama dayanılarak kestirilir. Bu kurama göre, "eğer, ölçme sonuçlarına hata karışmamış ise sonuçlar tamamıyla güvenilir, değilse yani, ölçme sonuçlarına karışan hata miktarı arttıkça güvenirlik düşüktür" denilebilir. Gerçek puan kuramı, ölçmeyle ilgili mevcut olan tek kuram değildir. Ölçme kuramcıları, gerçeği daha iyi yansıttığını düşündükleri birçok yeni modeli üretmektedirler.  Bahsedilen modeller bu dokümanın sınırları içinde yer alamayacak kadar karmaşıktır.

    ÖLÇME HATASININ KAYNAKLARI

    3 numaralı eşitlikte hata, gerçek puanlarla gözlenen puanlar arasındaki fark olarak tanımlanmıştı. Buna göre, ölçme sonuçlarına herhangi bir nedenden dolayı karışabilecek hata, gözlenen puanların gerçek puanlardan daha fazla sapmasına neden olacaktır. O nedenle, hatanın kaynaklarının neler olduğunun bilinmesi, gözlenen puanlara bu kaynaklardan dolayı yansıyabilecek hataları minimum düzeye indirgemek açısından doğru önlemlerin alınmasına yol gösterebilir. Hata, ölçme aracı, ölçmenin yapıldığı ortam, ölçmeyi yapan kişi, ölçme yöntemi ve ölçülen değişkenden kaynaklanabilir.

    Ölçme aracı istenen niteliklerde ( güvenirlik ve geçerlik bakımından) değilse, ölçme sonuçlarının hatalı olma olasılığı yüksek olacak demektir. Burada daha çok araçtan kaynaklanabilecek hataları önleme konusunda aracın sahip olması gereken nitelikler üzerinde durulacaktır.

    Yukarıda verilen 2 numaralı bağıntı incelendiğinde, hata ile gerçek puan arasında ters orantılı bir ilişki olduğu görülebilir. Yani, hata azaldıkça gözlenen puanlar gerçeğe yaklaşır, arttıkça gerçek puandan uzaklaşır. O halde, gözlenen puanların gerçek puanlara yaklaşmasını, gözlenen puanların güvenirliğinin artması, uzaklaşmasını ise azalması olarak yorumlayabiliriz.   Başka bir deyişle, gözlenen puanlara karışan hata ile gözlenen puanların güvenirliği arasında ters orantılı bir ilişkiden söz edebiliriz.

    Hata, hangi kaynaktan gelirse gelsin, burada üç tür hatadan söz edebiliriz, bunlar:

 

Sabit Hata

 

Sistematik Hata

 

Tesadüfi Hata

    Sabit Hata: Bir ölçmeden başka bir ölçmeye miktar olarak değişmeyen hatalardır. Terazinin her ölçümde 500 gr eksik tartması gibi. Bu durumda, ölçülen her değişken için hata miktarı tekrar edecek, ancak sabit kalacaktır.

    Sistematik Hata: Bir ölçmeden başka bir ölçmeye tekrar eden ancak, ölçülen değişkenin büyüklüğüne, boyutuna göre miktarı değişen hatalara sistematik hata denir.

Sistematik hata, aşağıdaki  örneklerde açıklandığı gibi, ölçme sonuçlarını sistematik olarak etkileyen bir faktörden dolayı oluşur. Örnek; eğer öğrencilerin test edildikleri ortamın yakınında trafik gürültüsü varsa, bu durum öğrencilerin puanını etkiler ve sistematik olarak düşüşüne neden olabilir. Yani, gürültüden etkilenme sonucunda öğrencilerin puanlarına yansıyabilecek hata, bir öğrenciden başka bir öğrenciye, gürültüden etkilenme derecelerine bağlı olarak değişiklik gösterebilir. Bu durumda ortaya çıkan hata sistematik hata türündendir. Öğrencilerin yazılı sınavlarını yeterli önlem almadan gelişi güzel puanlayan bir öğretmenin taktir ettiği puanların da hatalı olma olasılığı oldukça yüksek olacaktır. Yine bu durumda, puanlara yansıyan hata, öğrencilere göre değişiklik göstereceğinden sistematik hata olarak açıklanabilir.

    Tesadüfi (rastlantısal) Hata: Tesadüfi hata, ölçme sonuçlarını tesadüfi olarak etkileyen herhangi bir faktörlerden kaynaklanabilir. Örneğin, her insanın ruh halinin iyi olması performansını etkileyebilir. Eğer ruh hali ölçümde performansı etkiliyorsa, bu durum bazı çocuklar için gözlenen puanları yükseltebilir, bazılarınınkini ise suni olarak düşürebilir. Tesadüfi hata hakkında bilinmesi gereken en önemli noktalardan biri, bütün ölçümler  üzerinde sürekli bir etkisi olmadığıdır. Bu nedenle, tesadüfi hata ölçme sonuçlarının değişkenliğini artırırken, ortalama üzerinde fazla etki yaratmaz. Tesadüfi hata, yukarıda sözü edilen kaynaklardan herhangi biri veya birkaçından kaynaklanabilir. Ölçmeyi yapan kişinin, değişik kaynaklardan gelebilecek hataları önleme konusundaki çabaları, ölçme sonuçlarının güvenirliğini artırabilir. Başka bir deyişle, ölçme sonuçlarına rastgele karışabilecek hataları önleme gayretleri, ölçme sonuçlarının güvenirliğini artırma çabalarıyla örtüşür.

    ÖLÇME HATASININ AZALTILMASI

Ölçme sonuçlarına karışabilecek hataları nasıl azaltabiliriz? Yapılabilecek şey, test uygulanan deneklerden testin güçlüğü, uygulama ortamının onların performansını ne derece etkilediği dönütünü alarak size kılavuzluk etmesini sağlamaktır. İkinci olarak, eğer veriler bir görüşmeci tarafından toplanıyorsa, bu konuda görüşmecilerin eğitilmesidir. Üçüncü olarak,  çalışma için toplanan bilgilerin iki kere kontrol edilmesidir. Bilgisayara analiz için girilecek her bilgi iki kere kontrol edilmeli ve doğru olduğu anlaşılmalıdır. Dördüncü olarak, ölçme hatasını ayarlamak için uygun istatistiksel işlemler kullanılabilir. Hatayı kestirmek amacıyla baş vurulacak istatistiksel işlemler, verilere doğrudan uygulanabilecek basit formüllerden tutunda   hatayı ve etkilerini belirleyebilecek çok karmaşık işlemlere kadar uzanır. Daha da önemlisi, ölçme sonuçlarına karışabilecek hataların önlenebilmesi için hem ölçme aracının hem de bu araçlarla elde edilen sonuçların güvenirliğini artırmak için yapılacak işlemlerin ve alınabilecek önlemlerin bilinmesi ve bu yönde çalışmaların yapılmasıdır.

    GÜVENİRLİK KURAMI

Güvenilirliğin hem kullandığımız ölçme araçları hem de bu araçlarla elde edilen ölçümlerin kalitesiyle ilgili olduğuna girişte değinilmişti. Günlük konuşmalarımızda “güvenilir” kelimesini nasıl kullandığımıza bakarsak, bir ipucu yakalayabiliriz. Örneğin, bir makinenin güvenilir olmasından sıklıkla bahsederiz: “Güvenilir bir arabam var” gibi. ya da haberciler genellikle güvenilir kaynaklardan söz ederler. Her iki örnekte de güvenilir kelimesi “itimat edilebilir” anlamına gelir. Güvenirliği tanımlamaya çalışırken yanlış anlamalara neden olmamak için biraz daha fazla açık ve kesin olmalıyız.

Ölçme aracı geliştirme sırasında veya yapılan bilimsel araştırmalarda güvenirlik kelimesi "duyarlılık", “tekrarlanabilirlik” ya da “tutarlılık” anlamına gelir. Bir ölçme aracı, ölçülen özelikle örtüşebilecek duyarlıkta ölçme sonuçları veriyorsa, güvenilirdir. Duyarlılık, ölçme araçlarının birimiyle ilgili bir kavramdır. Örneğin, kefeli teraziye göre elektronik baskül daha duyarlı ölçme sonuçları verdiğinden güvenilirdir. Çünkü, elektronik baskülün birimleri daha küçüktür ve daha ayrıntılı ölçme sonuçları verebilir. Eğitimde kullanılan ölçme araçlarında yer alan her bir soruyu bir birim olarak kabul edersek, araçta yer alan soru sayısı arttıkça (her biri diğerinden bağımsız ayrı bir davranışı ölçmek koşuluyla) aracın ve o araçla elde edilen ölçümün duyarlığı dolayısıyla güvenirliği de artar. Ancak, ölçme araçlarının güvenirliğini kestirmek için tutarlılık konusunda kanıt aramak daha önemli bir yoldur ve aracın duyarlığını sağlamak kadar kolay değildir.

Bir ölçmenin “tekrarlanabilir” ya da “tutarlı” olmasının ne demek olduğunu biraz daha yakından inceleyelim. Burada ölçmeye X diyelim. X bir kişinin matematik başarı testindeki puanı ya da bir hastalığın şiddetinin ölçümü olabilir. Bir gözlemin ne derece tekrarlanabilir ya da tutarlı olduğunu görmek için onu iki kez ölçeriz. Aynı ölçmenin birincisini X 1 ikincisini ise X 2 ile gösterir ve ölçmeye çalıştığımız şeyin birinci ve ikinci gözlemleri sırasında değişmediğini düşünürsek, güvenirliğe nasıl ulaştığımızı anlayabiliriz. 1 numaralı eşitliğe göre, gözlenen puanın “gerçek puan" ve ölçmedeki “hata”nın toplamından oluştuğunu biliyoruz. Şunu aklımızdan çıkarmamalıyız ki, biz gözlemlediğimiz puanın (X) ne kadarının gerçek (T) veya hata (e) olduğunu bilemeyiz. Örneğin, bir öğrenci matematik testinde 85 puan almış olsun. Gözlemlediğimiz puan (X) 85'tir. Fakat gerçekte öğrenci bu puanın göstermiş olduğu başarıdan daha yüksek bir matematik bilgisine sahip olabilir. Öğrencinin gerçek matematik bilgisinin 89 (T = 89) olduğunu kabul edelim. Bu öğrenci için hata –4 (e = -4) olur. Bu ne demektir? Öğrencinin gerçek matematik bilgisi 89 iken, kötü bir gün geçirmiş, kahvaltı yapmamış, bir tartışmada bulunmuş ya da test sırasında dikkati dağılmış olabilir. Bu gibi faktörler ölçme sonuçlarına hatanın karışmasına yol açar ve öğrencinin gözlemlenen başarısının gerçek başarısından daha düşük çıkmasına neden olur.

Güvenirliğe geri dönecek olursak, eğer gözlenen puan (X) güvenilir ise, aynı kişiler üzerinde gerçekleştirilen iki ayrı ölçmenin sonuçlarının da hemen hemen aynı değeri vermesi beklenir. Neden? Çünkü, aşağıda verilen 5 ve 6 numaralı eşitlikler incelenirse, birinci ölçümün (X 1) gerçek puan (T) ve hata puanı (e 1), aynı şekilde ikinci ölçümün de (X 2) gerçek puan (T) ve hata puanından (e 2) oluştuğu ancak,  gözlenen puanlarda (X 1 ve X 2) ortak olan tek şeyin gerçek puan (T) olduğu görülebilir. Dolayısıyla, gözlemlenen her iki puanın da  (X 1 ve X 2) aynı gerçek puana (T) sahip olmaları nedeniyle bu iki puanın birbirleriyle ilişkili olduğu söylenebilir. Yani, eğer gözlemlenen nesne, insan, nitelik ya da yeteneğin her iki ölçüm sırasında da değişmediğini farz edersek, ölçme sonuçlarına karışan hata miktarı değişmiş olsa bile gerçek değerler aynı kalacaktır.

        X 1 = T + e 1                                    (5)

        X 2 = T + e 2                                    (6)

Şimdi tüm bunları da göz önünde tutarak güvenirliği daha kesin biçimde tanımlayabiliriz. Güvenirlik gerçek puanlar varyansının (Var(T)) gözlenen puanlar varyansına (Var(X)) oranıdır. Bu orantıyı şu şekilde gösterebiliriz:

Güvenirlik = Var(T) / Var(X)                            (7)

Şimdi kritik bölüme geldik. Yukarıdaki denkleme bakılırsa, kesrin alt kısmını (Var(X)) kolaylıkla hesaplayabileceğimiz görülebilir. Var(X), sadece gözlemlenen bir grup puanın varyansıdır ve varyans, puanların ortalamadan sapmalarının karelerinin toplamının puanların sayısına bölümüdür. Fakat, gerçek puanların varyansı nasıl hesaplanabilir? Gerçek puanların ne olduğunu bilmediğimizden varyansını da hesaplayamayız. Eğer, gerçek puanların varyansını hesaplayamıyorsak, güvenirliği de hesaplayamayız. Peki, bu durumda ne yapılabilir? Yapılabilecek en doğru şey, güvenirliği kestirmektir. Bu amaçla, gerçek puanlar arasındaki değişkenlik kestirilebilir. Yukarıda, aynı değişkeni iki kere ölçtüğümüzde elde ettiğimiz puanların (X 1ve X 2) sadece gerçek puanlar (T) kısmının ortak olduğunu vurgulamıştık. Bu iki gözlenen puanın (gerçek puan kuramına göre) aynı gerçek puanları (T) paylaştıkları derece birbirlerine bağlantılı iki gözlem oldukları düşünülebilir. Bu durumda, güvenirlik için X 1 ve X 2 arasındaki ortak değişkenliği, gözlenen puanlar arasındaki toplam değişkenliğe oranlayabiliriz. Böylece, gözlenen puanların varyansı içerisinden ne kadarının ortak değişkenlikten ya da hatadan kaynaklandığına ilişkin bir değer elde edebiliriz. Bunu yapmanın yolu, her iki ölçüm grubu arasındaki korelasyonu  hesaplamaktır. Korelasyon, gözlenen puanlar arasındaki kovaryansın, toplam varyansa oranıdır.

Korelasyon (r X1X2) = C x1, x2 / S x1 * S x2                (8)

Bu denkleme daha dikkatli bakılırsa, payda yer alan kovaryansın puanlar arasındaki ortak değişkenliğin bir göstergesi olabileceği görülür. Yukarıda, gözlenen puanlar (X 1 ve X 2) içinde  ortak olan tek şeyin gerçek puan  (T) olduğu vurgulanmıştı. Bu bağlamda, kovaryansın özellikle var(T)’ nin bir tahmini olduğunu söylemek mümkündür. Denklemin alt kısmı ise bir gözlemin standart sapmasının başka bir zamandaki diğer gözlemin standart sapmasıyla çarpımını ifade ettiğinden, gözlenen puanların varyansı olarak kabul edilebilir (gerçek puan kuramına göre bu iki ölçümün aynı olduğu varsayılacağından S x1 ile S x2'nin çarpımı bir standart sapmanın kendisiyle çarpımı anlamına gelir ve bu değer ise varyansı verir).  Bu paragraf dikkatli okunursa, aynı ölçümün iki gözlemi arasındaki korelasyonunun, güvenirliğin bir tahmini olduğu görülebilir. Aşağıda, güvenirliğin kestirilmesiyle ilgili yöntemler üzerinde durulmaktadır. Bu yöntemler incelenirse, korelasyonun güvenirlik kestirmede önemli bir rol oynadığı görülebilir. (Güvenirlik kestirme yöntemlerini daha iyi anlayabilmeniz için, korelasyonun ne olduğunu, çeşitli değişken grupları arasında korelasyon hesaplamak için hangi tekniklerin uygun düşebileceğini istatistik kitaplarından öğrenmenizde yarar vardır). 

Şimdi sıra bazı sonuçlara varmaya geldi. Buraya kadar yapılan tartışmadan anlaşılacağı gibi, güvenirliğin kestirilmesi için ölçümlerin tekrarına veya en azından tekrarı olabilecek bazı uygulamalara gereksinimimiz olduğu söylenebilir. Ölçümlerin tekrarı ya da tekrarı olabilecek uygulamalara dayanarak güvenirliğin nasıl kestirileceği  aşağıda  Güvenirlik Kestirme Yöntemleri bölümünde ele alınmıştır.

    Güvenirlik Kestirme Yöntemleri

    Güvenirlik Kuramı işlenirken güvenirliği tam olarak hesaplamanın mümkün olmadığını, bunun yerine güvenirliği kestirmek zorunda olduğumuza değinmiştik. Burada, başlıca güvenirlik kestirme yöntemleri tanıtılacak ve bu yöntemlerin güçlü ve zayıf noktalarına değinilecektir.  Bu yöntemler:

    I. Test-Tekrar Yöntemi (Test- Retest Reliability): Testin, aynı denekler üzerinde, belli bir zaman dilimi içerisinde ve belli koşullar sağlanarak tekrar uygulanması işlemidir. Bu yaklaşım, iki uygulama arasında geçen zaman içerisinde ölçülen özelikte önemli değişikliğin olmadığı sayıltısına dayanır. Bu sayıltının karşılanabilmesi için iki ölçüm arsında geçen süre önemlidir. Biliyoruz ki, bir şeyi iki defa ölçersek, iki gözlem arasındaki korelasyon, kısmen iki ölçme zamanı arasında geçen süreden etkilenebilir. Yani, süre ne kadar kısalırsa korelasyon o kadar yüksek; süre ne kadar uzarsa korelasyon da o kadar düşük çıkabilir. Bunun nedeni iki gözlemin geçen zamanla bağlantılı olmasıdır-süre kısaldıkça hatalara katkıda bulunan daha çok benzer etkenler olabilir. Bu nedenle, iki uygulama arasında geçen süre, ne hatırlanacak kadar kısa ne de testle ölçülen özelikler bakımından öğrencilerin değişebileceği kadar uzun tutulmalıdır. Genellikle, testin tekrarı için 10 ile 20 günlük bir sürenin yeterli olacağı düşünülür.  

    II. Eşdeğer (alternatif) FormlarYöntemi ( Parallel Forms Reliability): Eşdeğer formlar yöntemi uygulanış biçimiyle test-tekrar yöntemiyle aynıdır ancak, güvenirlik konusunda  aynı yapıyı ölçtüğü düşünülen iki eşdeğer form arasındaki uyu ma dayanır. Eşdeğer formlar yöntemi, aynı testin tekrar uygulanmasının mümkün olmadığı durumlarda kullanılır.  Bunu yapmanın bir yolu, aynı yapıda birçok soru üretmek ve bu soruları rasgele iki parçaya ayırarak eşdeğer formlar oluşturmak ve aynı gruba iki farklı zamanda uygulamaktır. Bu iki eşdeğer form arasındaki korelasyon güvenirliğin tahmini olarak kullanılır. Bu yöntemde önemli sorunlardan birisi, aynı yapıda çok sayıda madde üretilmesi gereğidir ve bu her zaman kolay olmayabilir. İkinci temel sorun ise, eşdeğer formlar yöntemi, formların ölçülen özellikler bakımından eşdeğer veya eşit olduğu sayıltısına dayanır. Bu sayıltının karşılanması amacıyla formlar çok sayıda madde arasından random örnekleme yoluyla seçilerek oluşturulmaya çalışılsa da, bu işlem sayıltının karşılanması için yeterli olmayabilir. Eşdeğerliğin kanıtlanması için başka istatistikler işlemlere gereksinim duyulur ki, bu işlemler burada değinilmeyecek kadar karmaşık ve zahmetlidir. Eşdeğer formlar yöntemi bir yönüyle aşağıda açıklanan test-yarı yöntemine de benzetilebilir. En önemli farkları, eşdeğer formlar yönteminde formlar eşdeğer olarak yapılandırılır ve iki form birbirinden bağımsız olarak uygulanır. Ayrıca, eşdeğer formlar, öntest ve sontest kullanılan deneysel araştırma modellerinin iç geçerliğini artırmada önemli bir avantaj sağlayabilir.  
 

    III. Test-Yarı Yöntemi ( Split- Half Reliability): Test-yarı yöntemi, test bir defa uygulandığında güvenirlik kestirme yöntemlerinden biridir. Bu yöntemde, eldeki test bir defa uygulanır ve rastgele iki eşit yarıya ayrılmış testin her bir yarısı için öğrencilerin toplam puanları hesaplanır. Her bir alt test için hesaplanan puanlar arsındaki ilişki iki alt test arasındaki tutarlılığı verir. Bu şekilde hesaplanan tutarlılık katsayısını toplam testin güvenirliği gibi yorumlamak doğru olmaz. O nedenle, iki yarı arasındaki tutarlılığın toplam teste genellenmesi gerekir. İki yarı arasındaki tutarlılığı toplam testin güvenirliği için genellerken alt testlerin varyanslarının eşit olup olmamam durumuna göre hareket edilmesi gerekir. Burada, toplam testin rastgele iki eşit yarıya ayrılmasının nedeni, her bir yarının diğeriyle aynı amaca hizmet etme olasılığını artırmaktır.

    IV. İç Tutarlılık Katsayısı ( Internal Consistency Reliability): İç tutarlılık katsayısı, test bir defa denendikten sonra deneme sonuçlarına dayanarak maddeler arasındaki uyumun düzeyine ilişkin bilgi vermeyi amaçlar. Genellikle tek boyutlu yapılar için hesaplanması uygun düşer. Çünkü, temel amaç, diğerleriyle daha çok uyum gösteren maddelerden oluşan bir test geliştirmekse, ortak amaçlara hizmet eden maddelerin bir arada olması testin kendi içinde tutarlı olmasını sağlar. Eğer test kendi içinde tutarlıysa, o testle güvenilir ölçümler elde edilebilir. Bir testin iç tutarlılık katsayısını kestirme, testin madde istatistiklerinin hesaplanıp hesaplanmadığına bağlı olarak değişebilir. Eğer, madde istatistikleri belli olan test için iç tutarlılık katsayısı hesaplanacaksa KR-20, ham puanlardan hareketle iç tutarlılık katsayısı hesaplanacaksa KR-21 olarak bilinen bağıntılardan yararlanılır. Test maddeleri ölçülen özelikler bakımından heterojen bir dağılım gösteriyorsa, bu durumda iç tutarlılık katsayısı yerine test-yarı yöntemiyle güvenirliğin kestirilmesi daha isabetli olabilir. Bunların dışında, madde-madde ve madde-test korelasyonlarının ortalamalarını iç tutarlılık katsayısı olarak yorumlayan olmakta ancak, korelasyonların ortalamasını almak matematiksel olarak uygun olmadığından bu işlemin doğru bir işlem olduğunu söylemek mümkün görünmemektedir.

    Cronbach Alpha (α) Güvenirlik Katsayısı: Alpha güvenirlik katsayısı, yanıtları iki katagorili ( dikatomik) olmayan dereceleme niteliğindeki ölçeklerin iç tutarlılık katsayısını hesaplamada kullanılan bir yöntemdir ve KR-20 ve KR-21'in daha genel halidir. Burada, önce bir yarının güvenirliğini hesaplayıp, daha sonra diğer yarının maddelerini yine tesadüfi olarak iki parçaya ayırdığımızı ve tekrar bir yarının güvenirliğini hesapladığımızı ve tüm muhtemel yarıların güvenirliğini hesaplayana kadar devam ettiğimizi düşünelim. Cronbach Alpha, matematiksel olarak tüm muhtemel test-yarı tahminlerinin ortalamasına eşittir. Ancak, bu şekilde hesaplama sonsuza kadar gidebilir.  Alpha (α) güvenirlik kestirme yöntemi, tüm muhtemel yarıların korelasyonlarının ortalamasına eşit olmasına rağmen, bunu asla bu şekilde hesaplamadığımızı unutmamak gerekir. Bazı zeki matematikçiler (örneğin Cronbach) sonuca en hızlı şekilde ulaşmak için bir yol geliştirmişlerdir. Şu şekilde:
 

Alpha (α) = K/ K-1*(1-(∑S j 2/S x 2))                        (9)

                K  : Madde sayısı

                S j 2: Madde varyansı

                S x 2: Test ham puanları varyansı

    *Ayrıca, özellikle gözlem ölçeklerinin veya yapılan gözlemlerin güvenirliğini kestirmek amacıyla, Yargılayıcılar Arası ( inter- rater reliability) ya da Gözlemciler Arası ( inter- observer reliability)  Güvenirlik olarak bilinen güvenirlikkestirme yöntemlerinden yararlanılır.

    Kimi özelikler (örneğin psiko-motor davranışlar) bir gözlemci ya da bir yargıcının doğrudan gözlemi sonucunda ölçülebilir. Bu durumda, gözlem işini bir kişi ya da kişilerin yapması mümkün olabilir. Eğer, gözlem doğrudan ve bir kişi tarafından yapılıyorsa, elde ettiğiniz sonuçların güvenilir ya da tutarlı olduğu konusunda endişelenme zorunluluğu hissetmeliyiz. Çünkü, gözlem sırasında kolayca zihnimiz karışabilir, hayal kurarız, gözlemleri yanlış yorumlayabiliriz ya da tekrar eden işleri yapmaktan usanabiliriz. O nedenle, gözlemin ya da gözlem sonuçlarının güvenirliğini kanıtlamak durumundayız.

    Bir özeliğin gözlenmesi konusunda, güvenirlik için kanıt ararken izlenebilecek çeşitli yollar vardır. Bunlardan biri, iki gözlemci kullanmak ve gözlemciler arasındaki tutarlılığı kontrol etmektir. Doğrusu, bu işlemi asıl gözleme geçmeden önce gerçekleştirmektir. Yani, yapılacak olan gözlemin tutarlılığı dolayısıyla güvenirliği için  önceden deneme yapmak ve deneme sonuçlarını uygun istatistiksel teknikler yardımıyla karşılaştırmaktır. Çoğu zaman gözlem sonuçları "gözlendi/gözlenemedi, evet/hayır, yeterli/yetersiz" gibi dikatomik (iki katagoroili) olarak kaydedilebileceği gibi "tamamen uygun ...............kesinlikle uygun değil" gibi örneğin 5 dereceli bir ölçek üzerine de kaydedilerek elde edilebilir. Birinci durumda, gözlemciler ya da yargıcılar arasındaki uyumu (gözlemciler arası tutarlığı)  Kappa istatistiği( phi-dörtlü korelasyon hesaplama tekniği gibi) olarak bilinen istatistikten; ikinci durumda ise pearson çarpım momentler korelasyon hesaplama tekniğinden yararlanarak kestirmek mümkündür.

    Sonuç: Çalışmalarınızda kullanacağınız ölçme araçlarının güvenirliğini kestirmek için hangi yöntemi seçeceğinize, ölçme amacınızı, olanaklarınızı, karşılamak durumunda olduğunuz sayıltıları, deneme gruplarınızın yapısını, verilerin türünü dikkate alarak karar verebilirsiniz. Önemli olan güvenirlik konusunda dayanakları sağlam olan kanıtlar elde etmektir. Bu nedenle kimi zaman gerekirse birden fazla yönteme de başvurabilirsiniz.

    Bunların dışında, bir ölçme aracının veya elde edilecek puanların güvenirliğini artırmak için alınması gereken önlemler şunlardır:
1. Programın içeriğine uygun olmak koşuluyla, bir sınavda kullanılacak soru sayısı artırıldıkça elde edilecek toplam puanın güvenirliği de artabilir.
2. Bir sınavda kullanılacak soruların açık, anlaşılır ve kesinlikle cevaplandırılır nitelikte olması toplam puanın güvenirliğini artırır.
3. Cevaplayıcıların her soruyu dikkatli ve hızlı bir biçimde cevaplandırmaya teşvik edilmesi puanların güvenirliğini artırabilir.
4. Sınav süresinin, her sorunun cevaplandırılabilmesine olanak sağlayacak şekilde ayarlanması puanların güvenirliğini artırabilir.
5. Sıvada kullanılacak soruların, öğrencilerin yaklaşık yarısı tarafından doğru cevaplandırılabilecek güçlükte olması ölçme aracının güvenirliğini artırabilir.
6. Her sınavın (özellikle yazılı ve sözlü sınavların) objektif yollarla puanlanması puanların güvenirliğini artırabilir.
7. Ölçme sonuçlarının duyarlı bir biçimde kaydedilmesi güvenirliğin daha doğru olarak kestirilmesine olanak sağlar.

 

Geçerlik, bir ölçme aracının ölçmek istediği amaca hizmet etmesi, ölçme sonuçlarına ölçülen değişkenlerin dışında başka değişkenleri karıştırmamasıyla ilgilidir.

Bu konuda kanıt arama işi GEÇERLİK çalışmalarının kapsamını oluşturur.

 

Tanım incelendiğinde

*Bir ölçme aracının ölçmek istediği amaca hizmet etmesi, onun hedef davranışlarla tutarlı ölçümler vermesidir. Bunun sağlanabilmesi için aracın kapsamının iyi örneklendirilmesi gerekir.
*Ölçme aracını oluşturan soruların ölçülen davranışlar evrenini temsil gücü o aracın KAPSAM GEÇERLİĞİNİ verir.
*KAPSAM GEÇERLİĞİ, aynı zamanda araçta yer alan soruların davranışlarla tutarlılığı anlamına da gelir.
 

Geçerliği çalışılan bir ölçme aracının, geçerliği önceden kanıtlanmış başka bir araçla karşılaştırıldığında paralel sonuçlar vermesi, aracın ÖLÇÜT GEÇERLİĞİ olduğu anlamına gelir.
Geçerliği Etkileyen Faktörler:
1. Güvenirlik
2. Sistematik Hata (Yanlılık)
3. Ölçme Yöntemi
4. Sorunun Niteliği (sorunun geçerliği oranında, soruların kapsayıcılığı oranında araç geçerli olabilir),
5. Uygulama hataları,
6. Kopya, ipucu, tahminle doğru cevabı bulma olasılığının fazlalığı,
7. Sınavın ve araçların güçlüğü geçerliği etkiler.
8. Sınavın yıldan yıla değiştirilmeden ya da revize edilmeden kullanılması ölçme araçlarının veya puanların geçerliklerine etki eder.
 

Önemli Not : Ölçme değerlendirme teknikleri;ölçme, geçerlilik, güvenirlilik ile ilgili o kadar çok email alıyorum ki bunların herkes tarafından anlaşılabilmesi için ortak bir dil kullanmada zorluk çekiyorum.Dokuz Eylül Üniversitesi Buca Eğitim Fakültesi, Eğitim Bilimleri Bölümü, Eğitim Programları ve Öğretim Anabilim Dalı'nda Yrd. Doç.Dr. olarak görev yapan Sayın İrfan YURDABAKAN’ın kendi sitesinde hazırlamış olduğu bu metnin ilgi duyanlara faydalı olacağı kanısındayım. Emeğine ve ellerine sağlık.

 

ÖLÇME VE DEĞERLENDİRME