Test Teorileri: TCT Ve IRT

Testler psikolojide ölçüm aracı olarak kullanılır. Kavrama biraz daha yaklaşmak ve tam olarak kesin olmamak için, tıpkı uzunluğu ölçmek için metreyi kullandığımız gibi, zekayı, hafızayı, dikkati ölçmek için bir test kullanabiliriz… Bir eylem ile diğeri arasındaki farklardan biri şudur: testlerin oluşturulması o kadar kolay değil, çok azına ek olarak uygulanması çok kolay.
Ayrıca tek bir ölçüm bir cismin hacmi hakkında konuşmamıza izin vermediği gibi, tek bir testin uygulanması da bir teşhis koymamıza veya bir müdahale önermemize izin vermez. Bu nedenle testler değerlendirme için önemlidir ancak belirleyici değildir.
Psikoloğun en önemli rolü oynadığı yer burasıdır: Bir şekilde , müdahalenin planlanmasına yol açan tutarlı bir değerlendirmeyi şekillendirmek için testten ve diğer kaynaklardan elde ettiği bilgileri kullanmak zorundadır . Başka bir deyişle, profesyonelin kalitesinin en belirgin olduğu yer, farklı kaynaklardan elde edilen sonuçların entegre edilmesidir. Bilgiyle değil, aynı zamanda yılların tecrübesiyle elde edilen bir uzmanlıktan bahsediyoruz.
Test teorilerinin kısa tarihi
Testlerin kökeni genellikle MÖ 3000 yıllarında Çin imparatorları tarafından yapılan testlerde belirtilir. Böylece bunlar, hizmetine girecek olan görevlilerin mesleki yeterliliklerini değerlendirme amacını taşıyordu. (1)
Mevcut testler en yakın kökenlerini Galton’un (1822-1911) laboratuvarında gerçekleştirdiği testlerde bulur. Bununla birlikte, 1890’da zihinsel test terimini ilk kullanan James Cattell’dir. Bu ilk testler, insanın bilişsel kapasitesini çok fazla öngörmediği için, Binet ve Simon gibi araştırmacılar (1905) yeni ölçek, yargılama, anlama ve akıl yürütme gibi yönleri değerlendirmek için bilişsel testleri görevlendirir.
Binet ölçeği, bireysel ölçekler geleneğini başlatır. Bilişsel testlerin yanı sıra kişilik testlerinde de büyük gelişmeler var.

Test teorileri neden gereklidir?
Üretilen tüm gelişmeler karşısında, testleri doğrudan etkileyen ölçme teorileri (test teorileri) geliştirilmeye başlandıkları araçlar olarak ortaya çıkmaktadır. Ölçmelerini istediğimiz şeyi ölçen ve bunu mümkün olan en az hatayla yapan araçlar üretme endişesiyle psikometri ortaya çıkıyor. Herhangi bir test veya ölçüm aracından talep edecek, geçerli ve güvenilir olmakla övünen bir psikometri,
Güvenilirliğin , ölçüm işlemi tekrarlandığında ölçümlerin kararlılığı veya tutarlılığı olarak anlaşıldığını hatırlayın . Başka bir deyişle, bir test, ölçülen şeyde aynı seviyeye sahip iki konuyu -veya aynı konuyu farklı durumlarda- ölçerken sonuçları ne kadar iyi tekrarlarsa o kadar güvenilir olacaktır. Geçerlilik , deneysel kanıtların ve teorinin test puanlarının yorumlanmasını destekleme derecesini ifade eder . (iki)
Bu nedenle, bu tür bir aracı analiz etmek ve oluşturmaktan bahsettiğimizde iki ana test teorisi veya yaklaşımı vardır: klasik test teorisi (CTT) ve madde yanıt teorisi (IRT).
Klasik test teorisi (TCT)
Bu, testlerin oluşturulmasında ve analizinde baskın teoridir. Kase: Bu paradigmanın minimum gereksinimlerini karşılayan testler oluşturmak nispeten kolaydır. Testin kendisini yukarıda bahsedilen parametreler açısından değerlendirmek de nispeten basittir: güvenilirlik ve geçerlilik.
Kökeni 20. yüzyılın başlarında Spearman’ın eserlerine dayanmaktadır. Daha sonra, 1968’de araştırmacılar Lord ve Novick, bu teorinin yeniden formüle edilmesini gerçekleştirdiler ve yeni IRT yaklaşımının yolunu açtılar.
Bu teori klasik lineer modele dayanmaktadır . Bu model Spearman tarafından öne sürülmüştür ve bir kişinin bir testten aldığı, ampirik puan dediğimiz ve genellikle X harfi ile gösterilen puanın iki bileşenden oluştuğunu varsaymaktan ibarettir . (iki)
Bir yanda testte deneğin gerçek puanını (V), diğer yanda ise (e) hatasını buluyoruz. Aşağıdaki gibi ifade edilir: X = V + e.
Spearman bu teoriye üç varsayım ekler:
- İlk olarak, gerçek puanı (V) ampirik puanın matematiksel beklentisi olarak tanımlayın : Bu, bir kişinin bir testte sonsuz sayıda alması durumunda alacağı puandır.
- Gerçek puanların miktarı ile bu puanları etkileyen hataların boyutu arasında bir ilişki yoktur .
- Son olarak, bir testteki ölçüm hataları, farklı bir testteki ölçüm hatalarıyla ilgili değildir .
Bu teoriyi tamamlamak için Spearman, paralel testleri aynı şeyi ancak farklı maddelerle ölçen testler olarak tanımlar.
Klasik yaklaşımın sınırlamaları
İlk sınırlama, bu teoride, ölçümlerin kullanılan alete göre değişmez olmamasıdır. Bu, bir psikolog üç kişinin zekasını her biri için farklı bir testle değerlendirirse, sonuçların karşılaştırılabilir olmadığı anlamına gelir. Ama bu neden oluyor?
Pekala, üç ölçüm aletinin sonuçları aynı ölçekte değil: her testin kendi ölçeği var. Örneğin farklı zeka testleri ile değerlendirilen X kişinin zekasını karşılaştırabilmek için doğrudan testten alınan puanların başka ölçeklere dönüştürülmesi gerekmektedir.
Bununla ilgili sorun şu ki, puanları ölçeğe dönüştürerek , farklı testlerin ölçeklerinin düzenlendiği normatif grupların karşılaştırılabilir olduğunu varsayıyoruz – aynı ortalama, aynı standart sapma – pratikte garanti edilmesi zor. (1) Böylece, yeni IRT yaklaşımı bu gerçeğe göre büyük bir ilerlemeyi temsil ediyordu. Böylece IRT, farklı araçlar kullanılarak elde edilen sonuçların aynı ölçekte olmasını sağlayacaktır.
Bu yaklaşımın ikinci sınırlaması, testlerin özelliklerinin, onu tahmin etmek için kullanılan kişilere göre değişmezliğinin olmamasıdır. Bu nedenle, TCT çerçevesinde, testlerin önemli psikometrik özellikleri, onları hesaplamak için kullanılan örneklem türüne bağlıdır. Bu, IRT yaklaşımında da kısmen de olsa çözüm bulan bir gerçektir.

Madde Tepki Kuramı (MTK)
Madde yanıt kuramı (ÖTÖ), klasik test kuramının bir tamamlayıcısı olarak doğmuştur. Başka bir deyişle, TCT ve IRT aynı testi değerlendirebilir ve ayrıca her bir madde için bir puan veya alaka düzeyi belirleyebilir ve bu da bize her kişi için farklı bir sonuç verebilir. Öte yandan, IRT’nin bize çok daha iyi kalibre edilmiş bir araç vereceğine işaret ederek, sorun bu paradigmanın çok daha yüksek bir maliyet ve uzman profesyonellerin katılımı ile ilişkilendirilmesidir.
IRT’nin birkaç varsayımı vardır, ancak belki de en önemlisi bize herhangi bir ölçüm aracının bir fikir doğrultusunda olması gerektiğini söyler: Öğelerin ölçtüğü değişkenin değerleri ile onları doğru yapma olasılığı arasında işlevsel bir ilişki vardır . Bu fonksiyon, Öğe Karakteristik Eğrisi (ICC) olarak adlandırılır. O zaman ne zannediyoruz?
Eh, dışarıdan çok mantıklı görünen ve TCT’nin değerlendirmediği bir şey. Örneğin, en zor maddeler yalnızca en zeki insanların cevaplayabildiği maddeler olacaktır. Öte yandan, herkesin iyi yanıtladığı bir madde, ayrım yapma gücü olmayacağı için buna değmez. Başka bir deyişle, herhangi bir bilgi vermez. Bu, TRI tarafından önerilen devrimin sadece küçük bir taslağıdır.
Bir ölçüm modeli ile diğeri arasındaki farkları biraz daha iyi görmek için José Muñiz’in (2010) tablosunu referans olarak alabiliriz:
Tablo 1. TCT ve MTK arasındaki farklar (Muniz, 2010)
Bakış açıları | TCT | TRI |
modeli | Doğrusal | doğrusal olmayan |
varsayımlar | Zayıf (veriler tarafından karşılanması kolay) | Güçlü (veriler nedeniyle karşılanması zor) |
Ölçüm değişmezliği | Yapma | Evet |
Test özelliklerinin değişmezliği | Yapma | Evet |
Değerlendirme ölçeği | Testte 0 ile maksimum arasında | Sonsuz |
Vurgu | Ölçek | Kalem |
Öğe-test ilişkisi | Belirtilmemiş | Öğe karakteristik eğrisi |
Öğelerin açıklaması | Zorluk ve Ayrımcılık endeksleri | a, b, c parametreleri |
ölçüm hataları | Tüm numune için ortak ölçüm hatası | Bilgi Özellikleri (beceri seviyesine göre değişir) |
Örnek boyut | Yaklaşık olarak 200 ila 500 denek arasındaki örneklerle iyi çalışabilir. | 500’den fazla konu önerilir |
Her iki test teorisi de bu şekilde ilişkilidir. Neredeyse çağdaş olmasına rağmen, IRT’nin, TCT’nin geliştirebileceği sınırlamalara veya sorunlara bir yanıt olarak doğduğu açıktır. Bununla birlikte, psikometrinin bu alanında araştırmaların daha kat etmesi gereken uzun bir yol olduğu açıktır.