ASSESMEN dan EVALUASI
(translate)
Oleh:
KETUT
EVI SRIWINDAYANI 1211021058
/ IV.B
JURUSAN
TEKNOLOGI
PENDIDIKAN
FAKULTAS ILMU
PENDIDIKAN
UNIVERSITAS PENDIDIKAN GANESHA
SINGARAJA
2014
INFORMASI KUANTITATIF 345
Informasi
organisasi membutuhkan begitu penting sistem pengarsipan informasi. Pertimbangkan informasi untuk
setiap metode pengumpulan data harus
disimpan dan bagaimana format
untuk penyimpanan itu. Kontrol informasi membutuhkan jaminan bahwa tidak ada yang hilang, diabaikan, yang dirilis sebelum waktunya, atau digunakan dengan tidak melanggar kebijakan evaluasi atau hak asasi manusia. Sebagai manajer informasi, evaluator memiliki
tanggung jawab untuk melihat bahwa informasi yang dikumpulkan terjaga. Staf yang memiliki
akses ke data harus benar-benar terlatih
dalam prosedur untuk penyimpanan,
pelepasan, dan kerahasiaan. Cek informasi memberikan
jaminan bahwa informasi kuantitatif
dan kualitatif dicatat secara akurat.
Sampel informasi harus
dicek ulang untuk coding akurasi. Konfirmasi dan
pemeriksaan harus digunakan untuk
mengurangi salah tafsir.
Penyimpanan dan pengambilan
informasi dapat terjadi baik dalam
file komputer atau dalam file
data mentah. Data mentah harus disimpan di ruang penyimpanan terkunci dan disimpan untuk setidaknya tiga tahun. Tindak
lanjut studi, reanalyses, dan pertanyaan tentang evaluasi
semua bisa memerlukan penggunaan data mentah. Jika menggunakan file data mentah, mekanisme
yang tepat untuk pengambilan harus
direncanakan.
DESAIN UNTUK MENGUMPULKAN PENYEBAB DAN INFORMASI DESKRIPTIF
Penyalahgunaan
desain eksperimental telah sah dikritik
(Lincoln & Guba,
1985; Patton, 1986; House, 1990; Johnston
& Swift, 1994),
namun kami tidak setuju dengan mereka yang berpendapat bahwa paradigma eksperimental
tidak dapat diterapkan dalam evaluasi
program.
Sebuah desain
eksperimental atau quasi-eksperimental dapat tepat ketika tujuan utama dari evaluasi ini adalah untuk menjawab
pertanyaan-pertanyaan dari efektivitas
dengan membandingkan hasil program
yang dicapai oleh satu program dengan program lain yang
sedang aktif dianggap sebagai alternatif tive. Keputusan
tersebut terjadi dengan frekuensi
relatif di sektor publik. Kepala
bertanya, "Haruskah kita melanjutkan pendekatan lama phonics-berbasis untuk
membaca atau harus kita lanjutkan dengan pendekatan bahasa yang sama sekali baru ?" Administrator kesehatan
bertanya, "Apakah program outreach baru untuk
remaja hamil, dirancang untuk
mendorong perawatan kehamilan dini,
lebih berhasil daripada metode lama?"
Untuk membuat pilihan ini, kepentingan para pemangku tersebut
ingin informasi yang membandingkan
hasil dari dua program secara bertanggung jawab. Program memiliki waktu untuk "bekerja
keluar Kinks" dan evaluasi formatif
telah digunakan untuk menggambarkan
tindakan Program dan
hasil dan bekerja untuk perbaikan. Tapi, setelah
periode ini pengujian dan merevisi untuk memaksimalkan model, studi dampak mungkin tepat untuk membantu administrator dan para pemangku kepentingan lainnya. Desain seperti itu bukan
cara yang 'ajaib
atribut kausalitas. Tidak ada desain benar-benar
dapat membuktikan kausalitas.
PEDOMAN PRAKTIS UNTUK MELAKUKAN DAN
MENGGUNAKAN EVALUATION 346
Desain ini,
bersama dengan bangunan teori dan pengumpulan informasi lainnya. bisa sangat membantu dalam menunjukkan efek dari berbagai program. Desain eksperimental, jika memungkinkan, lebih baik dari pada desain kuasi-eksperimental karena mereka dapat menghadapi
ancaman lebih untuk validitas
internal penelitian. Desain eksperimental termasuk
pre-post dan desain posttest-only. Masing-masing desain ini melibatkan secara acak menugaskan
peserta program ke grup. Melalui penugasan acak dalam jumlah yang memadai orang
untuk masing-masing kelompok, desain eksperimen memaksimalkan peluang bahwa
kelompok-kelompok yang sama pada banyak faktor yang dapat mempengaruhi respon
mereka terhadap program, yaitu, karakteristik dan sikap individu, sejarah masa
lalu, hal-hal yang terjadi di mereka hidup saat ini, dan seterusnya. Sementara
individu dalam kelompok tidak sama, kelompok secara keseluruhan dipandang
sebagai equivalen.
Posttest
adalah
hanya desain yang paling rumit dari desain eksperimental
dan membutuhkan hanya menggunakan tabel nomor acak (atau angka acak yang
dihasilkan komputer) untuk menetapkan peserta untuk dua kelompok (atau lebih, jika lebih perbandingan yang diinginkan)
dan mengumpulkan informasi setelah program ujung (posttest)
untuk menentukan apakah perbedaan
terjadi. Nama desain,
posttest-only, tidak menentukan ukuran yang akan digunakan. Langkah-langkah pasca perawatan bisa survei, wawancara,
observasi, tes, atau tindakan lain yang dianggap sesuai. Istilah "posttest-only"
hanya merujuk pada waktu di mana informasi akan ia
kumpulkan. Tidak ada informasi pretest
dikumpulkan dengan desain posttest-hanya karena diasumsikan
kedua kelompok adalah sama karena tugas acak individu
atau unit (kantor,
sekolah, ruang kelas) untuk program atau perawatan.
The pre-post
design digunakan ketika ukuran pretreatment dapat
menyediakan informasi yang berguna. Sebagai contoh, jika kelompok-kelompok
kecil, mungkin ada kekhawatiran tentang kesetaraan mereka. Sebuah pretest
dapat membantu mengkonfirmasi kesetaraan mereka, meskipun hanya pada langkah-langkah yang dikumpulkan. Jika ada kekhawatiran bahwa banyak peserta mungkin drop out dari program ini, dan dengan demikian nilai pada posttest mungkin tidak mewakili
kelompok-kelompok yang setara, skor
pretest dapat digunakan untuk menguji perbedaan kedua kelompok sebagai akibat dari putus sekolah. (Terputus-putus akan menjadi perhatian yang sah dalam mengevaluasi program pelatihan bagi para pengangguran,
tapi mungkin tidak akan menjadi
perhatian dalam program selama
sebulan untuk siswa kelas empat).
Pretest mobil memberikan
informasi yang berguna dengan kedua
kelompok kecil.
Banyak menggunakan
pretest sebagai tolok ukur untuk melaporkan perubahan yang telah occurre pada mereka yang
berpartisipasi dalam program ini dari
sebelum program hingga tuntas Laporan ini menarik bagi para kepentingan pemangku. Namun, pre-post perbandingan dapat
menyesatkan karena perubahan dari pra untuk mengirim juga
termasuk patut. Faktor-faktor
dalam kehidupan peserta (misalnya, pematangan, belajar
lainnya, dan acara intervenini). Sebaliknya, postmeasure dari kelompok
pembanding umumnya perbandingan
yang tepat. Jika keputusan harus
dibuat adalah apakah untuk
memberikan no a.
INFORMASI KUANTITATIF 347
Konvensi,
dan para kepentingan pemangku harus
fokus pada perbedaan antara skor
posttest dari dua kelompok. Rata-posttest dari kelompok
pembanding mewakili apa kelompok
perlakuan akan tercapai jika mereka telah ditugaskan untuk pengobatan
itu. Pilihan nyata
bagi para pemangku kepentingan antara
satu program dan satu lagi, yang diwakili oleh skor pos dari dua kelompok, bukan
antara negara mereka sebelumnya
dan negara mereka saat ini. Jika, pada kenyataannya, pilihan harus dibuat adalah
antara ada program dan salah satu
yang ada atau baru, kelompok
pembanding dapat dibangun untuk tidak
menerima pengobatan. Skor posttest dari compari ini kelompok anak
kemudian akan mencerminkan bagaimana
peserta dalam kelompok pengobatan
akan berubah jika mereka tidak menerima perawatan sama sekali.
Menanggapi orang yang berpendapat bahwa percobaan
perbandingan tidak layak dalam
studi lapangan, Masak dan Campbell (1979) daftar
beberapa situasi ketika percobaan acak atau
kuasi-eksperimen yang sepenuhnya tepat dan mungkin.
·
Ketika
lotere atau gambar kesempatan lain diharapkan
·
Ketika permintaan melebihi pasokan
·
Ketika sebuah inovasi tidak
dapat ia menyampaikan di semua
unit sekaligus
·
Bila unit
percobaan dapat ia sementara terisolasi
·
Bila unit
percobaan secara spasial terpisah
atau komunikasi interunit rendah
·
Ketika perubahan diamanatkan
dan solusi tidak diketahui
·
Ketika dasi dapat
dipecah
·
Ketika beberapa orang menyatakan tidak
ada preferensi di antara alternatif
Banyak yang berpendapat
terhadap tugas acak untuk pengobatan secara
etis. Kekhawatiran tersebut bisa sangat sah. Seringkali
program-program baru telah direncanakan
dengan hati-hati, memiliki landasan teoritis yang kuat, dan menawarkan janji besar untuk berpartisipasi. Namun, kita sering gagal untuk mempertimbangkan isu-isu etis yang terlibat
dalam gagal untuk mempelajari
pengobatan secara menyeluruh. Apakah etis untuk mengekspos orang untuk perawatan atau
program yang mungkin, dalam
pelaksanaannya, kurang berhasil
dalam mencapai tujuan daripada
metode yang diterima saat ini? Apakah benar untuk meningkatkan harapan mereka yang membutuhkan dan kemudian lari
mereka dengan metode yang belum teruji? Dalam waktu penurunan sumber daya bagi
mereka yang membutuhkan, apakah etis untuk melanjutkan pengeluaran pada metode teruji
ketika sumber daya tersebut dapat digunakan untuk secara efektif memenuhi kebutuhan dengan cara terbukti lainnya? Tidak
ada jawaban yang mudah untuk pertanyaan-pertanyaan
ini. Konsekuensi dari pengacakan
perlu dipertimbangkan dengan hati-hati
untuk setiap keadaan. Apa saja risiko untuk masing-masing
kelompok? Berapa banyak kita tahu
tentang pengobatan baru? Tentang
tua? Berapa lama eksperimen
akan berlangsung? Dalam situasi apa
bisa itu dihentikan dan pengobatan yang lebih baik dikirimkan ke semua? Dennis dan Boruch (1989) menyajikan
satu set kondisi ambang batas yang harus dicapai sebelum
mempertimbangkan percobaan acak.
Sementara kondisi mereka diterapkan untuk negara-negara berkembang, mereka dapat dengan
mudah diekstrapolasi untuk pengaturan
lainnya. Passamani (1991) memberikan pembahasan bijaksana etika tugas acak.
PEDOMAN PRAKTIS UNTUK MELAKUKAN EVALUASI
348
Untuk
informasi lebih lanjut tentang pelaksanaan
desain eksperimental di lapangan, pengaruhnya terhadap validitas konstruk, dan isu-isu etika dan pribadi yang
dihadapi oleh evaluasi dan staf
program dalam desain tersebut,
lihat Conrad (1994). Desain Quasi-Experimental bagi banyak program, tugas
acak adalah tidak layak dan tidak
diinginkan. Dalam kasus tersebut,
desain kuasi-eksperimental
dapat lebih tepat. Desain ini tidak melibatkan tugas acak tetapi perbaikan
atas desain mental yang nonexperi dalam melawan beberapa ancaman terhadap validity. The internal yang paling umum digunakan desain kuasi-eksperimental adalah desain
terputus time-series dan desain kelompok pembanding nonequivalent.
Desain terputus time-series melibatkan pengumpulan
data berkali-kali sebelum program dan kemudian berkali-kali setelah diperkenalkan. Desain ini sering digunakan ketika intervensi, atau program, adalah hukum atau kebijakan yang harus berlaku untuk semua orang di kota, negara, atau
bangsa. Standar udara bersih baru
tidak bisa secara acak ditugaskan untuk beberapa rumah tangga dan bukan orang lain. Perubahan
hukum untuk menuntut remaja tidak dapat
diterapkan pada beberapa remaja
dan bukan orang lain. Namun, untuk kedua "program"
informasi akan telah dikumpulkan secara rutin pada fenomena yang menarik sebelum
dan sesudah undang-undang atau standar baru yang dikenakan. Lembaga lingkungan hidup secara rutin mengumpulkan data tentang kualitas udara:
lembaga peradilan anak mengumpulkan data tersebut pada kejahatan remaja. Ini data
yang ada bisa ia menganalisis
untuk menilai dampak program. Sementara. secara teoritis, desain time-series terganggu
dapat ia gunakan di
banyak rangkaian. Sebenarnya aplikasi
yang paling sering adalah dengan data yang ada yang
telah dikumpulkan secara rutin
sebelum nilai intervention.The
studi time-series terganggu adalah langkah-langkah
yang dilakukan sebelum langkah-langkah
intervention membantu menunjukkan tren
dengan tidak adanya program. Perubahan garis setelah
pengenalan program trend maka mungkin
disebabkan standar baru atau
hukum. (Perhatian harus digunakan,
namun, karena perubahan ini mungkin disebabkan oleh reformasi lain yang dilembagakan pada
waktu yang sama. Sangat sering di
sektor publik, kita melembagakan
paket banyak reformasi untuk menangani masalah serius. Paket ini dapat membantu kita untuk mengatasi masalah secara komprehensif, tetapi menghalangi kita dalam menemukan aspek-aspek dari paket bekerja)
satu hati-hati lain:. sebuah desain time-series terganggu yang paling sesuai dengan program yang mengharapkan
perubahan relatif cepat. Jika
perubahan bertahap, perubahan
garis tren akan dilakukan secara
bertahap dan akan lebih sulit untuk atribut perubahan
ke program. Tentu saja, seseorang dapat memperpanjang waktu antara titik pengumpulan
data untuk mencoba untuk memiliki
garis tren menunjukkan efek yang lebih langsung, tetapi semakin lama waktu antara poin, semakin besar kemungkinan bahwa faktor lain mungkin telah menyebabkan
perubahan.
Sebuah desain kelompok pembanding
nonequivalent mirip dengan eksperimen desain pre-post,
namun peserta atau siswa tidak secara acak ditugaskan untuk kelompok-Sebaliknya, kita mencoba untuk menemukan grup yang ada sangat mirip dengan salah satu yang akan menerima
INFORMASI KUANTITATIF
349
Program baru Pretest adalah
komponen yang lebih penting dari
desain ini daripada di desain eksperimental karena
membantu menunjukkan kesetaraan
kelompok, jika hanya pada premeasure tersebut.
Jika kelompok-kelompok utuh dalam
organisasi-organisasi besar yang sedang dipelajari (misalnya, kantor, ruang kelas, sekolah,
lingkungan) dan program ini berumur
pendek, mungkin relatif mudah
untuk menemukan kelompok pembanding yang sebanding. Namun, jika organisasi kecil (sekolah
dasar tunggal dengan tiga ruang kelas
per kelas atau
distrik sekolah dengan dua sekolah tinggi) ada
kemungkinan bahwa unit yang
berbeda akan memiliki beberapa
perbedaan yang signifikan. Jika
program ini panjang, kelompok
mungkin mulai sebagai relatif sama, tetapi perbedaan-perbedaan
lain dapat terjadi melalui program
program (misalnya, guru yang berbeda atau staf dengan motivasi yang
berbeda, keterampilan, dan
penekanan).
Desain
kuasi-eksperimental lain adalah desain regresi-diskontinuitas. Desain ini sangat berguna ketika kelayakan untuk program yang akan diteliti ditentukan oleh "scoring" seseorang di atas atau
di bawah titik tertentu pada
kriteria kelayakan (misalnya,
tekanan darah tinggi atau kadar
kolesterol). Dengan demikian, pasien
mungkin memenuhi persyaratan untuk
program penurunan berat pengurangan
khusus berdasarkan menjadi setidaknya 30 persen di atas berat pedoman standar
untuk tinggi badan dan jenis
kelamin mereka. Desain kemudian membandingkan hasil
bagi pasien dengan hasil bagi orang-orang yang tidak memenuhi syarat untuk program ini,
menggunakan metode regresi. A-diskontinuitas nuity "di
baris, atau perbedaan dalam garis regresi, untuk kedua kelompok menunjukkan efek Program.
Desain ini dapat berguna ketika program terbatas pada mereka yang paling membutuhkan atau yang paling memenuhi syarat, seperti program
untuk siswa yang
sangat berbakat, dan kelayakan ditentukan oleh
titik potong yang jelas. Lihat Trochim (1984)
dan Reichardt, Trochim,
dan Cappelleri (1995)
untuk informasi lebih lanjut tentang desain
ini. Masak
dan Campbell (1979)
memberikan informasi lebih lanjut
tentang desain secara umum dan
desain kuasi-eksperimental
pada khususnya. Salah satu isu baru dalam desain menyangkut
kegagalan untuk secara memadai mempertimbangkan kekuatan statistik dalam desain perencanaan. Akibatnya, Tipe II kesalahan,
atau kegagalan untuk menemukan perbedaan yang signifikan antara kelompok
ketika perbedaan-perbedaan tersebut
benar-benar ada, terjadi jauh lebih sering daripada yang kita sadari.
Kesalahan tersebut dapat menyebabkan
kita untuk menolak program
menguntungkan karena kami percaya bahwa
mereka tidak membuat perbedaan
ketika, pada kenyataannya, ukuran
sampel yang kecil dan atau
variabilitas kelompok besar mungkin telah membatasi kemampuan kita untuk
mendeteksi perbedaan. Lipsey (1990) membahas metode
untuk desain perencanaan untuk menghindari masalah tersebut.
Desain deskriptif
Selain
eksperimental dan quasi-eksperimental desain, yang
biasanya dianggap kuantitatif
dalam yayasan mereka dan pondasinya oleh paradigma positivis, ada desain lain
yang umumnya terkait dengan
quanti ¬ tative
tradisi. Tujuan dari desain ini, bagaimanapun, tidak untuk atribut kausalitas tetapi untuk menggambarkan sesuatu. Desain ini meliputi desain cross-sectional dan desain
time-series. Berbeda dengan desain studi kasus kualitatif,
desain ini tidak memberikan deskripsi mendalam. Mereka
adalah desain yang cukup
sederhana tetapi digunakan freqi
/ ently untuk
menjawab pertanyaan yang agak sederhana.
PEDOMAN PRAKTIS UNTUK MELAKUKAN DAN
MENGGUNAKAN EVALUATION 350
Desain
cross-sectional dimaksudkan untuk
menunjukkan "snapshot dalam waktu." Desain ini biasanya memanfaatkan pendekatan
survei untuk mengumpulkan informasi tentang sikap, perilaku, pendapat, atau kehidupan
berbagai kelompok, baik jumlah populasi atau
subkelompok sampel dari orang-orang tujuan populations.The dari desain ini adalah baik untuk menggambarkan tren di semua kelompok dan
untuk mengidentifikasi perbedaan antara subkelompok. Sebuah
desain cross-sectional dapat
digunakan untuk menjawab salah
satu dari pertanyaan-pertanyaan berikut: pokok A bertanya,
"Apa yang orang tua berpikir sekolah kami
Apa yang mereka lihat sebagai kekuatan dan kelemahan dari lingkungan sekolah, fasilitas, kurikulum, personil? Apakah
orang tua berbeda dalam pendapat
mereka berdasarkan kelas anak mereka dalam kinerja anak mereka itu??
etnis mereka? orang
tua 'pendidikan dan harapan?
"Direktur unit rawat jalan dari pusat
kesehatan mental bertanya, "Bagaimana klien kami mendengar dari kita? Apa
harapan mereka tentang perawatan
kesehatan mental? Masalah apa biasanya
mendorong kunjungan pertama mereka?
Apakah pendapat ini
berbeda dengan usia, pendapatan, pendidikan , atau etnis klien? dengan
sifat masalah menyajikan mereka? "pertanyaan-pertanyaan ini
mungkin akan diajukan dalam konteks penilaian kebutuhan atau evaluasi formatif. Pada tahap awal ini,
kepentingan utama adalah dalam mengidentifikasi masalah atau prioritas. Evaluasi lebih lanjut dapat pindah ke modus
studi kasus untuk mengeksplorasi kelayakan solusi untuk
masalah ditemukan melalui desain
cross-sectional.
Sebuah desain
time-series ini dimaksudkan untuk menunjukkan tren atau
perubahan dari waktu ke waktu. Seperti
dengan desain cross-sectional, pertanyaan untuk dia
menjawab relatif sederhana
dan mudah. Seorang administrator kesehatan
mungkin bertanya, adalah jumlah kelahiran prematur di rumah sakit kami menurun? "Seorang kepala sekolah tinggi mungkin bertanya,-Apakah proporsi tubuh
siswa kami membutuhkan kelas
ESL meningkat atau menurun?"
Seorang kepala polisi mungkin bertanya. -Bagaimana trend kejahatan remaja di kota kami? Kejahatan remaja yang
meningkat? Yang menurun?
Yang tetap stabil? Bagaimana tren ini dibandingkan
dengan jumlah remaja di populasi kita? Apakah
jumlah remaja tetap
sama dalam dekade berikutnya? "Yang
terakhir ini mencakup sejumlah pertanyaan
yang berbeda yang akan membantu kepala
dan stafnya dalam perencanaan, tetapi semua akan diatasi
melalui desain time-series
sederhana. Seperti terganggu waktu-desain seri, desain
time-series sering memanfaatkan informasi yang ada dalam rangka untuk memperoleh cukup pengamatan dari waktu ke waktu. keputusan-keputusan penting melibatkan waktu berkisar untuk
menggunakan (triwulanan, setengah
tahunan, tahunan) dan jumlah titik pengumpulan data untuk mendapatkan. Sebagai evaluator mengumpulkan informasi dari poin semakin jauh
ke masa lalu, ia harus
memastikan metode pengumpulan
data sendiri tidak berubah. Perubahan
cara pengumpulan data
atau definisi istilah (Apa
juvenile a? Apa tindak
pidana? kejahatan yang dicatat? Apa kelas ESL?
Apa yang dimaksud dengan kelahiran
prematur?) dapat membuatnya
tampak bahwa ada perubahan dalam
fenomena yang diukur ketika pada
kenyataannya perubahan itu disebabkan
oleh perubahan penting dalam
pengumpulan data. Variasi dari desain time-series adalah panel dan
kelompok desain, yang
sering dicap sebagai studi
longitudinal, di mana orang yang
sama atau serupa diikuti sepanjang waktu. Lihat O'Sullivan
dan Rassel (1995)
untuk informasi lebih lanjut tentang time-series
dan desain cross-sectional.
INFORMASI KUANTITATIF
351
METODE OMMON UNTUK MENGUMPULKAN INFORMASI
ANTITATIVE
Pada bagian ini kita
akan membahas metode lain yang umum digunakan quantitatif untuk mengumpulkan informasi yang mungkin
diperlukan untuk melaksanakan evaluasi,
bersama dengan referensi untuk
pengobatan yang lebih rinci masing-masing.
Metode yang tercakup dalam bagian ini mungkin dianggap inventarisasi metode yang evaluator profesional harus
mampu mempekerjakan. Tidak ada
yang akan digunakan tanpa pandang bulu
dalam setiap evaluasi. Masing-masing harus digunakan hanya setelah pemikiran yang cermat telah diberikan kepada (1) informasi yang diperlukan untuk menjawab pertanyaan-pertanyaan evaluasi dan
(2) sejauh mana metode
yang diusulkan akan memberikan jawaban
yang memuaskan atas pertanyaan-pertanyaan evaluasi.
'Testing
Tes adalah salah satu metode untuk mengumpulkan informasi evaluatif. Untuk evaluator pendidikan,
tes merupakan sumber utama informasi. Akuisisi pengetahuan sering tujuan utama dari program pendidikan, dan akuisisi pengetahuan umumnya, tetapi tidak selalu, diukur dengan tes.
Evaluator di bidang lain juga menggunakan tes, meskipun
kurang luas daripada evaluator pendidikan. Evaluator
dalam pengaturan pelatihan dapat menggunakan tes, meskipun
tujuan utama mereka sering aplikasi pada pekerjaan atau efek pada organisasi (lihat
Bab 22). Evaluator dalam bidang kesehatan dapat
menggunakan tes untuk banyak program pendidikan yang dilakukan untuk klien atau untuk program pendidikan kesehatan bagi
titioners praktek ¬. Evaluator dalam
pelayanan sosial dapat menggunakan tes untuk mengukur hasil
dalam program kerja atau pengasuhan. Dengan demikian, semua evaluator perlu
memiliki beberapa pengetahuan tentang tes sebagai instrumen pengumpulan
data. Empat pendekatan untuk
pengujian prestasi telah muncul: 'norma-referenced testing (NRT), kriteria-referenced
tes (CRT), tujuan-referenced
testing (ORT), dan
domain-referenced testing (DRT). Keempat strategi
memiliki banyak unsur yang sama, tetapi tergantung pada strategi
yang dipilih, prosedur untuk pengembangan tes dan interpretasi bisa sangat berbeda. Tes Norm-referenced dimaksudkan terutama untuk membandingkan kinerja siswa terhadap orang lain mengambil tes yang sama. Mereka adalah tes rutin
diberikan di sekolah kabupaten paling
untuk menilai kemajuan. The California Achievement Test,
Uji Komprehensif Keterampilan
Dasar, dan Test Iowa Keterampilan Dasar
adalah contoh umum. Kekuatan tes tersebut 1; bahwa
mereka memungkinkan perbandingan
dengan kelompok norma
yang ditetapkan; dengan demikian, mereka dapat membantu dalam menjawab pertanyaan-pertanyaan seperti "Bagaimana
sekolah kami lakukan dalam menyampaikan pengetahuan dan
keterampilan yang diterima secara umum dibandingkan untuk sekolah-sekolah lain
di negara ini?" "Di sini kita hanya berfokus pada menggunakan tes untuk mengukur prestasi siswa. Kami membahas terkait erat tetapi metode jelas berbeda
menilai kinerja mahasiswa paling sering disebut sebagai penilaian
langsung, penilaian kinerja, atau alternatif penilaian.
PEDOMAN PRAKTIS UNTUK MELAKUKAN DAN
MENGGUNAKAN EVALUASI 352
Mungkin tidak
berlaku untuk kurikulum yang dievaluasi. Untuk menjadi sangat berguna, perawatan harus dilakukan
untuk memastikan bahwa isi dari item NRT dan pengetahuan dan
keterampilan dipanggil untuk merespon
dengan benar cocok cukup baik
tujuan instruksional program yang akan dievaluasi.
Berbeda dengan tes mengacu-norma, tes kriteria-direferensikan adalah khusus
untuk mengukur kinerja terhadap
beberapa kriteria mutlak. Item pada tes biasanya
ditulis untuk mengatasi kurikulum
tertentu dan dapat digunakan untuk mengevaluasi kemajuan siswa individual pada kurikulum.
Tes tersebut memiliki validitas lebih banyak konten untuk tujuan mengevaluasi kurikulum daripada
tes akan norma-referenced.
Program dapat dinilai dengan proporsi siswa mencapai
kriteria dengan titik
tertentu dalam waktu. Pengujian
Norm-referenced dan pengujian kriteria-direferensikan, namun keduanya memberikan
standar untuk menilai kinerja siswa:
kelompok norma atau kriteria masing-masing. Tujuan pengujian-referenced dan pengujian domain-direferensikan
tidak memberikan standar tersebut.
Sebaliknya, mereka menghasilkan data deskriptif tentang kinerja siswa tanpa penilaian terpasang.
Tujuan tes-referenced menggunakan item kunci
untuk tujuan instruksional tertentu.
Tes semacam itu paling berguna untuk evaluasi formatif bagi guru atau pelatih. Tes Domain-referensi
yang digunakan untuk memperkirakan pengetahuan
siswa dari domain
konten. Item yang
tidak berhubungan dengan kurikulum melainkan untuk domain konten
yang diukur (misalnya, sejarah Amerika, anatomi komparatif). Item ini juga dapat
berguna untuk tujuan evaluatif,
meskipun tes tersebut mahal untuk mengembangkan dibandingkan dengan tujuan-referenced dan tes kriteria-direferensikan.
Mereka bisa, bagaimanapun, digunakan untuk menjawab pertanyaan-pertanyaan
seperti "Berapa banyak lulusan
kami tahu tentang konten X?" Standar dapat
dikembangkan untuk mencerminkan atau
harapan organisasi sekolah
mengenai jumlah pengetahuan lulusan atau mahasiswa menyelesaikan
kursus harus memiliki rangkaian Pengukuran Mental volume
Yearbook dan Pengujian di Print (awalnya dikembangkan oleh 0. K. Buros dan saat
ini dikelola oleh Buros Institute di University of Nebraska) adalah karya
referensi berharga ketika memilih tes untuk pengumpulan data. Yang paling
baru-baru ini adalah Conoley dan saya mpara (1995) Pengukuran Twelfth Mental
Yearbook, yang melakukan review hampir 400 tes dan skala sikap. Sweetland dan
Keyser (1986) juga memberikan review tes yang berguna.
Metode Penilaian Alternatif
Di sekolah, tes prestasi standar secara rutin digunakan untuk
mengukur mencapai mental Namun, dalam beberapa tahun terakhir telah pindah dari
hanya menggunakan tes standar untuk mengukur kemajuan. kepentingan Pemangku
yang signifikan, termasuk banyak orang tua, guru, dan administrator,
mempertanyakan apakah tes tersebut mengukur kemampuan siswa secara akurat dan
komprehensif. Lebih lanjut, banyak guru dan administrator belum menemukan
informasi yang berguna bagi mereka dalam merevisi atau mengelola proses
pendidikan. Sebuah studi nasional penggunaan tes dalam pendidikan sains
menemukan bahwa "sudah ada standar dan tes teks tertanam (tes
publisher-disediakan) tidak memadai untuk mendukung reformasi di bidang ilmu
pengetahuan dan matematika
INFORMASI KUANTITATIF 353
Pendidikan
"(Harmon, 1995,
hal. 32). Alternatif Harmon melihat muncul
mengubah isi dari tes pilihan ganda (dia
mengutip National Assessment of Educational
Progress sebagai contoh tes yang mengukur berpikir tingkat tinggi
dalam ilmu pengetahuan), buka-berakhir item tertulis,
wawancara terstruktur, dan penilaian kinerja. Beberapa label telah digunakan untuk menggambarkan alternatif untuk tes standar,
dengan yang paling umum adalah penilaian langsung, penilaian autentik,
dan penilaian alternatif yang lebih
generik. Meskipun berbagai deskriptor mencerminkan
perbedaan halus dalam penekanan, beberapa jenis
asesmen semua mencerminkan dua
kesamaan pusat. Pertama,
mereka semua dipandang sebagai alternaties untuk traditiOnat
pilihan ganda, dipilih-jawaban tes prestasi. Kedua,
mereka semua mengacu pada pemeriksaan langsung dari prestasi siswa
pada tugas-tugas penting yang relevan dengan kehidupan di luar sekolah. Beberapa alternatif
ini mencerminkan pengaruh pendukung
positif Of metode
kualitatif telah di bidang
pengukuran. Alternatif-alternatif ini
juga mengingatkan kita bahwa tes dapat dicapai baik oleh langkah-langkah kertas dan pensil dan
dengan ukuran kinerja. (Lihat
daftar metode pengumpulan data pada halaman 277 dalam
Bab 15.) Tes kertas dan pensil yang
direferensikan kriteria, tujuan direferensikan, atau
domain direferensikan dapat ia termasuk dalam
evaluasi untuk menginformasikan para kepentingan pemangku tentang kemajuan dan
kekuatan dan kelemahan. Tapi ukuran kinerja, seperti perangkat simulasi, portofolio siswa, atau perdebatan lisan juga
dapat sesuai, mengingat konten yang akan diukur. Dalam menilai pengetahuan atau keterampilan seperti evaluasi apapun, kuncinya
adalah untuk memilih metode atau
metode yang memberikan pertandingan
terbaik untuk konten
untuk ia diukur dan tujuan evaluasi. Dalam
mengukur kemampuan percakapan
dalam bahasa asing. Wawancara kemampuan bahasa terstruktur dengan jelas akan lebih tepat dibandingkan tes kertas
dan pensil.
Dalam mengukur
keterampilan menggunakan peralatan ilmiah untuk melakukan percobaan, penilaian kinerja di laboratorium mungkin akan sangat tepat. Dan dalam
mengukur kemampuan untuk mengenali dan memperbaiki kesalahan
tata bahasa dan ejaan, tes
kertas dan pensil mungkin dia yang paling
efisien. Untuk diskusi lebih
rinci tentang metode pengujian alternatif
dan uji mengembangkan ment ¬, lihat Perrone
(1991) dan Worthen,
Borg. dan White (1993). Untuk informasi tentang menggunakan penilaian
kinerja untuk evaluasi pendidikan, lihat Mitchell
(1992).
kuesioner
Kuesioner
(kadang-kadang disebut sebagai "survei") 2 dapat dikembangkan untuk mengukur sikap,
pendapat, perilaku, keadaan hidup
(pendapatan, ukuran keluarga, kondisi perumahan, dll) atau masalah lainnya. Kuesioner
memiliki kesamaan fakta bahwa mereka
adalah ukuran kertas dan pensil yang dirancang untuk responden untuk melaporkan informasi. Langkah-langkah dapat diberikan secara individu, kelompok, atau melalui pos. Barang jenis termasuk item terbuka
yang analisis isi digunakan;"Survey" lebih tepat mengacu pada metode umum, sementara "kuesioner,"
'protokol wawancara, "dan sejenisnya mengacu pada instrumen yang digunakan untuk mengumpulkan
data aktual.
PEDOMAN PRAKTIS UNTUK MELAKUKAN DAN
MENGGUNAKAN EVALUATION 354
Short-jawaban
terbuka item (misalnya, jumlah anak-anak): item
pilihan ganda; item dengan tanggapan kata sifat (misalnya, penilaian item
menggunakan sangat baik, sangat baik,
baik, adil, miskin);
item dengan tanggapan adverbia (selalu, sering,
dll); dan item menyamakan
skala, yang akan dibahas dalam bagian
ini. Seperti halnya jenis informasi
yang akan dikumpulkan, evaluator
pertama harus mempertimbangkan apakah
ada kuesioner yang
ada yang akan sesuai untuk
digunakan dalam penelitian ini. Volume
Mental Pengukuran Yearbook (lihat Conoley
& lmpara, 1995)
menggambarkan dan referensi berbagai skala sikap.
Referensi yang lebih khusus dari skala sikap meliputi
Handbook of Scales Riset Kejahatan dan Kenakalan
(Brodsky & Smitherman,
1983) pada sikap terhadap kejahatan dan polisi atau laporan diri dari perilaku
kriminal. Langkah-langkah untuk Clinical
Practice: A Sourcebook (Corcoran & Fisher,
1987) memuat langkah-langkah yang diuji fenomena seperti konsep diri, kepuasan dengan
kehidupan, kesepian, kecemasan,
dan depresi, yang dapat digunakan
oleh nonclinicians. The Clinical Pengukuran
Paket: Sebuah Pedoman
Lapangan (Hudson, 1982) menyajikan langkah-langkah pada isu-isu seperti sikap orangtua, hubungan teman
sebaya, hubungan keluarga dan
isu-isu lainnya. McDowell dan Newell (1987)
menggambarkan kuesioner untuk digunakan di arena kesehatan. Cara lain untuk
belajar dari baru-baru ini,
langkah-langkah umum diterima adalah melalui tinjauan literatur yang dilakukan oleh evaluator selama tahap perencanaan. Perhatikan langkah-langkah yang digunakan oleh evaluator lain dalam studi ini dan
mempertimbangkan kesesuaian untuk
tujuan Anda sendiri. Ketika tujuan
survei adalah untuk mengukur opini, perilaku, sikap
atau keadaan hidup cukup spesifik
untuk program yang akan dievaluasi,
evaluator cenderung ia dihadapkan dengan mengembangkan
instrumen sendiri. Dalam hal ini, kami sarankan mengembangkan rencana desain untuk kuesioner analog dengan desain evaluasi yang digunakan untuk seluruh evaluasi. Pada kolom pertama, daftar
pertanyaan (bukan item) yang harus dijawab oleh survei. Artinya,
pertanyaan apa yang harus hasil survei ini menjawab?
Dalam kolom kedua, menunjukkan jenis item (s) yang harus digunakan untuk memperoleh
informasi ini. Sebuah kolom
ketiga dapat ia digunakan
setelah item dikembangkan untuk referensi nomor item yang menjawab pertanyaan ini. Kolom keempat kemudian
dapat menentukan alat analisis. Gambar 17.1 memberikan
ilustrasi. Desain ini kemudian
menjadi panduan untuk perencanaan
survei dan menganalisis
informasi yang diperoleh. Ini membantu
evaluator untuk memastikan dia termasuk dalam jumlah yang memadai item untuk menjawab setiap
pertanyaan. (Beberapa pertanyaan membutuhkan
lebih item daripada yang lain.)
Desain juga membantu menghindari item yang terdengar menarik tetapi sebenarnya tidak benar-benar menjawab semua pertanyaan evaluasi. Evaluator dapat
memutuskan untuk memasukkan barang-barang
tersebut, tetapi tujuan mereka harus lebih dieksplorasi. Item yang tidak menjawab pertanyaan
yang menarik memperpanjang kuesioner dan menunjukkan rasa tidak hormat untuk waktu dan privasi responden.
Dalam memilih jenis
item, pertimbangkan bahwa banyak variabel dapat diukur dengan beberapa
format item yang berbeda.