ASSESMEN dan EVALUASI (translate) 345 - 354 | Assemen dan Evaluasi

ASSESMEN dan EVALUASI

(translate)

Oleh:

KETUT EVI SRIWINDAYANI 1211021058 / IV.B

JURUSAN TEKNOLOGI PENDIDIKAN

FAKULTAS ILMU PENDIDIKAN

UNIVERSITAS PENDIDIKAN GANESHA

SINGARAJA

2014

INFORMASI KUANTITATIF 345

Informasi organisasi membutuhkan begitu penting sistem pengarsipan informasi. Pertimbangkan informasi untuk setiap metode pengumpulan data harus disimpan dan bagaimana format untuk penyimpanan itu. Kontrol informasi membutuhkan jaminan bahwa tidak ada yang hilang, diabaikan, yang dirilis sebelum waktunya, atau digunakan dengan tidak melanggar kebijakan evaluasi atau hak asasi manusia. Sebagai manajer informasi, evaluator memiliki tanggung jawab untuk melihat bahwa informasi yang dikumpulkan terjaga. Staf yang memiliki akses ke data harus benar-benar terlatih dalam prosedur untuk penyimpanan, pelepasan, dan kerahasiaan. Cek informasi memberikan jaminan bahwa informasi kuantitatif dan kualitatif dicatat secara akurat. Sampel informasi harus dicek ulang untuk coding akurasi. Konfirmasi dan pemeriksaan harus digunakan untuk mengurangi salah tafsir.

Penyimpanan dan pengambilan informasi dapat terjadi baik dalam file komputer atau dalam file data mentah. Data mentah harus disimpan di ruang penyimpanan terkunci dan disimpan untuk setidaknya tiga tahun. Tindak lanjut studi, reanalyses, dan pertanyaan tentang evaluasi semua bisa memerlukan penggunaan data mentah. Jika menggunakan file data mentah, mekanisme yang tepat untuk pengambilan harus direncanakan.

DESAIN UNTUK MENGUMPULKAN PENYEBAB DAN INFORMASI DESKRIPTIF

Penyalahgunaan desain eksperimental telah sah dikritik (Lincoln & Guba, 1985; Patton, 1986; House, 1990; Johnston & Swift, 1994), namun kami tidak setuju dengan mereka yang berpendapat bahwa paradigma eksperimental tidak dapat diterapkan dalam evaluasi program.

Sebuah desain eksperimental atau quasi-eksperimental dapat tepat ketika tujuan utama dari evaluasi ini adalah untuk menjawab pertanyaan-pertanyaan dari efektivitas dengan membandingkan hasil program yang dicapai oleh satu program dengan program lain yang sedang aktif dianggap sebagai alternatif tive. Keputusan tersebut terjadi dengan frekuensi relatif di sektor publik. Kepala bertanya, "Haruskah kita melanjutkan pendekatan lama phonics-berbasis untuk membaca atau harus kita lanjutkan dengan pendekatan bahasa yang sama sekali baru ?" Administrator kesehatan bertanya, "Apakah program outreach baru untuk remaja hamil, dirancang untuk mendorong perawatan kehamilan dini, lebih berhasil daripada metode lama?" Untuk membuat pilihan ini, kepentingan para pemangku tersebut ingin informasi yang membandingkan hasil dari dua program secara bertanggung jawab. Program memiliki waktu untuk "bekerja keluar Kinks" dan evaluasi formatif telah digunakan untuk menggambarkan tindakan Program dan hasil dan bekerja untuk perbaikan. Tapi, setelah periode ini pengujian dan merevisi untuk memaksimalkan model, studi dampak mungkin tepat untuk membantu administrator dan para pemangku kepentingan lainnya. Desain seperti itu bukan cara yang 'ajaib atribut kausalitas. Tidak ada desain benar-benar dapat membuktikan kausalitas.

PEDOMAN PRAKTIS UNTUK MELAKUKAN DAN MENGGUNAKAN EVALUATION 346

Desain ini, bersama dengan bangunan teori dan pengumpulan informasi lainnya. bisa sangat membantu dalam menunjukkan efek dari berbagai program. Desain eksperimental, jika memungkinkan, lebih baik dari pada desain kuasi-eksperimental karena mereka dapat menghadapi ancaman lebih untuk validitas internal penelitian. Desain eksperimental termasuk pre-post dan desain posttest-only. Masing-masing desain ini melibatkan secara acak menugaskan peserta program ke grup. Melalui penugasan acak dalam jumlah yang memadai orang untuk masing-masing kelompok, desain eksperimen memaksimalkan peluang bahwa kelompok-kelompok yang sama pada banyak faktor yang dapat mempengaruhi respon mereka terhadap program, yaitu, karakteristik dan sikap individu, sejarah masa lalu, hal-hal yang terjadi di mereka hidup saat ini, dan seterusnya. Sementara individu dalam kelompok tidak sama, kelompok secara keseluruhan dipandang sebagai equivalen.

Posttest adalah hanya desain yang paling rumit dari desain eksperimental dan membutuhkan hanya menggunakan tabel nomor acak (atau angka acak yang dihasilkan komputer) untuk menetapkan peserta untuk dua kelompok (atau lebih, jika lebih perbandingan yang diinginkan) dan mengumpulkan informasi setelah program ujung (posttest) untuk menentukan apakah perbedaan terjadi. Nama desain, posttest-only, tidak menentukan ukuran yang akan digunakan. Langkah-langkah pasca perawatan bisa survei, wawancara, observasi, tes, atau tindakan lain yang dianggap sesuai. Istilah "posttest-only" hanya merujuk pada waktu di mana informasi akan ia kumpulkan. Tidak ada informasi pretest dikumpulkan dengan desain posttest-hanya karena diasumsikan kedua kelompok adalah sama karena tugas acak individu atau unit (kantor, sekolah, ruang kelas) untuk program atau perawatan.

The pre-post design digunakan ketika ukuran pretreatment dapat menyediakan informasi yang berguna. Sebagai contoh, jika kelompok-kelompok kecil, mungkin ada kekhawatiran tentang kesetaraan mereka. Sebuah pretest dapat membantu mengkonfirmasi kesetaraan mereka, meskipun hanya pada langkah-langkah yang dikumpulkan. Jika ada kekhawatiran bahwa banyak peserta mungkin drop out dari program ini, dan dengan demikian nilai pada posttest mungkin tidak mewakili kelompok-kelompok yang setara, skor pretest dapat digunakan untuk menguji perbedaan kedua kelompok sebagai akibat dari putus sekolah. (Terputus-putus akan menjadi perhatian yang sah dalam mengevaluasi program pelatihan bagi para pengangguran, tapi mungkin tidak akan menjadi perhatian dalam program selama sebulan untuk siswa kelas empat). Pretest mobil memberikan informasi yang berguna dengan kedua kelompok kecil.

Banyak menggunakan pretest sebagai tolok ukur untuk melaporkan perubahan yang telah occurre pada mereka yang berpartisipasi dalam program ini dari sebelum program hingga tuntas Laporan ini menarik bagi para kepentingan pemangku. Namun, pre-post perbandingan dapat menyesatkan karena perubahan dari pra untuk mengirim juga termasuk patut. Faktor-faktor dalam kehidupan peserta (misalnya, pematangan, belajar lainnya, dan acara intervenini). Sebaliknya, postmeasure dari kelompok pembanding umumnya perbandingan yang tepat. Jika keputusan harus dibuat adalah apakah untuk memberikan no a.

INFORMASI KUANTITATIF 347

Konvensi, dan para kepentingan pemangku harus fokus pada perbedaan antara skor posttest dari dua kelompok. Rata-posttest dari kelompok pembanding mewakili apa kelompok perlakuan akan tercapai jika mereka telah ditugaskan untuk pengobatan itu. Pilihan nyata bagi para pemangku kepentingan antara satu program dan satu lagi, yang diwakili oleh skor pos dari dua kelompok, bukan antara negara mereka sebelumnya dan negara mereka saat ini. Jika, pada kenyataannya, pilihan harus dibuat adalah antara ada program dan salah satu yang ada atau baru, kelompok pembanding dapat dibangun untuk tidak menerima pengobatan. Skor posttest dari compari ini kelompok anak kemudian akan mencerminkan bagaimana peserta dalam kelompok pengobatan akan berubah jika mereka tidak menerima perawatan sama sekali.

Menanggapi orang yang berpendapat bahwa percobaan perbandingan tidak layak dalam studi lapangan, Masak dan Campbell (1979) daftar beberapa situasi ketika percobaan acak atau kuasi-eksperimen yang sepenuhnya tepat dan mungkin.

· Ketika lotere atau gambar kesempatan lain diharapkan

· Ketika permintaan melebihi pasokan

· Ketika sebuah inovasi tidak dapat ia menyampaikan di semua unit sekaligus

· Bila unit percobaan dapat ia sementara terisolasi

· Bila unit percobaan secara spasial terpisah atau komunikasi interunit rendah

· Ketika perubahan diamanatkan dan solusi tidak diketahui

· Ketika dasi dapat dipecah

· Ketika beberapa orang menyatakan tidak ada preferensi di antara alternatif

Banyak yang berpendapat terhadap tugas acak untuk pengobatan secara etis. Kekhawatiran tersebut bisa sangat sah. Seringkali program-program baru telah direncanakan dengan hati-hati, memiliki landasan teoritis yang kuat, dan menawarkan janji besar untuk berpartisipasi. Namun, kita sering gagal untuk mempertimbangkan isu-isu etis yang terlibat dalam gagal untuk mempelajari pengobatan secara menyeluruh. Apakah etis untuk mengekspos orang untuk perawatan atau program yang mungkin, dalam pelaksanaannya, kurang berhasil dalam mencapai tujuan daripada metode yang diterima saat ini? Apakah benar untuk meningkatkan harapan mereka yang membutuhkan dan kemudian lari mereka dengan metode yang belum teruji? Dalam waktu penurunan sumber daya bagi mereka yang membutuhkan, apakah etis untuk melanjutkan pengeluaran pada metode teruji ketika sumber daya tersebut dapat digunakan untuk secara efektif memenuhi kebutuhan dengan cara terbukti lainnya? Tidak ada jawaban yang mudah untuk pertanyaan-pertanyaan ini. Konsekuensi dari pengacakan perlu dipertimbangkan dengan hati-hati untuk setiap keadaan. Apa saja risiko untuk masing-masing kelompok? Berapa banyak kita tahu tentang pengobatan baru? Tentang tua? Berapa lama eksperimen akan berlangsung? Dalam situasi apa bisa itu dihentikan dan pengobatan yang lebih baik dikirimkan ke semua? Dennis dan Boruch (1989) menyajikan satu set kondisi ambang batas yang harus dicapai sebelum mempertimbangkan percobaan acak. Sementara kondisi mereka diterapkan untuk negara-negara berkembang, mereka dapat dengan mudah diekstrapolasi untuk pengaturan lainnya. Passamani (1991) memberikan pembahasan bijaksana etika tugas acak.

PEDOMAN PRAKTIS UNTUK MELAKUKAN EVALUASI 348

Untuk informasi lebih lanjut tentang pelaksanaan desain eksperimental di lapangan, pengaruhnya terhadap validitas konstruk, dan isu-isu etika dan pribadi yang dihadapi oleh evaluasi dan staf program dalam desain tersebut, lihat Conrad (1994). Desain Quasi-Experimental bagi banyak program, tugas acak adalah tidak layak dan tidak diinginkan. Dalam kasus tersebut, desain kuasi-eksperimental dapat lebih tepat. Desain ini tidak melibatkan tugas acak tetapi perbaikan atas desain mental yang nonexperi dalam melawan beberapa ancaman terhadap validity. The internal yang paling umum digunakan desain kuasi-eksperimental adalah desain terputus time-series dan desain kelompok pembanding nonequivalent.

Desain terputus time-series melibatkan pengumpulan data berkali-kali sebelum program dan kemudian berkali-kali setelah diperkenalkan. Desain ini sering digunakan ketika intervensi, atau program, adalah hukum atau kebijakan yang harus berlaku untuk semua orang di kota, negara, atau bangsa. Standar udara bersih baru tidak bisa secara acak ditugaskan untuk beberapa rumah tangga dan bukan orang lain. Perubahan hukum untuk menuntut remaja tidak dapat diterapkan pada beberapa remaja dan bukan orang lain. Namun, untuk kedua "program" informasi akan telah dikumpulkan secara rutin pada fenomena yang menarik sebelum dan sesudah undang-undang atau standar baru yang dikenakan. Lembaga lingkungan hidup secara rutin mengumpulkan data tentang kualitas udara: lembaga peradilan anak mengumpulkan data tersebut pada kejahatan remaja. Ini data yang ada bisa ia menganalisis untuk menilai dampak program. Sementara. secara teoritis, desain time-series terganggu dapat ia gunakan di banyak rangkaian. Sebenarnya aplikasi yang paling sering adalah dengan data yang ada yang telah dikumpulkan secara rutin sebelum nilai intervention.The studi time-series terganggu adalah langkah-langkah yang dilakukan sebelum langkah-langkah intervention membantu menunjukkan tren dengan tidak adanya program. Perubahan garis setelah pengenalan program trend maka mungkin disebabkan standar baru atau hukum. (Perhatian harus digunakan, namun, karena perubahan ini mungkin disebabkan oleh reformasi lain yang dilembagakan pada waktu yang sama. Sangat sering di sektor publik, kita melembagakan paket banyak reformasi untuk menangani masalah serius. Paket ini dapat membantu kita untuk mengatasi masalah secara komprehensif, tetapi menghalangi kita dalam menemukan aspek-aspek dari paket bekerja) satu hati-hati lain:. sebuah desain time-series terganggu yang paling sesuai dengan program yang mengharapkan perubahan relatif cepat. Jika perubahan bertahap, perubahan garis tren akan dilakukan secara bertahap dan akan lebih sulit untuk atribut perubahan ke program. Tentu saja, seseorang dapat memperpanjang waktu antara titik pengumpulan data untuk mencoba untuk memiliki garis tren menunjukkan efek yang lebih langsung, tetapi semakin lama waktu antara poin, semakin besar kemungkinan bahwa faktor lain mungkin telah menyebabkan perubahan.
Sebuah desain kelompok pembanding nonequivalent mirip dengan eksperimen desain pre-post, namun peserta atau siswa tidak secara acak ditugaskan untuk kelompok-Sebaliknya, kita mencoba untuk menemukan grup yang ada sangat mirip dengan salah satu yang akan menerima

INFORMASI KUANTITATIF 349

Program baru Pretest adalah komponen yang lebih penting dari desain ini daripada di desain eksperimental karena membantu menunjukkan kesetaraan kelompok, jika hanya pada premeasure tersebut. Jika kelompok-kelompok utuh dalam organisasi-organisasi besar yang sedang dipelajari (misalnya, kantor, ruang kelas, sekolah, lingkungan) dan program ini berumur pendek, mungkin relatif mudah untuk menemukan kelompok pembanding yang sebanding. Namun, jika organisasi kecil (sekolah dasar tunggal dengan tiga ruang kelas per kelas atau distrik sekolah dengan dua sekolah tinggi) ada kemungkinan bahwa unit yang berbeda akan memiliki beberapa perbedaan yang signifikan. Jika program ini panjang, kelompok mungkin mulai sebagai relatif sama, tetapi perbedaan-perbedaan lain dapat terjadi melalui program program (misalnya, guru yang berbeda atau staf dengan motivasi yang berbeda, keterampilan, dan penekanan).

Desain kuasi-eksperimental lain adalah desain regresi-diskontinuitas. Desain ini sangat berguna ketika kelayakan untuk program yang akan diteliti ditentukan oleh "scoring" seseorang di atas atau di bawah titik tertentu pada kriteria kelayakan (misalnya, tekanan darah tinggi atau kadar kolesterol). Dengan demikian, pasien mungkin memenuhi persyaratan untuk program penurunan berat pengurangan khusus berdasarkan menjadi setidaknya 30 persen di atas berat pedoman standar untuk tinggi badan dan jenis kelamin mereka. Desain kemudian membandingkan hasil bagi pasien dengan hasil bagi orang-orang yang tidak memenuhi syarat untuk program ini, menggunakan metode regresi. A-diskontinuitas nuity "di baris, atau perbedaan dalam garis regresi, untuk kedua kelompok menunjukkan efek Program. Desain ini dapat berguna ketika program terbatas pada mereka yang paling membutuhkan atau yang paling memenuhi syarat, seperti program untuk siswa yang sangat berbakat, dan kelayakan ditentukan oleh titik potong yang jelas. Lihat Trochim (1984) dan Reichardt, Trochim, dan Cappelleri (1995) untuk informasi lebih lanjut tentang desain ini. Masak dan Campbell (1979) memberikan informasi lebih lanjut tentang desain secara umum dan desain kuasi-eksperimental pada khususnya. Salah satu isu baru dalam desain menyangkut kegagalan untuk secara memadai mempertimbangkan kekuatan statistik dalam desain perencanaan. Akibatnya, Tipe II kesalahan, atau kegagalan untuk menemukan perbedaan yang signifikan antara kelompok ketika perbedaan-perbedaan tersebut benar-benar ada, terjadi jauh lebih sering daripada yang kita sadari. Kesalahan tersebut dapat menyebabkan kita untuk menolak program menguntungkan karena kami percaya bahwa mereka tidak membuat perbedaan ketika, pada kenyataannya, ukuran sampel yang kecil dan atau variabilitas kelompok besar mungkin telah membatasi kemampuan kita untuk mendeteksi perbedaan. Lipsey (1990) membahas metode untuk desain perencanaan untuk menghindari masalah tersebut.

Desain deskriptif

Selain eksperimental dan quasi-eksperimental desain, yang biasanya dianggap kuantitatif dalam yayasan mereka dan pondasinya oleh paradigma positivis, ada desain lain yang umumnya terkait dengan quanti ¬ tative tradisi. Tujuan dari desain ini, bagaimanapun, tidak untuk atribut kausalitas tetapi untuk menggambarkan sesuatu. Desain ini meliputi desain cross-sectional dan desain time-series. Berbeda dengan desain studi kasus kualitatif, desain ini tidak memberikan deskripsi mendalam. Mereka adalah desain yang cukup sederhana tetapi digunakan freqi / ently untuk menjawab pertanyaan yang agak sederhana.

PEDOMAN PRAKTIS UNTUK MELAKUKAN DAN MENGGUNAKAN EVALUATION 350

Desain cross-sectional dimaksudkan untuk menunjukkan "snapshot dalam waktu." Desain ini biasanya memanfaatkan pendekatan survei untuk mengumpulkan informasi tentang sikap, perilaku, pendapat, atau kehidupan berbagai kelompok, baik jumlah populasi atau subkelompok sampel dari orang-orang tujuan populations.The dari desain ini adalah baik untuk menggambarkan tren di semua kelompok dan untuk mengidentifikasi perbedaan antara subkelompok. Sebuah desain cross-sectional dapat digunakan untuk menjawab salah satu dari pertanyaan-pertanyaan berikut: pokok A bertanya, "Apa yang orang tua berpikir sekolah kami Apa yang mereka lihat sebagai kekuatan dan kelemahan dari lingkungan sekolah, fasilitas, kurikulum, personil? Apakah orang tua berbeda dalam pendapat mereka berdasarkan kelas anak mereka dalam kinerja anak mereka itu?? etnis mereka? orang tua 'pendidikan dan harapan? "Direktur unit rawat jalan dari pusat kesehatan mental bertanya, "Bagaimana klien kami mendengar dari kita? Apa harapan mereka tentang perawatan kesehatan mental? Masalah apa biasanya mendorong kunjungan pertama mereka? Apakah pendapat ini berbeda dengan usia, pendapatan, pendidikan , atau etnis klien? dengan sifat masalah menyajikan mereka? "pertanyaan-pertanyaan ini mungkin akan diajukan dalam konteks penilaian kebutuhan atau evaluasi formatif. Pada tahap awal ini, kepentingan utama adalah dalam mengidentifikasi masalah atau prioritas. Evaluasi lebih lanjut dapat pindah ke modus studi kasus untuk mengeksplorasi kelayakan solusi untuk masalah ditemukan melalui desain cross-sectional.

Sebuah desain time-series ini dimaksudkan untuk menunjukkan tren atau perubahan dari waktu ke waktu. Seperti dengan desain cross-sectional, pertanyaan untuk dia menjawab relatif sederhana dan mudah. Seorang administrator kesehatan mungkin bertanya, adalah jumlah kelahiran prematur di rumah sakit kami menurun? "Seorang kepala sekolah tinggi mungkin bertanya,-Apakah proporsi tubuh siswa kami membutuhkan kelas ESL meningkat atau menurun?" Seorang kepala polisi mungkin bertanya. -Bagaimana trend kejahatan remaja di kota kami? Kejahatan remaja yang meningkat? Yang menurun? Yang tetap stabil? Bagaimana tren ini dibandingkan dengan jumlah remaja di populasi kita? Apakah jumlah remaja tetap sama dalam dekade berikutnya? "Yang terakhir ini mencakup sejumlah pertanyaan yang berbeda yang akan membantu kepala dan stafnya dalam perencanaan, tetapi semua akan diatasi melalui desain time-series sederhana. Seperti terganggu waktu-desain seri, desain time-series sering memanfaatkan informasi yang ada dalam rangka untuk memperoleh cukup pengamatan dari waktu ke waktu. keputusan-keputusan penting melibatkan waktu berkisar untuk menggunakan (triwulanan, setengah tahunan, tahunan) dan jumlah titik pengumpulan data untuk mendapatkan. Sebagai evaluator mengumpulkan informasi dari poin semakin jauh ke masa lalu, ia harus memastikan metode pengumpulan data sendiri tidak berubah. Perubahan cara pengumpulan data atau definisi istilah (Apa juvenile a? Apa tindak pidana? kejahatan yang dicatat? Apa kelas ESL? Apa yang dimaksud dengan kelahiran prematur?) dapat membuatnya tampak bahwa ada perubahan dalam fenomena yang diukur ketika pada kenyataannya perubahan itu disebabkan oleh perubahan penting dalam pengumpulan data. Variasi dari desain time-series adalah panel dan kelompok desain, yang sering dicap sebagai studi longitudinal, di mana orang yang sama atau serupa diikuti sepanjang waktu. Lihat O'Sullivan dan Rassel (1995) untuk informasi lebih lanjut tentang time-series dan desain cross-sectional.

INFORMASI KUANTITATIF 351

METODE OMMON UNTUK MENGUMPULKAN INFORMASI ANTITATIVE

Pada bagian ini kita akan membahas metode lain yang umum digunakan quantitatif untuk mengumpulkan informasi yang mungkin diperlukan untuk melaksanakan evaluasi, bersama dengan referensi untuk pengobatan yang lebih rinci masing-masing. Metode yang tercakup dalam bagian ini mungkin dianggap inventarisasi metode yang evaluator profesional harus mampu mempekerjakan. Tidak ada yang akan digunakan tanpa pandang bulu dalam setiap evaluasi. Masing-masing harus digunakan hanya setelah pemikiran yang cermat telah diberikan kepada (1) informasi yang diperlukan untuk menjawab pertanyaan-pertanyaan evaluasi dan (2) sejauh mana metode yang diusulkan akan memberikan jawaban yang memuaskan atas pertanyaan-pertanyaan evaluasi.

'Testing

Tes adalah salah satu metode untuk mengumpulkan informasi evaluatif. Untuk evaluator pendidikan, tes merupakan sumber utama informasi. Akuisisi pengetahuan sering tujuan utama dari program pendidikan, dan akuisisi pengetahuan umumnya, tetapi tidak selalu, diukur dengan tes. Evaluator di bidang lain juga menggunakan tes, meskipun kurang luas daripada evaluator pendidikan. Evaluator dalam pengaturan pelatihan dapat menggunakan tes, meskipun tujuan utama mereka sering aplikasi pada pekerjaan atau efek pada organisasi (lihat Bab 22). Evaluator dalam bidang kesehatan dapat menggunakan tes untuk banyak program pendidikan yang dilakukan untuk klien atau untuk program pendidikan kesehatan bagi titioners praktek ¬. Evaluator dalam pelayanan sosial dapat menggunakan tes untuk mengukur hasil dalam program kerja atau pengasuhan. Dengan demikian, semua evaluator perlu memiliki beberapa pengetahuan tentang tes sebagai instrumen pengumpulan data. Empat pendekatan untuk pengujian prestasi telah muncul: 'norma-referenced testing (NRT), kriteria-referenced tes (CRT), tujuan-referenced testing (ORT), dan domain-referenced testing (DRT). Keempat strategi memiliki banyak unsur yang sama, tetapi tergantung pada strategi yang dipilih, prosedur untuk pengembangan tes dan interpretasi bisa sangat berbeda. Tes Norm-referenced dimaksudkan terutama untuk membandingkan kinerja siswa terhadap orang lain mengambil tes yang sama. Mereka adalah tes rutin diberikan di sekolah kabupaten paling untuk menilai kemajuan. The California Achievement Test, Uji Komprehensif Keterampilan Dasar, dan Test Iowa Keterampilan Dasar adalah contoh umum. Kekuatan tes tersebut 1; bahwa mereka memungkinkan perbandingan dengan kelompok norma yang ditetapkan; dengan demikian, mereka dapat membantu dalam menjawab pertanyaan-pertanyaan seperti "Bagaimana sekolah kami lakukan dalam menyampaikan pengetahuan dan keterampilan yang diterima secara umum dibandingkan untuk sekolah-sekolah lain di negara ini?" "Di sini kita hanya berfokus pada menggunakan tes untuk mengukur prestasi siswa. Kami membahas terkait erat tetapi metode jelas berbeda menilai kinerja mahasiswa paling sering disebut sebagai penilaian langsung, penilaian kinerja, atau alternatif penilaian.

PEDOMAN PRAKTIS UNTUK MELAKUKAN DAN MENGGUNAKAN EVALUASI 352

Mungkin tidak berlaku untuk kurikulum yang dievaluasi. Untuk menjadi sangat berguna, perawatan harus dilakukan untuk memastikan bahwa isi dari item NRT dan pengetahuan dan keterampilan dipanggil untuk merespon dengan benar cocok cukup baik tujuan instruksional program yang akan dievaluasi. Berbeda dengan tes mengacu-norma, tes kriteria-direferensikan adalah khusus untuk mengukur kinerja terhadap beberapa kriteria mutlak. Item pada tes biasanya ditulis untuk mengatasi kurikulum tertentu dan dapat digunakan untuk mengevaluasi kemajuan siswa individual pada kurikulum. Tes tersebut memiliki validitas lebih banyak konten untuk tujuan mengevaluasi kurikulum daripada tes akan norma-referenced. Program dapat dinilai dengan proporsi siswa mencapai kriteria dengan titik tertentu dalam waktu. Pengujian Norm-referenced dan pengujian kriteria-direferensikan, namun keduanya memberikan standar untuk menilai kinerja siswa: kelompok norma atau kriteria masing-masing. Tujuan pengujian-referenced dan pengujian domain-direferensikan tidak memberikan standar tersebut. Sebaliknya, mereka menghasilkan data deskriptif tentang kinerja siswa tanpa penilaian terpasang. Tujuan tes-referenced menggunakan item kunci untuk tujuan instruksional tertentu. Tes semacam itu paling berguna untuk evaluasi formatif bagi guru atau pelatih. Tes Domain-referensi yang digunakan untuk memperkirakan pengetahuan siswa dari domain konten. Item yang tidak berhubungan dengan kurikulum melainkan untuk domain konten yang diukur (misalnya, sejarah Amerika, anatomi komparatif). Item ini juga dapat berguna untuk tujuan evaluatif, meskipun tes tersebut mahal untuk mengembangkan dibandingkan dengan tujuan-referenced dan tes kriteria-direferensikan. Mereka bisa, bagaimanapun, digunakan untuk menjawab pertanyaan-pertanyaan seperti "Berapa banyak lulusan kami tahu tentang konten X?" Standar dapat dikembangkan untuk mencerminkan atau harapan organisasi sekolah mengenai jumlah pengetahuan lulusan atau mahasiswa menyelesaikan kursus harus memiliki rangkaian Pengukuran Mental volume Yearbook dan Pengujian di Print (awalnya dikembangkan oleh 0. K. Buros dan saat ini dikelola oleh Buros Institute di University of Nebraska) adalah karya referensi berharga ketika memilih tes untuk pengumpulan data. Yang paling baru-baru ini adalah Conoley dan saya mpara (1995) Pengukuran Twelfth Mental Yearbook, yang melakukan review hampir 400 tes dan skala sikap. Sweetland dan Keyser (1986) juga memberikan review tes yang berguna.

Metode Penilaian Alternatif

Di sekolah, tes prestasi standar secara rutin digunakan untuk mengukur mencapai mental Namun, dalam beberapa tahun terakhir telah pindah dari hanya menggunakan tes standar untuk mengukur kemajuan. kepentingan Pemangku yang signifikan, termasuk banyak orang tua, guru, dan administrator, mempertanyakan apakah tes tersebut mengukur kemampuan siswa secara akurat dan komprehensif. Lebih lanjut, banyak guru dan administrator belum menemukan informasi yang berguna bagi mereka dalam merevisi atau mengelola proses pendidikan. Sebuah studi nasional penggunaan tes dalam pendidikan sains menemukan bahwa "sudah ada standar dan tes teks tertanam (tes publisher-disediakan) tidak memadai untuk mendukung reformasi di bidang ilmu pengetahuan dan matematika

INFORMASI KUANTITATIF 353

Pendidikan "(Harmon, 1995, hal. 32). Alternatif Harmon melihat muncul mengubah isi dari tes pilihan ganda (dia mengutip National Assessment of Educational Progress sebagai contoh tes yang mengukur berpikir tingkat tinggi dalam ilmu pengetahuan), buka-berakhir item tertulis, wawancara terstruktur, dan penilaian kinerja. Beberapa label telah digunakan untuk menggambarkan alternatif untuk tes standar, dengan yang paling umum adalah penilaian langsung, penilaian autentik, dan penilaian alternatif yang lebih generik. Meskipun berbagai deskriptor mencerminkan perbedaan halus dalam penekanan, beberapa jenis asesmen semua mencerminkan dua kesamaan pusat. Pertama, mereka semua dipandang sebagai alternaties untuk traditiOnat pilihan ganda, dipilih-jawaban tes prestasi. Kedua, mereka semua mengacu pada pemeriksaan langsung dari prestasi siswa pada tugas-tugas penting yang relevan dengan kehidupan di luar sekolah. Beberapa alternatif ini mencerminkan pengaruh pendukung positif Of metode kualitatif telah di bidang pengukuran. Alternatif-alternatif ini juga mengingatkan kita bahwa tes dapat dicapai baik oleh langkah-langkah kertas dan pensil dan dengan ukuran kinerja. (Lihat daftar metode pengumpulan data pada halaman 277 dalam Bab 15.) Tes kertas dan pensil yang direferensikan kriteria, tujuan direferensikan, atau domain direferensikan dapat ia termasuk dalam evaluasi untuk menginformasikan para kepentingan pemangku tentang kemajuan dan kekuatan dan kelemahan. Tapi ukuran kinerja, seperti perangkat simulasi, portofolio siswa, atau perdebatan lisan juga dapat sesuai, mengingat konten yang akan diukur. Dalam menilai pengetahuan atau keterampilan seperti evaluasi apapun, kuncinya adalah untuk memilih metode atau metode yang memberikan pertandingan terbaik untuk konten untuk ia diukur dan tujuan evaluasi. Dalam mengukur kemampuan percakapan dalam bahasa asing. Wawancara kemampuan bahasa terstruktur dengan jelas akan lebih tepat dibandingkan tes kertas dan pensil.

Dalam mengukur keterampilan menggunakan peralatan ilmiah untuk melakukan percobaan, penilaian kinerja di laboratorium mungkin akan sangat tepat. Dan dalam mengukur kemampuan untuk mengenali dan memperbaiki kesalahan tata bahasa dan ejaan, tes kertas dan pensil mungkin dia yang paling efisien. Untuk diskusi lebih rinci tentang metode pengujian alternatif dan uji mengembangkan ment ¬, lihat Perrone (1991) dan Worthen, Borg. dan White (1993). Untuk informasi tentang menggunakan penilaian kinerja untuk evaluasi pendidikan, lihat Mitchell (1992).

kuesioner

Kuesioner (kadang-kadang disebut sebagai "survei") 2 dapat dikembangkan untuk mengukur sikap, pendapat, perilaku, keadaan hidup (pendapatan, ukuran keluarga, kondisi perumahan, dll) atau masalah lainnya. Kuesioner memiliki kesamaan fakta bahwa mereka adalah ukuran kertas dan pensil yang dirancang untuk responden untuk melaporkan informasi. Langkah-langkah dapat diberikan secara individu, kelompok, atau melalui pos. Barang jenis termasuk item terbuka yang analisis isi digunakan;"Survey" lebih tepat mengacu pada metode umum, sementara "kuesioner," 'protokol wawancara, "dan sejenisnya mengacu pada instrumen yang digunakan untuk mengumpulkan data aktual.

PEDOMAN PRAKTIS UNTUK MELAKUKAN DAN MENGGUNAKAN EVALUATION 354

Short-jawaban terbuka item (misalnya, jumlah anak-anak): item pilihan ganda; item dengan tanggapan kata sifat (misalnya, penilaian item menggunakan sangat baik, sangat baik, baik, adil, miskin); item dengan tanggapan adverbia (selalu, sering, dll); dan item menyamakan skala, yang akan dibahas dalam bagian ini. Seperti halnya jenis informasi yang akan dikumpulkan, evaluator pertama harus mempertimbangkan apakah ada kuesioner yang ada yang akan sesuai untuk digunakan dalam penelitian ini. Volume Mental Pengukuran Yearbook (lihat Conoley & lmpara, 1995) menggambarkan dan referensi berbagai skala sikap. Referensi yang lebih khusus dari skala sikap meliputi Handbook of Scales Riset Kejahatan dan Kenakalan (Brodsky & Smitherman, 1983) pada sikap terhadap kejahatan dan polisi atau laporan diri dari perilaku kriminal. Langkah-langkah untuk Clinical Practice: A Sourcebook (Corcoran & Fisher, 1987) memuat langkah-langkah yang diuji fenomena seperti konsep diri, kepuasan dengan kehidupan, kesepian, kecemasan, dan depresi, yang dapat digunakan oleh nonclinicians. The Clinical Pengukuran Paket: Sebuah Pedoman Lapangan (Hudson, 1982) menyajikan langkah-langkah pada isu-isu seperti sikap orangtua, hubungan teman sebaya, hubungan keluarga dan isu-isu lainnya. McDowell dan Newell (1987) menggambarkan kuesioner untuk digunakan di arena kesehatan. Cara lain untuk belajar dari baru-baru ini, langkah-langkah umum diterima adalah melalui tinjauan literatur yang dilakukan oleh evaluator selama tahap perencanaan. Perhatikan langkah-langkah yang digunakan oleh evaluator lain dalam studi ini dan mempertimbangkan kesesuaian untuk tujuan Anda sendiri. Ketika tujuan survei adalah untuk mengukur opini, perilaku, sikap atau keadaan hidup cukup spesifik untuk program yang akan dievaluasi, evaluator cenderung ia dihadapkan dengan mengembangkan instrumen sendiri. Dalam hal ini, kami sarankan mengembangkan rencana desain untuk kuesioner analog dengan desain evaluasi yang digunakan untuk seluruh evaluasi. Pada kolom pertama, daftar pertanyaan (bukan item) yang harus dijawab oleh survei. Artinya, pertanyaan apa yang harus hasil survei ini menjawab? Dalam kolom kedua, menunjukkan jenis item (s) yang harus digunakan untuk memperoleh informasi ini. Sebuah kolom ketiga dapat ia digunakan setelah item dikembangkan untuk referensi nomor item yang menjawab pertanyaan ini. Kolom keempat kemudian dapat menentukan alat analisis. Gambar 17.1 memberikan ilustrasi. Desain ini kemudian menjadi panduan untuk perencanaan survei dan menganalisis informasi yang diperoleh. Ini membantu evaluator untuk memastikan dia termasuk dalam jumlah yang memadai item untuk menjawab setiap pertanyaan. (Beberapa pertanyaan membutuhkan lebih item daripada yang lain.) Desain juga membantu menghindari item yang terdengar menarik tetapi sebenarnya tidak benar-benar menjawab semua pertanyaan evaluasi. Evaluator dapat memutuskan untuk memasukkan barang-barang tersebut, tetapi tujuan mereka harus lebih dieksplorasi. Item yang tidak menjawab pertanyaan yang menarik memperpanjang kuesioner dan menunjukkan rasa tidak hormat untuk waktu dan privasi responden. Dalam memilih jenis item, pertimbangkan bahwa banyak variabel dapat diukur dengan beberapa format item yang berbeda.