ทฤษฎีการทดสอบแบบคลาสสิก

ทฤษฎีการทดสอบแบบคลาสสิก / จิตวิทยาเชิงทดลอง

การทดสอบคือ เครื่องมือวิทยาศาสตร์ เท่าที่มันวัดสิ่งที่ตั้งใจคือว่ามันถูกต้องและมาตรการที่ดีนั่นคือมันแม่นยำหรือเชื่อถือได้ หากเราพบเครื่องมือที่เราไม่สามารถเชื่อถือมาตรการที่พวกเขาให้เนื่องจากมันแตกต่างกันเป็นครั้งคราวเมื่อเราวัดวัตถุเดียวกันจากนั้นเราจะบอกว่ามันไม่น่าเชื่อถือ เครื่องมือวัด ได้อย่างถูกต้อง สิ่งนั้นจะต้องแม่นยำเพราะมิฉะนั้นวัดสิ่งที่คุณวัดวัดผิด ดังนั้นความแม่นยำเป็นเงื่อนไขที่จำเป็น แต่ไม่เพียงพอ นอกจากนี้จะต้องถูกต้องนั่นคือสิ่งที่มันวัดอย่างถูกต้องจะเป็นสิ่งที่มันมีจุดประสงค์เพื่อวัดและไม่มีอะไรอื่น.

คุณอาจสนใจ: ทฤษฎีการตอบสนองรายการ - การใช้งานและการทดสอบ

ความน่าเชื่อถือ:

ความน่าเชื่อถือแบบสัมบูรณ์และสัมพัทธ์: เราสามารถจัดการปัญหาของความน่าเชื่อถือของการทดสอบได้สองวิธีที่แตกต่างกัน.

ความน่าเชื่อถือเป็นความไม่ถูกต้องของการวัด: เมื่อผู้ทดสอบตอบสนองต่อการทดสอบเขาจะได้รับคะแนนเชิงประจักษ์ซึ่งได้รับผลกระทบจากข้อผิดพลาด หากไม่มีข้อผิดพลาดเรื่องจะได้รับคะแนนที่แท้จริงของเขา การทดสอบไม่แน่ชัดเนื่องจากคะแนนเชิงประจักษ์ไม่ตรงกับคะแนนจริง ความแตกต่างระหว่างคะแนนทั้งสองนี้คือข้อผิดพลาดการสุ่มตัวอย่างข้อผิดพลาดการวัด ข้อผิดพลาดทั่วไปของการวัด จะเป็น ค่าเบี่ยงเบนมาตรฐานของข้อผิดพลาดการวัด. ข้อผิดพลาดทั่วไปของการวัด บ่งบอกถึงความแม่นยำที่แท้จริงของการทดสอบเนื่องจากสามารถประเมินความแตกต่างระหว่างการวัดที่ได้รับกับค่าที่จะได้รับหากไม่มีข้อผิดพลาด.

ความน่าเชื่อถือเป็นเสถียรภาพของการวัด: การทดสอบจะมีความน่าเชื่อถือมากขึ้นผลที่คงที่หรือมั่นคงยิ่งขึ้นเมื่อมีการทำซ้ำ ยิ่งผลลัพธ์มีความเสถียรมากขึ้นสองครั้งก็จะยิ่งมีความสัมพันธ์มากขึ้น ความสัมพันธ์นี้เรียกว่า ค่าสัมประสิทธิ์ความน่าเชื่อถือ. นี่เป็นการแสดงออกถึงเราไม่ใช่จำนวนข้อผิดพลาด แต่เป็นการเชื่อมโยงการทดสอบกับตัวเองและความมั่นคงของข้อมูลที่นำเสนอ ค่าสัมประสิทธิ์ความน่าเชื่อถือ เป็นการแสดงออกถึงความน่าเชื่อถือสัมพัทธ์ของการทดสอบ.

ค่าสัมประสิทธิ์ความน่าเชื่อถือและดัชนีความน่าเชื่อถือ: - ค่าสัมประสิทธิ์ความน่าเชื่อถือ ของการทดสอบคือความสัมพันธ์ของการทดสอบกับตัวเองที่ได้รับเช่นในสองรูปแบบขนาน: rxx. - ดัชนีความแม่นยำ คือความสัมพันธ์ระหว่างคะแนนเชิงประจักษ์ของการทดสอบและคะแนนที่แท้จริงของมัน: rxv ดัชนีความแม่นยำจะมากกว่าค่าสัมประสิทธิ์ความน่าเชื่อถือเสมอเพื่อหาค่าสัมประสิทธิ์ความน่าเชื่อถือวิธีการทั้งสามแบบคลาสสิคนี้น่าสนใจ:

  • ค้นหาความสัมพันธ์ระหว่างการทดสอบและการทำซ้ำ: วิธีการทำซ้ำหรือวิธีทดสอบซ้ำ: ประกอบด้วยการใช้การทดสอบเดียวกันกับกลุ่มเดียวกันสองครั้งและการคำนวณความสัมพันธ์ระหว่างคะแนนทั้งสองชุด ความสัมพันธ์นี้คือสัมประสิทธิ์ความน่าเชื่อถือ วิธีนี้มักจะให้ค่าสัมประสิทธิ์ความน่าเชื่อถือสูงกว่าวิธีอื่นที่ได้รับและอาจมีการปนเปื้อนจากปัจจัยรบกวน.
  • ค้นหาความสัมพันธ์ระหว่างรูปแบบขนานสองรูปแบบของการทดสอบ: วิธีการของรูปแบบขนาน: เตรียมรูปแบบขนานสองรูปแบบของแบบทดสอบเดียวกันนั่นคือรูปแบบเทียบเท่าสองรูปแบบที่ให้ข้อมูลเดียวกันและนำไปใช้กับกลุ่มวิชาเดียวกัน ความสัมพันธ์ระหว่างทั้งสองรูปแบบคือสัมประสิทธิ์ความน่าเชื่อถือ ด้วยวิธีนี้หากไม่ทำการทดสอบซ้ำซ้ำจะทำให้หลีกเลี่ยงแหล่งที่มาของความน่าเชื่อถือในการทดสอบซ้ำ.
  • ค้นหาความสัมพันธ์ระหว่างสองส่วนที่ขนานกันของการทดสอบ: วิธีการของทั้งสองส่วน: การทดสอบแบ่งออกเป็นสองส่วนเท่ากันและพบความสัมพันธ์ระหว่างพวกเขา มันเป็นวิธีที่ดีกว่าเพราะมันง่ายและไม่สนใจข้อ จำกัด ของขั้นตอนก่อนหน้า คุณสามารถเลือกองค์ประกอบคี่ของการทดสอบเพื่อประกอบเป็นครึ่งหนึ่งและองค์ประกอบคู่เพื่อประกอบอีกส่วน.

ค่าสัมประสิทธิ์ความน่าเชื่อถือและความสัมพันธ์ระหว่างการทดสอบแบบขนาน

ค่าสัมประสิทธิ์ความน่าเชื่อถือ ของการทดสอบบ่งบอกถึงสัดส่วนที่ความแปรปรวนที่แท้จริงเป็นความแปรปรวนเชิงประจักษ์: gráfico33 ค่าสัมประสิทธิ์ความน่าเชื่อถือของการทดสอบแตกต่างกันไประหว่าง 0 และ 1 ตัวอย่างเช่น: หากความสัมพันธ์ระหว่างการทดสอบสองแบบขนานคือ rxx´ = 0.80 หมายถึง 80% ของความแปรปรวนของการทดสอบเกิดจากการวัดจริงและส่วนที่เหลือนั่นคือ 20% ของการทดสอบความแปรปรวนเกิดจากข้อผิดพลาด ดัชนีความน่าเชื่อถือ ของการทดสอบคือความสัมพันธ์ระหว่างคะแนนเชิงประจักษ์กับดัชนีความน่าเชื่อถือที่แท้จริงของดัชนี = ดัชนีความน่าเชื่อถือเท่ากับรากที่สองของสัมประสิทธิ์ความน่าเชื่อถือ

เมื่อมีการพัฒนาแบบทดสอบสองรูปแบบแบบขนานขั้นตอนการวิเคราะห์ความแปรปรวนจะถูกนำไปใช้เพื่อตรวจสอบความสม่ำเสมอของความแปรปรวนและความแตกต่างระหว่างการวัด หากความแปรปรวนเป็นเนื้อเดียวกันความแตกต่างระหว่างค่าเฉลี่ยนั้นไม่มีนัยสำคัญและรูปแบบทั้งสองนั้นถูกสร้างขึ้นด้วยองค์ประกอบจำนวนเท่ากันในประเภทเดียวกันและเนื้อหาทางจิตวิทยาก็สามารถกล่าวได้ว่ามันขนานกัน ถ้าไม่คุณต้องปฏิรูปพวกเขาจนกว่าพวกเขาจะ การขาดความน่าเชื่อถือถูกระบุด้วยค่า rxx´= 0 4.- ข้อผิดพลาดทั่วไปของการวัด: ความแตกต่างระหว่างเชิงประจักษ์และคะแนนจริงคือข้อผิดพลาดแบบสุ่มที่เรียกว่าข้อผิดพลาดการวัด ค่าเบี่ยงเบนมาตรฐานของข้อผิดพลาดการวัดเรียกว่าข้อผิดพลาดการวัดทั่วไป ข้อผิดพลาดทั่วไปของการวัด ช่วยให้การประเมินเกี่ยวกับความน่าเชื่อถือที่แน่นอนของการทดสอบนั่นคือการประมาณว่าข้อผิดพลาดการวัดมีผลต่อคะแนน.

ความน่าเชื่อถือและความยาว: ความยาวของการทดสอบหมายถึงจำนวนองค์ประกอบ ความน่าเชื่อถือขึ้นอยู่กับความยาวนี้ หากการทดสอบประกอบด้วยสามองค์ประกอบผู้ทดสอบสามารถได้คะแนน 1 และอีกรายการหนึ่งหรืออีกวิธีหนึ่งแบบขนานคะแนนของ

จากโอกาสหนึ่งไปยังอีกคะแนนมีความหลากหลายโดยจุดหนึ่ง; จุดที่อยู่เหนือสามจุดคือการแปรผันของ 33% ซึ่งเป็นความแปรปรวนสูง หากผู้เข้าร่วมการวิจัยได้รับการสุ่มประเภทนี้ความสัมพันธ์ของการทดสอบด้วยตัวเองหรือแบบทดสอบสองรูปแบบขนานจะลดลงอย่างมากและไม่สามารถสูงได้ หากการทดสอบนั้นมีความยาวมากเช่นคุณมี 100 ข้อวัตถุสามารถได้ 70 คะแนนในโอกาสเดียวและ 67 คะแนนในแบบคู่ขนาน จากหนึ่งไปยังอีกมันมีการเปลี่ยนแปลง 3 คะแนน; มันเป็นความแปรปรวนที่ค่อนข้างเล็กเมื่อเทียบกับการทดสอบทั้งหมดโดยเฉพาะ 3% การเปลี่ยนแปลงเล็ก ๆ น้อย ๆ แบบไม่เป็นทางการของขนาดนี้ซึ่งเกิดขึ้นในคะแนนของอาสาสมัครเมื่อไปจากแบบฟอร์มหนึ่งไปยังแบบขนานนั้นค่อนข้างไม่สำคัญและจะไม่ลดน้อยลงมากเท่าก่อนความสัมพันธ์ระหว่างทั้งสอง.

ค่าสัมประสิทธิ์ความน่าเชื่อถือจะสูงกว่าในกรณีก่อนหน้ามาก สมการสเปียร์แมน - บราวน์แสดงความสัมพันธ์ระหว่างความน่าเชื่อถือและความยาว ความแม่นยำของการทดสอบเป็นศูนย์เมื่อความยาวเป็น 0 และเพิ่มขึ้นเมื่อความยาวเพิ่มขึ้น แม้ว่าการเพิ่มขึ้นจะค่อนข้างเล็กตามความยาวของส่วนที่มากกว่า ซึ่งหมายความว่าความแม่นยำเติบโตขึ้นมากในช่วงเริ่มต้นและค่อนข้างน้อยในภายหลัง เมื่อความยาวมีแนวโน้มที่จะไม่มีที่สิ้นสุดค่าสัมประสิทธิ์ความน่าเชื่อถือมีแนวโน้มที่จะ

โดยการเพิ่มความยาวของการทดสอบความแม่นยำจะเพิ่มขึ้นเนื่องจากจะเพิ่มความแปรปรวนที่แท้จริงในอัตราที่สูงกว่าการแปรปรวนของข้อผิดพลาด ซึ่งหมายความว่าความแม่นยำของการทดสอบเพิ่มขึ้นเนื่องจากสัดส่วนของความแปรปรวนเนื่องจากข้อผิดพลาดลดลง สูตรของ Rulon เช่นเดียวกับสูตรของ Flanagan และ Guttman มีผลบังคับใช้โดยเฉพาะอย่างยิ่งเมื่อคำนวณค่าสัมประสิทธิ์ความน่าเชื่อถือโดยวิธีการของสองส่วน เหล่านี้เป็นสูตรที่ใช้ในการคำนวณค่าสัมประสิทธิ์ความน่าเชื่อถือ.

ความน่าเชื่อถือและความมั่นคง: ค่าสัมประสิทธิ์ความน่าเชื่อถือสามารถพบได้ในอีกทางหนึ่งมันเป็นสิ่งที่เรียกว่า สัมประสิทธิ์อัลฟา หรือ สัมประสิทธิ์ของ generalizability หรือเป็นตัวแทน (Cronbach). สัมประสิทธิ์อัลฟานี้บ่งบอกถึงความแม่นยำซึ่งบางรายการวัดลักษณะของบุคลิกภาพหรือพฤติกรรม สามารถตีความได้ว่า: การประมาณค่าความสัมพันธ์เฉลี่ยของรายการที่เป็นไปได้ทั้งหมดในบางแง่มุม การวัดความแม่นยำของการทดสอบตามความสอดคล้องหรือความสอดคล้องภายในของมัน (ความสัมพันธ์ระหว่างองค์ประกอบกับสิ่งที่ขอบเขตขององค์ประกอบการทดสอบจะถูกวัดเหมือนกันทั้งหมด) และความยาวของมัน บ่งบอกถึงการเป็นตัวแทนของการทดสอบนั่นคือจำนวนเงินที่ตัวอย่างของรายการที่ประกอบด้วยมันเป็นตัวแทนของประชากรของรายการที่เป็นไปได้ของประเภทเดียวกันและเนื้อหาทางจิตวิทยา สัมประสิทธิ์อัลฟา สะท้อนหลักแนวคิดสองหลักในความแม่นยำของการทดสอบ: 1. ความสัมพันธ์ระหว่างองค์ประกอบ: ขอบเขตที่พวกเขาทั้งหมดวัดสิ่งเดียวกัน.

ความยาวของการทดสอบ: เมื่อเพิ่มจำนวนผู้ป่วยตัวอย่างและหากระบบมีข้อผิดพลาดถูกกำจัดออกไปกลุ่มตัวอย่างจะแสดงประชากรที่ดีกว่าที่ได้รับการดึงออกมาและไม่น่าเป็นไปได้มากที่จะเกิดข้อผิดพลาดโดยอุบัติเหตุ หากรายการของการทดสอบมีการแบ่งขั้ว (ใช่หรือไม่ใช่, 1 หรือ 0, ข้อตกลงหรือความขัดแย้ง, ฯลฯ ), สมการของสัมประสิทธิ์อัลฟานั้นง่ายขึ้นทำให้สมการของ Kuder-Richardson (KR20 และ KR21). เมื่อได้รับจำนวนหนึ่งรายการการทดสอบจะมีความน่าเชื่อถือมากขึ้นเมื่อเป็นเนื้อเดียวกันมากขึ้น สัมประสิทธิ์อัลฟาบอกเราถึงความน่าเชื่อถือเนื่องจากมันแสดงถึงความเป็นเนื้อเดียวกันและความสม่ำเสมอหรือความสอดคล้องภายในขององค์ประกอบของการทดสอบ.

เกณฑ์มาตรฐานและความน่าเชื่อถือ

ตามรูปแบบของพื้นที่ตัวอย่างของรายการวัตถุประสงค์ของการทดสอบคือการประเมินการวัดที่จะได้รับหากรายการทั้งหมดในพื้นที่ตัวอย่างถูกนำมาใช้ การวัดนี้จะเป็นคะแนนจริงซึ่งการวัดจริงโดยประมาณจะมากหรือน้อย ขึ้นอยู่กับระดับที่ตัวอย่างของรายการมีความสัมพันธ์กับคะแนนจริงการทดสอบมีความน่าเชื่อถือมากขึ้นหรือน้อยลง ในโมเดลนี้เมทริกซ์ของความสัมพันธ์ระหว่างรายการทั้งหมดในพื้นที่ตัวอย่างคือส่วนกลางโมเดลตัวอย่างนี้ยืนยันโดยตรงเกี่ยวกับความสอดคล้องภายในมากขึ้นและตราบเท่าที่มันบรรลุผลสำเร็จรับประกันความมั่นคงโดยอ้อม.

แบบจำลองเชิงเส้นของการทดสอบแบบขนานยืนยันเพิ่มเติมเกี่ยวกับความมั่นคงของคะแนนและในระดับที่จะบรรลุความมั่นคงมันสนับสนุนความมั่นคงภายในโดยทางอ้อม หากเราใช้การทดสอบเพื่อสร้างการวินิจฉัยและการคาดการณ์แต่ละค่าสัมประสิทธิ์ความน่าเชื่อถือควรจะเป็น 0.90 ขึ้นไป ในการพยากรณ์และการจำแนกประเภทโดยรวมมันไม่ได้เป็นข้อกำหนดมากนักแม้ว่าจะไม่สะดวกในการหลีกหนีจาก 0'90 ถึง 0'80.

บางครั้งในการทดสอบบางประเภทเช่นการทดสอบบุคลิกภาพเป็นการยากที่จะบรรลุค่าสัมประสิทธิ์มากกว่า 0.70 หากมีการใช้แบบฟอร์มขนานหรือแบ่งครึ่งขนานหลังจากช่วงเวลาที่มีขนาดใหญ่มากหรือน้อยข้อผิดพลาดชั่วคราวอาจมีจำนวนมากกว่าแบบฟอร์มที่มีผลต่อสัมประสิทธิ์อัลฟ่า นี่เป็นเช่นนั้นเพราะสิ่งที่ช่วยลดความสัมพันธ์ไม่เพียง แต่เป็นข้อผิดพลาดแบบสุ่มในการทดสอบและในโอกาสเดียวซึ่งเป็นสิ่งที่คำนึงถึงสัมประสิทธิ์อัลฟ่า แต่ยังมีอิทธิพลต่อข้อผิดพลาดทั้งหมดที่อาจมาจากสองสถานการณ์ที่แตกต่างกัน ซึ่งอาจแตกต่างกันในรายละเอียดมากมาย ดังนั้นค่าสัมประสิทธิ์อัลฟาจึงมักจะสูงกว่าค่าสัมประสิทธิ์อื่น ๆ.

ยกเว้นค่าสัมประสิทธิ์ที่พบโดยการทำซ้ำการทดสอบเดียวกันเนื่องจากมีความเป็นไปได้มากกว่าที่ข้อผิดพลาดแบบสุ่มของแอปพลิเคชั่นแรกจะถูกทำซ้ำในครั้งที่สองและแทนที่จะลดความสัมพันธ์ระหว่างทั้งสองเพิ่มขึ้น จะต้องมั่นใจว่าแอปพลิเคชันที่สองเป็นอิสระอย่างสมบูรณ์จากครั้งแรก หากเราบรรลุเป้าหมายนี้จะเป็นวิธีที่ง่ายที่สุดและถูกที่สุดและแนะนำให้ใช้เมื่อพยายามที่จะชื่นชมความมั่นคงของคะแนนโดยเฉพาะในช่วงระยะเวลานานและการทดสอบที่ซับซ้อน > ถัดไป: ความถูกต้องของการทดสอบ

บทความนี้เป็นข้อมูลที่ครบถ้วนใน Online Psychology เราไม่มีคณะที่จะทำการวินิจฉัยหรือแนะนำการรักษา เราขอเชิญคุณให้ไปหานักจิตวิทยาเพื่อรักษาอาการของคุณโดยเฉพาะ.

หากคุณต้องการอ่านบทความเพิ่มเติมที่คล้ายกับ ทฤษฎีการทดสอบแบบคลาสสิก, เราแนะนำให้คุณเข้าสู่หมวดจิตวิทยาการทดลองของเรา.