ทฤษฎีการตอบสนองต่อรายการ - การใช้งานและการทดสอบ
ภายในเขตของ ทฤษฎีการทดสอบไซโครเมทริกซ์ นิกายต่าง ๆ ปรากฏว่าในปัจจุบันใช้ชื่อ "ทฤษฎีการตอบสนองต่อรายการ" (F.M. Lord, 1980) นิกายนี้นำเสนอความแตกต่างบางประการเกี่ยวกับโมเดลคลาสสิก: 1.- ความสัมพันธ์ระหว่างค่าที่คาดหวังของคะแนนของหัวเรื่องและลักษณะ (คุณลักษณะที่รับผิดชอบค่า) มักไม่เป็นเส้นตรง 2.- มุ่งหวังที่จะทำให้การคาดการณ์รายบุคคลโดยไม่ต้องอ้างถึงลักษณะของกลุ่มกฎเกณฑ์.
คุณอาจสนใจใน: ดัชนีทฤษฎีการทดสอบคลาสสิก- ทฤษฎีการตอบสนองต่อรายการหรือรูปแบบของลักษณะแฝงในทฤษฎีของการทดสอบ
- แบบจำลองของทฤษฎีการตอบสนองข้อ (ไตร)
- การประมาณค่าพารามิเตอร์
- ทดสอบการก่อสร้าง
- การประยุกต์ทฤษฎีการตอบสนองข้อสอบ
- การตีความคะแนน
ทฤษฎีการตอบสนองต่อรายการหรือรูปแบบของลักษณะแฝงในทฤษฎีของการทดสอบ
จากนั้นเราจะเห็นว่าทฤษฎีการตอบสนองต่อรายการนี้ให้ความเป็นไปได้ในการอธิบายรายการแยกกันเช่นเดียวกับบุคคล นอกจากนี้ยังพิจารณาว่าการตอบสนองที่ได้รับจากวิชานั้นขึ้นอยู่กับระดับของทักษะที่มีอยู่ในช่วงที่พิจารณา ต้นกำเนิดของโมเดลเหล่านี้เกิดจาก Lazarsfeld, 1950 ซึ่งเป็นผู้แนะนำคำว่า "คุณสมบัติแฝง" .
จากที่นี่จะถือว่าบุคคลแต่ละคนมีพารามิเตอร์ส่วนบุคคลซึ่งมีความรับผิดชอบในลักษณะของเรื่องที่เรียกว่า "ลักษณะ" คุณลักษณะนี้ไม่สามารถวัดได้โดยตรงดังนั้นพารามิเตอร์แต่ละตัวจึงเรียกว่าตัวแปรแฝง เมื่อทำการทดสอบคุณจะได้รับสองสิ่งที่แตกต่างกันคะแนนจริงและระดับความฟิต นี่คือความสำเร็จถ้าเราผ่านการทดสอบสองครั้งในการออกกำลังกายเดียวกันไปยังกลุ่มเดียวกัน.
ในทฤษฎีของแฝงลักษณะหรือทฤษฎีการตอบสนองต่อรายการ คะแนนจริงคือค่าที่คาดหวังจากคะแนนที่สังเกตได้ ตามที่พระเจ้าให้คะแนนจริงและความเหมาะสมเหมือนกัน แต่แสดงในระดับต่าง ๆ ของการวัด.
แบบจำลองของทฤษฎีการตอบสนองข้อ (ไตร)
แบบจำลอง Binomial Error: ได้รับการแนะนำโดย Lord (1965) ซึ่งถือว่าคะแนนที่สังเกตนั้นสอดคล้องกับจำนวนคำตอบที่ถูกต้องที่ได้รับในการทดสอบ (ซึ่งรายการนั้นมีความยากลำบากเหมือนกันและมีความเป็นอิสระในท้องถิ่นนั่นคือความน่าจะเป็น ในการตอบกลับอย่างถูกต้องกับรายการจะไม่ได้รับผลกระทบจากคำตอบที่ให้ไว้กับรายการอื่น ๆ ).
โมเดลปัวซอง: แบบจำลองเหล่านี้เหมาะสำหรับการทดสอบที่มีจำนวนมากและความน่าจะเป็นของคำตอบที่ถูกหรือไม่ถูกต้องมีขนาดเล็ก ภายในกลุ่มนี้เรามีโมเดลที่แตกต่างกัน:
- แบบจำลองปัวซองเซียนของ Rasch, ซึ่งมีสมมติฐานคือ: การทดสอบแต่ละรายการมีรายการไบนารีจำนวนมากที่เป็นอิสระในท้องถิ่น ความน่าจะเป็นของข้อผิดพลาดในแต่ละรายการมีขนาดเล็ก ความน่าจะเป็นที่ผู้ทดสอบสร้างข้อผิดพลาดขึ้นอยู่กับสองสิ่ง: ความยากของการทดสอบและความถนัดของผู้ทดสอบ การเพิ่มความยากของความยากลำบากซึ่งเป็นผลมาจากการผสมการทดสอบสองแบบที่เทียบเท่ากันในการทดสอบเดี่ยวซึ่งความยากลำบากคือผลรวมของความยากลำบากของการทดสอบเริ่มต้นสองครั้ง.
- แบบจำลองปัวซองเพื่อประเมินความเร็ว: รุ่นนี้ถูกเสนอโดย Rasch และมีลักษณะเนื่องจากความเร็วในการดำเนินการทดสอบจะถูกนำมาพิจารณา แบบจำลองสามารถเสนอได้สองวิธี: นับจำนวนข้อผิดพลาดที่เกิดขึ้นและจำนวนคำที่อ่านในหน่วยเวลา นับจำนวนข้อผิดพลาดที่กระทำและเวลาที่ใช้ในการอ่านข้อความให้เสร็จ ความน่าจะเป็นในการทำให้จำนวนคำในการทดสอบ (i) โดยหัวเรื่อง (j) เป็นเวลา (t)
- Ojiva Normal Models: เป็นแบบจำลองที่เสนอโดย Lord (1968) ซึ่งใช้ในการทดสอบกับรายการแบบแบ่งขั้วและมีตัวแปรเดียวเท่านั้นที่เหมือนกันกราฟของมันจะเป็นดังนี้: สมมติฐานพื้นฐานที่อธิบายลักษณะของแบบจำลองนี้คือ:
- พื้นที่ของตัวแปรแฝงคือหนึ่งมิติ (k = 1).
- ความเป็นอิสระของท้องถิ่นระหว่าง intems.
- สามารถเลือกเมตริกสำหรับตัวแปรแฝงเพื่อให้เส้นโค้งของแต่ละรายการเป็นจรวดรบปกติ.
แบบจำลองโลจิสติกส์; มันเป็นแบบจำลองที่คล้ายกับรุ่นก่อน ๆ แต่ก็มีข้อดีมากกว่าเมื่อเทียบกับการรักษาทางคณิตศาสตร์ ฟังก์ชันลอจิสติกใช้รูปแบบต่อไปนี้: มีโมเดลลอจิสติกที่แตกต่างกันขึ้นอยู่กับจำนวนของพารามิเตอร์ที่มี:
- โมเดลโลจิสติก 2 พารามิเตอร์, Birnbaum 2511 ในลักษณะที่เราพูดถึงว่ามันเป็นหนึ่งมิติมีความเป็นอิสระในท้องถิ่นองค์ประกอบที่มีสองขั้ว ฯลฯ
- แบบจำลองลอจิสติก 3 พารามิเตอร์, ลอร์ดมีลักษณะเนื่องจากความน่าจะเป็นของการกดปุ่มโดยการทำนายเป็นปัจจัยที่จะมีผลต่อประสิทธิภาพของการทดสอบ 4.3 โมเดลโลจิสติกส์ 4 พารามิเตอร์: โมเดลที่เสนอโดย McDonald 1967 และ Barton-Lord ในปี 1981 ซึ่งมีวัตถุประสงค์เพื่ออธิบายกรณีเหล่านั้นซึ่งผู้ที่มีระดับความฟิตสูงไม่ตอบสนองต่อรายการอย่างถูกต้อง.
- Logistic model ของ Rasch: รุ่นนี้เป็นงานที่สร้างจำนวนงานมากที่สุดแม้จะมีข้อเสียเปรียบนี่คือการปรับข้อมูลจริงให้เป็นเรื่องยากมากขึ้น แต่ในทางตรงกันข้ามกับข้อได้เปรียบที่ทำให้มันใช้คือมันไม่จำเป็นต้องมีขนาดใหญ่ ขนาดตัวอย่างสำหรับการปรับของคุณ.
การประมาณค่าพารามิเตอร์
วิธีที่มีการใช้มากที่สุดคือความน่าจะเป็นสูงสุดถัดจากวิธีการคำนวณเชิงตัวเลขเช่น Newton-Raphson และ Scoring (Rao) วิธีความน่าจะเป็นสูงสุดนั้นตั้งอยู่บนหลักการของการได้รับตัวประมาณค่าพารามิเตอร์ที่ไม่รู้จักซึ่งจะเพิ่มความน่าจะเป็นในการได้รับตัวอย่างดังกล่าว นอกเหนือจากความเป็นไปได้สูงสุดแล้วการประมาณแบบเบย์ยังถูกนำมาใช้ตามทฤษฎีบทของเบย์ซึ่งประกอบไปด้วยการรวบรวมข้อมูลที่รู้จักกันทั้งหมดซึ่งมีความเกี่ยวข้องกับกระบวนการในการหาข้อสรุป การศึกษาเชิงลึกเพิ่มเติมเกี่ยวกับวิธีการแบบเบย์สำหรับการประมาณค่าพารามิเตอร์ความฟิตคือ Birnbaum (1996) และ Owen (1975) .
ฟังก์ชั่นข้อมูล
การทดสอบที่ดีที่สุดที่สามารถสร้างได้คือสิ่งที่ให้ข้อมูลมากที่สุดเกี่ยวกับลักษณะแฝง การหาปริมาณของข้อมูลนี้ทำได้ผ่าน "ฟังก์ชั่นข้อมูล" สูตรของฟังก์ชันข้อมูล Birnbaum 1968 มีดังต่อไปนี้: จะต้องนำมาพิจารณาว่าข้อมูลที่ได้รับในการทดสอบคือผลรวมของข้อมูลของแต่ละรายการนอกเหนือจากการมีส่วนร่วมของแต่ละรายการไม่ขึ้นอยู่กับส่วนที่เหลือของรายการ ที่ทำขึ้นการทดสอบ ในแง่ทั่วไปเราสามารถพูดได้ว่าข้อมูลในทุกรุ่น:
- แตกต่างกันไปตามระดับการออกกำลังกาย.
- ยิ่งความชันของเส้นโค้งมากเท่าไหร่ข้อมูลก็จะยิ่งมากขึ้นเท่านั้น.
- ขึ้นอยู่กับความแปรปรวนของคะแนนยิ่งสูงข้อมูลก็จะยิ่งน้อยลงเท่านั้น.
ทดสอบการก่อสร้าง
ภารกิจแรก และหนึ่งในสิ่งที่สำคัญที่สุดในช่วงเวลาของการสร้างการทดสอบคือการเลือกของรายการคอร์ดก่อนหน้าของสมมติฐานทางทฤษฎีที่จะต้องกำหนดคุณสมบัติที่การทดสอบตั้งใจที่จะวัด แนวคิด "การวิเคราะห์รายการ" หมายถึงชุดของขั้นตอนอย่างเป็นทางการที่ดำเนินการเพื่อเลือกรายการเหล่านั้นซึ่งจะเป็นรูปแบบการทดสอบในที่สุด ข้อมูลที่พิจารณาว่าเกี่ยวข้องกับรายการมากที่สุดคือ:
- ความยากลำบากของรายการเปอร์เซ็นต์ของบุคคลที่ตอบคำถาม.
- การเลือกปฏิบัติความสัมพันธ์ของแต่ละรายการที่มีคะแนนรวมในการทดสอบ.
- สิ่งรบกวนหรือการวิเคราะห์ข้อผิดพลาดมีอิทธิพลต่อความเกี่ยวข้องมีผลกระทบต่อความยากลำบากของรายการและทำให้ค่าการเลือกปฏิบัติถูกประเมินต่ำเกินไป.
ในช่วงเวลาของการสร้างตัวชี้วัดของดัชนีที่แตกต่างกันสถิติหรือดัชนีมักจะใช้ต่อไปนี้ถูกใช้มากที่สุด:
ดัชนีของความยากลำบากดัชนีของ การแบ่งแยก ดัชนีความน่าเชื่อถือดัชนีความถูกต้องดัชนีที่รู้จักที่ต้องนำมาพิจารณาสำหรับการเลือกรายการที่จะทำการทดสอบเราจะเห็นว่าขั้นตอนใดที่จำเป็นสำหรับการสร้างการทดสอบ:
- สเปคของปัญหา.
- ประกาศรายการชุดกว้าง ๆ และแก้ไขข้อบกพร่อง.
- ทางเลือกของรุ่น.
- ทดสอบรายการที่เลือกไว้ล่วงหน้า.
- เลือกรายการที่ดีที่สุด.
- ศึกษาคุณภาพของแบบทดสอบ
- กำหนดบรรทัดฐานของการตีความของการทดสอบขั้นสุดท้ายที่ได้รับ.
จากจุดก่อนหน้านี้ควรสังเกตว่าตัวเลือกของแบบจำลองจุดที่ 3 จะขึ้นอยู่กับวัตถุประสงค์ของการทดสอบลักษณะและคุณภาพของข้อมูลและทรัพยากรที่มี เมื่อเลือกแบบจำลองให้กำหนดเงื่อนไขทางทฤษฎีที่สามารถนำไปใช้งานได้ไม่ แม้จะมีคุณธรรม จะต้องวิเคราะห์ในแต่ละกรณีและในสถานการณ์เฉพาะ คุณสมบัติที่เป็นของรุ่นเหล่านั้นที่ประกอบขึ้นเป็น ทฤษฎีการตอบสนองต่อรายการ (TRI), พวกเขาสามารถได้รับผลกระทบจาก:
- มิติของการทดสอบความพร้อมใช้งานที่หายากของการขาดตัวอย่างของทรัพยากรคอมพิวเตอร์มีจำนวนของการตั้งค่าเมื่อใช้หนึ่งหรือรุ่นอื่น ๆ ให้ดูพวกเขา: แบบจำลองหัวรบแบบปกติไม่ได้ใช้ในแอปพลิเคชั่น.
- Rasch: เหมาะสำหรับการเปรียบเทียบในแนวนอน (การทดสอบที่เทียบเคียงได้กับระดับความยากกับการกระจายความฟิตที่คล้ายกัน) มีรูปแบบที่แตกต่างกันของการทดสอบเดียวกัน * 2 และ 3 พารามิเตอร์: เป็นพารามิเตอร์ที่เหมาะสมกับความหลากหลายของปัญหา.
- เพื่อตรวจหารูปแบบการตอบสนองที่ผิดพลาด สำหรับการทำให้เท่าเทียมกันในแนวตั้งของการทดสอบ (เปรียบเทียบการทดสอบที่มีระดับความยากต่างกันและการแจกแจงที่แตกต่างกันสำหรับการออกกำลังกาย).
พารามิเตอร์ 1 และ 2:
- เหมาะที่จะสร้างสเกลเดี่ยวเพื่อให้คุณสามารถเปรียบเทียบทักษะในระดับต่าง ๆ.
การเลือกรูปแบบนอกเหนือจากวัตถุประสงค์ที่ติดตามอาจได้รับผลกระทบจากขนาดของตัวอย่าง ในกรณีที่ตัวอย่างมีขนาดใหญ่และตัวแทนจะไม่มีปัญหาทั้งแบบคลาสสิกหรือลักษณะแฝง แต่ใน TRI ทฤษฎีการตอบสนองข้อสอบ ) กองกำลังตัวอย่างขนาดเล็กเพื่อเลือกแบบจำลองที่มีพารามิเตอร์จำนวนน้อยแม้แต่ตัวแบบ uniparameter.
การประยุกต์ทฤษฎีการตอบสนองข้อสอบ
เรามาดูกันว่าแอปพลิเคชั่นที่ใช้กันมากที่สุดคืออะไรก) การปรับสมดุลของการทดสอบบางครั้งมีความจำเป็นต้องเกี่ยวข้องกับคะแนนที่ได้รับจากการทดสอบที่แตกต่างกันโดยมีวัตถุประสงค์สองประการ:
- การทำให้เท่าเทียมกันในแนวนอน: ได้รับแบบฟอร์มการทดสอบเดียวกัน.
- การปรับสมดุลแนวตั้ง: เป้าหมายคือการสร้างความถนัดระดับเดียวที่มีระดับความยากต่างกัน เกี่ยวกับความเท่าเทียมกันของการทดสอบลอร์ด (1980) แนะนำแนวคิดของ "ความยุติธรรม" ซึ่งหมายความว่าสำหรับแต่ละเรื่องที่สองการทดสอบสามารถใช้แทนกันได้เพราะมันถูกนำมาใช้ว่าอย่างใดอย่างหนึ่งจะไม่เปลี่ยนแปลงระดับความถนัดที่ได้รับการประเมิน สำหรับเรื่อง.
การศึกษาความลำเอียงของรายการเป็นสิ่งที่บิดเบือนเมื่อโดยเฉลี่ยจะให้คะแนนที่แตกต่างกันอย่างมีนัยสำคัญในกลุ่มเฉพาะที่ถือว่าเป็นส่วนหนึ่งของประชากรเดียวกัน.
การทดสอบที่ดัดแปลงหรือโดยเฉลี่ย , ผ่าน TRI สามารถสร้างการทดสอบเป็นรายบุคคลที่ช่วยให้สามารถอนุมานคุณค่าที่แท้จริงของลักษณะที่เป็นปัญหาได้อย่างแม่นยำยิ่งขึ้น รายการจะได้รับการจัดการตามลำดับการตั้งค่าล่วงหน้าของหนึ่งรายการหรืออื่นจะขึ้นอยู่กับคำตอบที่ได้รับด้านบน มีการทดสอบที่ปรับเปลี่ยนได้หลายแบบเราชี้ให้เห็นสิ่งต่อไปนี้:
- ขั้นตอนสองขั้นตอนลอร์ด 2514; Bertz และ Weiss 1973 - 1974 การทดสอบหนึ่งครั้งผ่านไปก่อนและขึ้นอยู่กับผลการทดสอบครั้งที่สองจะดำเนินการ.
- ขั้นตอนในหลายขั้นตอนเหมือนกับขั้นตอนก่อนหน้าเฉพาะกระบวนการที่มีขั้นตอนมากขึ้นเท่านั้น.
- แบบจำลองการแตกแขนงแบบคงที่ลอร์ด 1970, 2514, 2517; Mussio 1973 ทุกวิชาแก้ปัญหาเดียวกันโดยขึ้นอยู่กับการตอบสนองชุดรายการจะได้รับการแก้ไข.
- โมเดลแยกย่อยขึ้นอยู่กับความเป็นอิสระระหว่างรายการและคุณสมบัติของตัวประมาณความน่าจะเป็นสูงสุด.
ธนาคารแห่งรายการ, การมีชุดรายการจำนวนมากเป็นสิ่งที่จะปรับปรุงคุณภาพของการทดสอบ แต่สำหรับรายการนี้จะต้องผ่านกระบวนการแก้ไขข้อบกพร่องก่อน เพื่อที่จะจำแนกรายการมันเป็นสิ่งจำเป็นที่จะต้องคำนึงถึงคุณสมบัติที่มีวัตถุประสงค์เพื่อวัดการทดสอบว่ารายการนี้จะเป็นส่วนหนึ่งของ.
การตีความคะแนน
ตาชั่ง: วัตถุประสงค์คือเพื่อเสนอความต่อเนื่องในการสั่งซื้อจัดประเภทหรือรู้ว่าขนาดสัมพัทธ์ของคุณลักษณะที่ประเมินคืออะไร สิ่งนี้จะช่วยให้เราสามารถสร้างความแตกต่างและความคล้ายคลึงกันในคนที่เกี่ยวกับลักษณะนั้น เครื่องชั่งที่ใช้ในด้านจิตวิทยาคือ: เล็กน้อย, อันดับ, ช่วงเวลาและเหตุผล; เครื่องชั่งเหล่านี้สร้างขึ้นจากผลลัพธ์ของการทดสอบผลลัพธ์ที่เรียกว่า "คะแนนโดยตรง" .
เป็นสัญลักษณ์ : การพิมพ์แบบทดสอบคือการแปลงคะแนนโดยตรงไปสู่สิ่งอื่นที่สามารถตีความได้ง่ายเนื่องจากคะแนนที่พิมพ์ออกมาจะเปิดเผยตำแหน่งของหัวเรื่องด้วยความเคารพต่อกลุ่มและจะช่วยให้เราสามารถเปรียบเทียบการเปรียบเทียบภายในและระหว่าง การพิมพ์มีสองประเภท:
- เป็นเชิงเส้นรักษารูปร่างของการกระจายและอย่าปรับขนาดของความสัมพันธ์.
- ไม่ใช่เชิงเส้นพวกเขาไม่รักษาการกระจายหรือขนาดของความสัมพันธ์ .
APTITUDE SCALE ใน TRI สเกลที่สร้างขึ้นนั้นเป็นสเกลที่สอดคล้องกับระดับความฟิต ขนาดนี้มีลักษณะเนื่องจากการประมาณการและการอ้างอิงจะทำโดยตรงกับความถนัดและขนาดของมัน นอกจากนี้ความสามารถที่คาดการณ์นี้ขึ้นอยู่กับรูปร่างของเส้นโค้งลักษณะเฉพาะของสิ่งของ ภายในเครื่องชั่งที่เป็นไปได้เราจะระบุสิ่งที่สอง:
- สเกลที่เสนอโดย Woodcock (1978) และถูกกำหนดโดยสูตรต่อไปนี้:
- WITS scale ที่เสนอโดย Wright (1977) สเกลนี้เป็นการปรับเปลี่ยนของก่อนหน้านี้และได้รับจากความสัมพันธ์ต่อไปนี้:
บทความนี้เป็นข้อมูลที่ครบถ้วนใน Online Psychology เราไม่มีคณะที่จะทำการวินิจฉัยหรือแนะนำการรักษา เราขอเชิญคุณให้ไปหานักจิตวิทยาเพื่อรักษาอาการของคุณโดยเฉพาะ.
หากคุณต้องการอ่านบทความเพิ่มเติมที่คล้ายกับ ทฤษฎีการตอบสนองต่อรายการ - การใช้งานและการทดสอบ, เราแนะนำให้คุณเข้าสู่หมวดจิตวิทยาการทดลองของเรา.