ทฤษฎีการตอบสนองต่อรายการ - การใช้งานและการทดสอบ

ทฤษฎีการตอบสนองต่อรายการ - การใช้งานและการทดสอบ / จิตวิทยาเชิงทดลอง

ภายในเขตของ ทฤษฎีการทดสอบไซโครเมทริกซ์ นิกายต่าง ๆ ปรากฏว่าในปัจจุบันใช้ชื่อ "ทฤษฎีการตอบสนองต่อรายการ" (F.M. Lord, 1980) นิกายนี้นำเสนอความแตกต่างบางประการเกี่ยวกับโมเดลคลาสสิก: 1.- ความสัมพันธ์ระหว่างค่าที่คาดหวังของคะแนนของหัวเรื่องและลักษณะ (คุณลักษณะที่รับผิดชอบค่า) มักไม่เป็นเส้นตรง 2.- มุ่งหวังที่จะทำให้การคาดการณ์รายบุคคลโดยไม่ต้องอ้างถึงลักษณะของกลุ่มกฎเกณฑ์.

คุณอาจสนใจใน: ดัชนีทฤษฎีการทดสอบคลาสสิก
  1. ทฤษฎีการตอบสนองต่อรายการหรือรูปแบบของลักษณะแฝงในทฤษฎีของการทดสอบ
  2. แบบจำลองของทฤษฎีการตอบสนองข้อ (ไตร)
  3. การประมาณค่าพารามิเตอร์
  4. ทดสอบการก่อสร้าง
  5. การประยุกต์ทฤษฎีการตอบสนองข้อสอบ
  6. การตีความคะแนน

ทฤษฎีการตอบสนองต่อรายการหรือรูปแบบของลักษณะแฝงในทฤษฎีของการทดสอบ

จากนั้นเราจะเห็นว่าทฤษฎีการตอบสนองต่อรายการนี้ให้ความเป็นไปได้ในการอธิบายรายการแยกกันเช่นเดียวกับบุคคล นอกจากนี้ยังพิจารณาว่าการตอบสนองที่ได้รับจากวิชานั้นขึ้นอยู่กับระดับของทักษะที่มีอยู่ในช่วงที่พิจารณา ต้นกำเนิดของโมเดลเหล่านี้เกิดจาก Lazarsfeld, 1950 ซึ่งเป็นผู้แนะนำคำว่า "คุณสมบัติแฝง" .

จากที่นี่จะถือว่าบุคคลแต่ละคนมีพารามิเตอร์ส่วนบุคคลซึ่งมีความรับผิดชอบในลักษณะของเรื่องที่เรียกว่า "ลักษณะ" คุณลักษณะนี้ไม่สามารถวัดได้โดยตรงดังนั้นพารามิเตอร์แต่ละตัวจึงเรียกว่าตัวแปรแฝง เมื่อทำการทดสอบคุณจะได้รับสองสิ่งที่แตกต่างกันคะแนนจริงและระดับความฟิต นี่คือความสำเร็จถ้าเราผ่านการทดสอบสองครั้งในการออกกำลังกายเดียวกันไปยังกลุ่มเดียวกัน.

ในทฤษฎีของแฝงลักษณะหรือทฤษฎีการตอบสนองต่อรายการ คะแนนจริงคือค่าที่คาดหวังจากคะแนนที่สังเกตได้ ตามที่พระเจ้าให้คะแนนจริงและความเหมาะสมเหมือนกัน แต่แสดงในระดับต่าง ๆ ของการวัด.

แบบจำลองของทฤษฎีการตอบสนองข้อ (ไตร)

แบบจำลอง Binomial Error: ได้รับการแนะนำโดย Lord (1965) ซึ่งถือว่าคะแนนที่สังเกตนั้นสอดคล้องกับจำนวนคำตอบที่ถูกต้องที่ได้รับในการทดสอบ (ซึ่งรายการนั้นมีความยากลำบากเหมือนกันและมีความเป็นอิสระในท้องถิ่นนั่นคือความน่าจะเป็น ในการตอบกลับอย่างถูกต้องกับรายการจะไม่ได้รับผลกระทบจากคำตอบที่ให้ไว้กับรายการอื่น ๆ ).

โมเดลปัวซอง: แบบจำลองเหล่านี้เหมาะสำหรับการทดสอบที่มีจำนวนมากและความน่าจะเป็นของคำตอบที่ถูกหรือไม่ถูกต้องมีขนาดเล็ก ภายในกลุ่มนี้เรามีโมเดลที่แตกต่างกัน:

  1. แบบจำลองปัวซองเซียนของ Rasch, ซึ่งมีสมมติฐานคือ: การทดสอบแต่ละรายการมีรายการไบนารีจำนวนมากที่เป็นอิสระในท้องถิ่น ความน่าจะเป็นของข้อผิดพลาดในแต่ละรายการมีขนาดเล็ก ความน่าจะเป็นที่ผู้ทดสอบสร้างข้อผิดพลาดขึ้นอยู่กับสองสิ่ง: ความยากของการทดสอบและความถนัดของผู้ทดสอบ การเพิ่มความยากของความยากลำบากซึ่งเป็นผลมาจากการผสมการทดสอบสองแบบที่เทียบเท่ากันในการทดสอบเดี่ยวซึ่งความยากลำบากคือผลรวมของความยากลำบากของการทดสอบเริ่มต้นสองครั้ง.
  2. แบบจำลองปัวซองเพื่อประเมินความเร็ว: รุ่นนี้ถูกเสนอโดย Rasch และมีลักษณะเนื่องจากความเร็วในการดำเนินการทดสอบจะถูกนำมาพิจารณา แบบจำลองสามารถเสนอได้สองวิธี: นับจำนวนข้อผิดพลาดที่เกิดขึ้นและจำนวนคำที่อ่านในหน่วยเวลา นับจำนวนข้อผิดพลาดที่กระทำและเวลาที่ใช้ในการอ่านข้อความให้เสร็จ ความน่าจะเป็นในการทำให้จำนวนคำในการทดสอบ (i) โดยหัวเรื่อง (j) เป็นเวลา (t)
  3. Ojiva Normal Models: เป็นแบบจำลองที่เสนอโดย Lord (1968) ซึ่งใช้ในการทดสอบกับรายการแบบแบ่งขั้วและมีตัวแปรเดียวเท่านั้นที่เหมือนกันกราฟของมันจะเป็นดังนี้: สมมติฐานพื้นฐานที่อธิบายลักษณะของแบบจำลองนี้คือ:
  • พื้นที่ของตัวแปรแฝงคือหนึ่งมิติ (k = 1).
  • ความเป็นอิสระของท้องถิ่นระหว่าง intems.
  • สามารถเลือกเมตริกสำหรับตัวแปรแฝงเพื่อให้เส้นโค้งของแต่ละรายการเป็นจรวดรบปกติ.

แบบจำลองโลจิสติกส์; มันเป็นแบบจำลองที่คล้ายกับรุ่นก่อน ๆ แต่ก็มีข้อดีมากกว่าเมื่อเทียบกับการรักษาทางคณิตศาสตร์ ฟังก์ชันลอจิสติกใช้รูปแบบต่อไปนี้: มีโมเดลลอจิสติกที่แตกต่างกันขึ้นอยู่กับจำนวนของพารามิเตอร์ที่มี:

  • โมเดลโลจิสติก 2 พารามิเตอร์, Birnbaum 2511 ในลักษณะที่เราพูดถึงว่ามันเป็นหนึ่งมิติมีความเป็นอิสระในท้องถิ่นองค์ประกอบที่มีสองขั้ว ฯลฯ
  • แบบจำลองลอจิสติก 3 พารามิเตอร์, ลอร์ดมีลักษณะเนื่องจากความน่าจะเป็นของการกดปุ่มโดยการทำนายเป็นปัจจัยที่จะมีผลต่อประสิทธิภาพของการทดสอบ 4.3 โมเดลโลจิสติกส์ 4 พารามิเตอร์: โมเดลที่เสนอโดย McDonald 1967 และ Barton-Lord ในปี 1981 ซึ่งมีวัตถุประสงค์เพื่ออธิบายกรณีเหล่านั้นซึ่งผู้ที่มีระดับความฟิตสูงไม่ตอบสนองต่อรายการอย่างถูกต้อง.
  • Logistic model ของ Rasch: รุ่นนี้เป็นงานที่สร้างจำนวนงานมากที่สุดแม้จะมีข้อเสียเปรียบนี่คือการปรับข้อมูลจริงให้เป็นเรื่องยากมากขึ้น แต่ในทางตรงกันข้ามกับข้อได้เปรียบที่ทำให้มันใช้คือมันไม่จำเป็นต้องมีขนาดใหญ่ ขนาดตัวอย่างสำหรับการปรับของคุณ.

การประมาณค่าพารามิเตอร์

วิธีที่มีการใช้มากที่สุดคือความน่าจะเป็นสูงสุดถัดจากวิธีการคำนวณเชิงตัวเลขเช่น Newton-Raphson และ Scoring (Rao) วิธีความน่าจะเป็นสูงสุดนั้นตั้งอยู่บนหลักการของการได้รับตัวประมาณค่าพารามิเตอร์ที่ไม่รู้จักซึ่งจะเพิ่มความน่าจะเป็นในการได้รับตัวอย่างดังกล่าว นอกเหนือจากความเป็นไปได้สูงสุดแล้วการประมาณแบบเบย์ยังถูกนำมาใช้ตามทฤษฎีบทของเบย์ซึ่งประกอบไปด้วยการรวบรวมข้อมูลที่รู้จักกันทั้งหมดซึ่งมีความเกี่ยวข้องกับกระบวนการในการหาข้อสรุป การศึกษาเชิงลึกเพิ่มเติมเกี่ยวกับวิธีการแบบเบย์สำหรับการประมาณค่าพารามิเตอร์ความฟิตคือ Birnbaum (1996) และ Owen (1975) .

ฟังก์ชั่นข้อมูล

การทดสอบที่ดีที่สุดที่สามารถสร้างได้คือสิ่งที่ให้ข้อมูลมากที่สุดเกี่ยวกับลักษณะแฝง การหาปริมาณของข้อมูลนี้ทำได้ผ่าน "ฟังก์ชั่นข้อมูล" สูตรของฟังก์ชันข้อมูล Birnbaum 1968 มีดังต่อไปนี้: จะต้องนำมาพิจารณาว่าข้อมูลที่ได้รับในการทดสอบคือผลรวมของข้อมูลของแต่ละรายการนอกเหนือจากการมีส่วนร่วมของแต่ละรายการไม่ขึ้นอยู่กับส่วนที่เหลือของรายการ ที่ทำขึ้นการทดสอบ ในแง่ทั่วไปเราสามารถพูดได้ว่าข้อมูลในทุกรุ่น:

  • แตกต่างกันไปตามระดับการออกกำลังกาย.
  • ยิ่งความชันของเส้นโค้งมากเท่าไหร่ข้อมูลก็จะยิ่งมากขึ้นเท่านั้น.
  • ขึ้นอยู่กับความแปรปรวนของคะแนนยิ่งสูงข้อมูลก็จะยิ่งน้อยลงเท่านั้น.

ทดสอบการก่อสร้าง

ภารกิจแรก และหนึ่งในสิ่งที่สำคัญที่สุดในช่วงเวลาของการสร้างการทดสอบคือการเลือกของรายการคอร์ดก่อนหน้าของสมมติฐานทางทฤษฎีที่จะต้องกำหนดคุณสมบัติที่การทดสอบตั้งใจที่จะวัด แนวคิด "การวิเคราะห์รายการ" หมายถึงชุดของขั้นตอนอย่างเป็นทางการที่ดำเนินการเพื่อเลือกรายการเหล่านั้นซึ่งจะเป็นรูปแบบการทดสอบในที่สุด ข้อมูลที่พิจารณาว่าเกี่ยวข้องกับรายการมากที่สุดคือ:

  1. ความยากลำบากของรายการเปอร์เซ็นต์ของบุคคลที่ตอบคำถาม.
  2. การเลือกปฏิบัติความสัมพันธ์ของแต่ละรายการที่มีคะแนนรวมในการทดสอบ.
  3. สิ่งรบกวนหรือการวิเคราะห์ข้อผิดพลาดมีอิทธิพลต่อความเกี่ยวข้องมีผลกระทบต่อความยากลำบากของรายการและทำให้ค่าการเลือกปฏิบัติถูกประเมินต่ำเกินไป.

ในช่วงเวลาของการสร้างตัวชี้วัดของดัชนีที่แตกต่างกันสถิติหรือดัชนีมักจะใช้ต่อไปนี้ถูกใช้มากที่สุด:

ดัชนีของความยากลำบากดัชนีของ การแบ่งแยก ดัชนีความน่าเชื่อถือดัชนีความถูกต้องดัชนีที่รู้จักที่ต้องนำมาพิจารณาสำหรับการเลือกรายการที่จะทำการทดสอบเราจะเห็นว่าขั้นตอนใดที่จำเป็นสำหรับการสร้างการทดสอบ:

  1. สเปคของปัญหา.
  2. ประกาศรายการชุดกว้าง ๆ และแก้ไขข้อบกพร่อง.
  3. ทางเลือกของรุ่น.
  4. ทดสอบรายการที่เลือกไว้ล่วงหน้า.
  5. เลือกรายการที่ดีที่สุด.
  6. ศึกษาคุณภาพของแบบทดสอบ
  7. กำหนดบรรทัดฐานของการตีความของการทดสอบขั้นสุดท้ายที่ได้รับ.

จากจุดก่อนหน้านี้ควรสังเกตว่าตัวเลือกของแบบจำลองจุดที่ 3 จะขึ้นอยู่กับวัตถุประสงค์ของการทดสอบลักษณะและคุณภาพของข้อมูลและทรัพยากรที่มี เมื่อเลือกแบบจำลองให้กำหนดเงื่อนไขทางทฤษฎีที่สามารถนำไปใช้งานได้ไม่ แม้จะมีคุณธรรม จะต้องวิเคราะห์ในแต่ละกรณีและในสถานการณ์เฉพาะ คุณสมบัติที่เป็นของรุ่นเหล่านั้นที่ประกอบขึ้นเป็น ทฤษฎีการตอบสนองต่อรายการ (TRI), พวกเขาสามารถได้รับผลกระทบจาก:

  • มิติของการทดสอบความพร้อมใช้งานที่หายากของการขาดตัวอย่างของทรัพยากรคอมพิวเตอร์มีจำนวนของการตั้งค่าเมื่อใช้หนึ่งหรือรุ่นอื่น ๆ ให้ดูพวกเขา: แบบจำลองหัวรบแบบปกติไม่ได้ใช้ในแอปพลิเคชั่น.
  • Rasch: เหมาะสำหรับการเปรียบเทียบในแนวนอน (การทดสอบที่เทียบเคียงได้กับระดับความยากกับการกระจายความฟิตที่คล้ายกัน) มีรูปแบบที่แตกต่างกันของการทดสอบเดียวกัน * 2 และ 3 พารามิเตอร์: เป็นพารามิเตอร์ที่เหมาะสมกับความหลากหลายของปัญหา.
  • เพื่อตรวจหารูปแบบการตอบสนองที่ผิดพลาด สำหรับการทำให้เท่าเทียมกันในแนวตั้งของการทดสอบ (เปรียบเทียบการทดสอบที่มีระดับความยากต่างกันและการแจกแจงที่แตกต่างกันสำหรับการออกกำลังกาย).

พารามิเตอร์ 1 และ 2:

  • เหมาะที่จะสร้างสเกลเดี่ยวเพื่อให้คุณสามารถเปรียบเทียบทักษะในระดับต่าง ๆ.

การเลือกรูปแบบนอกเหนือจากวัตถุประสงค์ที่ติดตามอาจได้รับผลกระทบจากขนาดของตัวอย่าง ในกรณีที่ตัวอย่างมีขนาดใหญ่และตัวแทนจะไม่มีปัญหาทั้งแบบคลาสสิกหรือลักษณะแฝง แต่ใน TRI ทฤษฎีการตอบสนองข้อสอบ ) กองกำลังตัวอย่างขนาดเล็กเพื่อเลือกแบบจำลองที่มีพารามิเตอร์จำนวนน้อยแม้แต่ตัวแบบ uniparameter.

การประยุกต์ทฤษฎีการตอบสนองข้อสอบ

เรามาดูกันว่าแอปพลิเคชั่นที่ใช้กันมากที่สุดคืออะไรก) การปรับสมดุลของการทดสอบบางครั้งมีความจำเป็นต้องเกี่ยวข้องกับคะแนนที่ได้รับจากการทดสอบที่แตกต่างกันโดยมีวัตถุประสงค์สองประการ:

  • การทำให้เท่าเทียมกันในแนวนอน: ได้รับแบบฟอร์มการทดสอบเดียวกัน.
  • การปรับสมดุลแนวตั้ง: เป้าหมายคือการสร้างความถนัดระดับเดียวที่มีระดับความยากต่างกัน เกี่ยวกับความเท่าเทียมกันของการทดสอบลอร์ด (1980) แนะนำแนวคิดของ "ความยุติธรรม" ซึ่งหมายความว่าสำหรับแต่ละเรื่องที่สองการทดสอบสามารถใช้แทนกันได้เพราะมันถูกนำมาใช้ว่าอย่างใดอย่างหนึ่งจะไม่เปลี่ยนแปลงระดับความถนัดที่ได้รับการประเมิน สำหรับเรื่อง.

การศึกษาความลำเอียงของรายการเป็นสิ่งที่บิดเบือนเมื่อโดยเฉลี่ยจะให้คะแนนที่แตกต่างกันอย่างมีนัยสำคัญในกลุ่มเฉพาะที่ถือว่าเป็นส่วนหนึ่งของประชากรเดียวกัน.

การทดสอบที่ดัดแปลงหรือโดยเฉลี่ย , ผ่าน TRI สามารถสร้างการทดสอบเป็นรายบุคคลที่ช่วยให้สามารถอนุมานคุณค่าที่แท้จริงของลักษณะที่เป็นปัญหาได้อย่างแม่นยำยิ่งขึ้น รายการจะได้รับการจัดการตามลำดับการตั้งค่าล่วงหน้าของหนึ่งรายการหรืออื่นจะขึ้นอยู่กับคำตอบที่ได้รับด้านบน มีการทดสอบที่ปรับเปลี่ยนได้หลายแบบเราชี้ให้เห็นสิ่งต่อไปนี้:

  • ขั้นตอนสองขั้นตอนลอร์ด 2514; Bertz และ Weiss 1973 - 1974 การทดสอบหนึ่งครั้งผ่านไปก่อนและขึ้นอยู่กับผลการทดสอบครั้งที่สองจะดำเนินการ.
  • ขั้นตอนในหลายขั้นตอนเหมือนกับขั้นตอนก่อนหน้าเฉพาะกระบวนการที่มีขั้นตอนมากขึ้นเท่านั้น.
  • แบบจำลองการแตกแขนงแบบคงที่ลอร์ด 1970, 2514, 2517; Mussio 1973 ทุกวิชาแก้ปัญหาเดียวกันโดยขึ้นอยู่กับการตอบสนองชุดรายการจะได้รับการแก้ไข.
  • โมเดลแยกย่อยขึ้นอยู่กับความเป็นอิสระระหว่างรายการและคุณสมบัติของตัวประมาณความน่าจะเป็นสูงสุด.

ธนาคารแห่งรายการ, การมีชุดรายการจำนวนมากเป็นสิ่งที่จะปรับปรุงคุณภาพของการทดสอบ แต่สำหรับรายการนี้จะต้องผ่านกระบวนการแก้ไขข้อบกพร่องก่อน เพื่อที่จะจำแนกรายการมันเป็นสิ่งจำเป็นที่จะต้องคำนึงถึงคุณสมบัติที่มีวัตถุประสงค์เพื่อวัดการทดสอบว่ารายการนี้จะเป็นส่วนหนึ่งของ.

การตีความคะแนน

ตาชั่ง: วัตถุประสงค์คือเพื่อเสนอความต่อเนื่องในการสั่งซื้อจัดประเภทหรือรู้ว่าขนาดสัมพัทธ์ของคุณลักษณะที่ประเมินคืออะไร สิ่งนี้จะช่วยให้เราสามารถสร้างความแตกต่างและความคล้ายคลึงกันในคนที่เกี่ยวกับลักษณะนั้น เครื่องชั่งที่ใช้ในด้านจิตวิทยาคือ: เล็กน้อย, อันดับ, ช่วงเวลาและเหตุผล; เครื่องชั่งเหล่านี้สร้างขึ้นจากผลลัพธ์ของการทดสอบผลลัพธ์ที่เรียกว่า "คะแนนโดยตรง" .

เป็นสัญลักษณ์ : การพิมพ์แบบทดสอบคือการแปลงคะแนนโดยตรงไปสู่สิ่งอื่นที่สามารถตีความได้ง่ายเนื่องจากคะแนนที่พิมพ์ออกมาจะเปิดเผยตำแหน่งของหัวเรื่องด้วยความเคารพต่อกลุ่มและจะช่วยให้เราสามารถเปรียบเทียบการเปรียบเทียบภายในและระหว่าง การพิมพ์มีสองประเภท:

  1. เป็นเชิงเส้นรักษารูปร่างของการกระจายและอย่าปรับขนาดของความสัมพันธ์.
  2. ไม่ใช่เชิงเส้นพวกเขาไม่รักษาการกระจายหรือขนาดของความสัมพันธ์ .

APTITUDE SCALE ใน TRI สเกลที่สร้างขึ้นนั้นเป็นสเกลที่สอดคล้องกับระดับความฟิต ขนาดนี้มีลักษณะเนื่องจากการประมาณการและการอ้างอิงจะทำโดยตรงกับความถนัดและขนาดของมัน นอกจากนี้ความสามารถที่คาดการณ์นี้ขึ้นอยู่กับรูปร่างของเส้นโค้งลักษณะเฉพาะของสิ่งของ ภายในเครื่องชั่งที่เป็นไปได้เราจะระบุสิ่งที่สอง:

  1. สเกลที่เสนอโดย Woodcock (1978) และถูกกำหนดโดยสูตรต่อไปนี้:
  2. WITS scale ที่เสนอโดย Wright (1977) สเกลนี้เป็นการปรับเปลี่ยนของก่อนหน้านี้และได้รับจากความสัมพันธ์ต่อไปนี้:

บทความนี้เป็นข้อมูลที่ครบถ้วนใน Online Psychology เราไม่มีคณะที่จะทำการวินิจฉัยหรือแนะนำการรักษา เราขอเชิญคุณให้ไปหานักจิตวิทยาเพื่อรักษาอาการของคุณโดยเฉพาะ.

หากคุณต้องการอ่านบทความเพิ่มเติมที่คล้ายกับ ทฤษฎีการตอบสนองต่อรายการ - การใช้งานและการทดสอบ, เราแนะนำให้คุณเข้าสู่หมวดจิตวิทยาการทดลองของเรา.