A Critical Thinking Reed

学んだことのメモ。考えたことの記録。主に心理学。

潜在ランク理論について #1

潜在ランク理論とは何か

潜在ランク理論とは、大学入試センターに所属している、荘島 宏二郎氏の開発された統計手法である。この理論について、荘島氏の言葉をそのまま借りれば

潜在ランク理論(LRT)は,自己組織化マップ(self-organizing map, SOM)や生成トポグラフィックマッピング(generative topographic mapping, GTM)のメカニズムを利用したノンパラメトリック・テスト理論です.

出典:潜在ランク理論 - 大学入試センター (2019年1月2日)

とのことである。と言われても、よく分からないため、まずは開発の背景を追っていきたいと思う。

潜在ランク理論の開発の背景

荘島氏のWebサイトの引用が中心となるがご容赦いただきたい。

世界中の教育現場で,多くの生徒はテストの結果(連続得点)で学力を評価されています.しかし,たとえば,100点満点のテストにおいて,65点と70点の間には実質的な学力差があるでしょうか.100点満点のテストにおいて,5点差や10点差は能力差と断言することは難しく誤差の可能性が高いです.それにも関わらず,テストの連続得点を用いて,学力評価や入試選抜に用いてよいでしょうか.

出典:潜在ランク理論 - 大学入試センター (2019年1月2日)

ここで指摘されているのは、連続得点の誤差と精度に関する問題である。サイトでも紹介されている例だが、「体重」というものを測定するのに”体重計”というものさしを使えば、50kgと51kgでも明確な差があるとは言えることに疑いはないだろう。これはそれだけ体重計の精度が高いからである。しかし、「学力」というものを測定するのに”学力テスト”というものさしを使ったとき、50点と51点ははっきりとした学力の差といえるだろうか。と言われれば、1点くらいは”誤差”なのである。東京大学の入試は小数点で合否の差がつくと聞いたことがあるが、小数点の得点差はいくらなんでも学力差とは言い難いだろう。そして、荘島氏の指摘する通り、「試験は,広い意味で,どの学生をどの学校に入学させるかというような社会的配置の問題でもあるので,資源に乏しいわが国では,人材の適切な配置の失敗が,国益を損なうことにつながる」可能性もあるわけである。こうした選抜のあり方を見直すために、また正確な「段階評価」を行うために、潜在ランク理論は誕生したのである。

荘島氏は次のように続けている。

テスト理論では,項目反応理論(item response theory, IRT)が最もよく用いられており,TOEFLTOEICなど,IRTを用いて運用されている大規模テストも多いです.しかし,IRTや古典的テスト理論(classical test theory, CTT)は,連続的な学力評価尺度が仮定されている(たとえば,TOEFLの紙テスト版は300~677の連続尺度)ので,テストを資格試験化する際の標準化理論としては難しさが残ります.したがって,学力を連続尺度上ではなく順序尺度上で段階評価するテスト標準化理論が必要なのです.もちろん,連続尺度を適当な区間に分割すれば,段階評価とならないこともありませんが,連続尺度上のどこで分割を行うかについて面倒な問題が残ります.

(中略)

LRT[潜在ランク理論]は,自己組織化マップや生成トポグラフィックマッピングのメカニズムを利用した統計モデルであり,学力を段階評価するために連続尺度ではなく順序尺度を仮定したテスト理論です.

出典:潜在ランク理論 - 大学入試センター (2019年1月2日)

潜在ランク理論は、近年広く使用されていた「項目反応理論(IRT)」とは異なり、順序尺度を使用するところに大きな特徴がある。より詳細な特徴はこちら(http://www.rd.dnc.ac.jp/~shojima/ntt/jindex.htm)をご参照いただきたい。

尚、項目反応理論との違いについては、清水・大坊(2014)によると、

項目反応理論は潜在的な連続特性を心理尺度の背後に想定し,項目の困難度や識別力を推定しながら,回答者の潜在特性を推定する。項目反応理論と潜在ランク理論の違いは,潜在的な特性が連続量を仮定するか,ランクを仮定するかにある。逆に言えば,項目の困難度や識別力に該当するパラメータも同時に推定することができる点は項目反応理論と同様である。すなわち,単に合計得点によって参加者を順序化するのではなく,項目ごとの識別力や困難度を考慮して参加者の特性を推定しているのである。

出典:清水裕士, & 大坊郁夫. (2014). 潜在ランク理論による精神的健康調査票 (GHQ) の順序的評価. 心理学研究, 85(5), 464-473.

尚、上記論文の著者でもある、清水 裕士氏のWebサイトでも潜在ランク理論についてわかりやすく解説されていたので紹介させて頂く。

テスト理論としての潜在ランク理論は,テスト得点による連続的な能力評価に対して,段階的な順序的な能力評価を提案している点に特徴があります。テストは100点満点で,1点間隔で表記されることが多いですが,実際運用されているテストは,1点や2点の違いを識別するほど信頼性は高くありません。つまり,実際の測定誤差に目が向けられることなく,点数がつけられてしまっている側面があります。それに対して潜在ランク理論では,学力を順序尺度によって評価にします。それによって,能力評価はおおざっぱになりますが,信頼できない1点にむやみに踊らされることもなくなる,というわけです。また,段階評価にすることで,到達度などを質的に記述することができる,という点もメリットがあります。

出典:潜在ランク理論について | Sunny side up! (2019年1月2日)

同サイトでは、統計的な性質についても簡単に紹介されている。統計の知識が不十分な私にとっては非常にありがたい限りであった。以下、引用。

項目反応理論(IRT)から見れば,LRTは,潜在特性を順序尺度にしたIRTであるといえます。通常のIRTでは,潜在特性は標準得点であることが仮定され,連続的に能力を推定できます。それに対して,LRTでは潜在的な順序得点を仮定して,回答者が各ランクに所属する確率を推定します。それ以外はIRTとほとんど同じで,IRTのように項目特性(識別力や困難度)も推定できます。

クラスタ分析,あるいは潜在クラス分析(LCA)から見たら,LRT順序性のあるグループに回答者を分類する分析,といえます。LCAなどは潜在的な母集団を仮定して,それぞれに所属する確率を回答者ごとに推定しますが,LRTはその潜在的な母集団に,順序性が仮定されます。よって,能力の高いグループ,次に高いグループ・・・という感じでグループを解釈できます。

また,IRTやLCAと同様に,データは2値,あるいは順序データであることが仮定されます。連続変量の場合も可能のようですが,まだ理論的に実装されていないようです。

出典:潜在ランク理論について | Sunny side up! (2019年1月2日)

近年は「潜在ランク理論」が、テスト理論にとどまらず、心理尺度に応用されているという。このあたりを今後、もう少し追いかけてみたい。