2009/09/20

箱ひげ図のひげの先の印について

箱ひげ図のひげの先には臨界値(正確になんというかは未確認.東洋経済の統計学辞典をみると『ひげ先』という表現もありました)として印をつけるときがあります.少し表現がしづらいのですが,縦型の箱ひげ図の場合,ひげの線の末端に横棒を少しひいたりするものです.臨界値は最大値または最小値であったり,外れ値を検出するためにその基準値にしたり,また分布が正規分布で近似できそうな場合は,標準偏差を使う場合もあります.

さて,この臨界値の印をつけるかつけないかを考える必要があったので調べてみました.

例えば,統計ソフトでよく知られている SPSS だとはずれ値があっても印はあります.フリーで昨今,知名度が上がっている R でも印はあります.JMP はなさそうですが,SAS にはあるみたいです.数式処理ソフトで著名な Mathematica での箱ひげ図は印があるようです.これらのソフトでもつけたり,外したりができそうです.先の東洋経済の統計学辞典には印がありました(p319).

いろいろ調べたところ,「外れ値を書く場合は,その先がある場合があるので,印で区切らず,外れ値を考えない場合は,そこが最大値または最小値と端の点になるので,印で区切る」という考え方もあれば,同様だけども「外れ値を考える場合でもそこが境界線だから印をつける」という考えもあるみたいです.

余談ですが,渡辺先生の統計データ分析や東洋経済の統計学辞典をみると,四分位数±1.5×四分位範囲以内は『内堀』,四分位数±3×四分位範囲以内は『外堀』(内堀,外堀は数値のよう),内堀から外堀までのデータを『離れ値』(渡辺先生の本では,下側・上側外れ値と定義),外堀から外の観測値を『とび離れ値』』(渡辺先生の本では,下側・上側特異値と定義)と書かれています(個々の測定された値を指していましたので変更:データ→観測値).

確定ができないので残念ですが,とりあえず覚書です.

0 件のコメント: