2010/04/10

箱ひげ図によるはずれ値の検出について

箱ひげ図などでははずれ値を検出する方法があります.

たとえば,四分位範囲の 1.5 倍を四分位数に増減した点をひげの先として(内堀とも呼んでいます)それよりも先にある場合は,はずれ値とする,また 3 倍を用いた場合は,それよりも先にあると「特異値」とも呼ぶ場合があります.

この 1.5 とか 3 にはどのような意味があるのでしょうか?専門的には正規四分位数範囲などを使って説明する方法(1.5 ≒ 1/(標準正規分布の四分位範囲)×2)やもともとの探索的データ分析等で有名な Tukey がそう提言したからなどもありますが,いまいち通じないので,もう少し調べてみました.ちなみに Yahoo の知恵袋でも同様の質問も見つけました.

橋本紀子・渡辺美智子・櫻井尚子(2009)Excelで始める経済統計データの分析―デジタル時代のソリューション支援ツール―,日本統計協会の書籍にも書かれていますが,1.5 の場合でもとのデータが正規分布に従っていると仮定できれば,ひげより先に個々のデータ(観測値)が来る確率は 0.7% となります.

このことは,標準正規分布の統計数値表(Excel なら NORMSINV(0.75)) で 25% のところの z 値を求めます(z=0.67449).したがって四分位範囲は 2z になります.その 1.5 倍や 3 倍を求め,加えた数の(z+3z=4z や z+6z=7z)の z 値の上側確率の 2 倍((1-NORMSDIST(NORMSINV(0.75)+2*NORMSINV(0.75)*1.5))*2)を求めると上記の値が出てきます.1.5 倍のとき,0.7%,3 倍のときは 0.00023% となります.

1.5 倍でないと場合もこれをすれば求められます.ちなみに 1 倍なら 4.3%,2 倍なら 0.1%となり,外側に観測値がなる確率が 1% を切る 1.5 倍とその倍の 3 倍が選ばれたのかもしれませんね.それでもあまりしっくりきませんが….

どうしてこの数値が選らばれたのかの厳密な根拠はこれ以上はわかりませんでしたが,まぁ確かにこれらが妥当には思えますね.

0 件のコメント: