概要
分布を要約するための5つの数値、5数要約についてや、それに伴い使用する箱ひげ図についてまとめました。
分位数
詳細に分布の形状を明らかにするために用いられる数値のことで
データを大きさの順に並べ、いくつかのグループに観測値の個数で等分した際の境界値のことを言います。
それぞれ境界値を順番に
第1四分位数:Q1(1は小文字)第2四分位数:Q2(1は小文字)第3四分位数:Q3(3は小文字)
第4四分位数:Q4(4は小文字)
散らばり
統計検定のテキストより下のようなデータを拝借。

平均値:150mlに近いA店の範囲R=182-121=61(ml)B店の範囲R=156-140=16(ml)範囲は極端な観測値(はずれ値)があると影響を大きく受けます。
そのため、中央値に近い観測値を含む長さを散らばりの尺度として考え影響を避けるようします。
外れ値の影響をほとんど受けない値を、Q3-Q1(数字下付き)で表し四分位範囲(IQR:Inter Quartile Range)といいます。
四分位偏差=IQR/2A店とB店の範囲と四分位範囲を比較すると
A店の範囲R=182-121=61(ml)B店の範囲R=156-140=16(ml)A店の四分位範囲IQR=164-138=26(ml)B店の四分位範囲IQR=153-146=7(ml)A店とB店の範囲と四分位範囲を比較すると、両者ともB店の方が小さいので商品量の散らばりが小さいと言えます。