データの「異常値」を一瞬で除去する、エクセル関数の使い方
データを読む際に重要なことは「異常値を除去する」でした。極端に大きい(小さい)データがあると全体の平均値などに大きく影響します。つまり、正しく数字を読み解くことを邪魔する存在なのです。
前回はエクセルのグラフ機能を使うことで、一瞬で「異常値」の存在を見つけることができると説明しました。そこで次のステップに進みましょう。具体的には、「異常値」を除いた状態の平均値を一瞬で把握できるテクニックです。
例として、前回のデータをそのまま活用します。
<ある製品の日別販売点数> 平均値 約298
単位:点数
8月1日から30日までの日別点数の平均値をエクセルで算出すると、およそ298点です。しかし、その平均値は極端に大きい(小さい)数字は除去して算出したほうが、実態を把握するために有効ではないでしょうか。
そこでたとえば、全30個のデータを大小で並べたとき、上下あわせて20%分のデータは除いた状態で平均値を算出することを考えてみます。これは30個の20%ですから6個のデータを除くということになります。もう少し具体的にいえば、大小で並べたときのワースト3位までとベスト3位までは異常値の可能性があると考えて外し、残りの24個のデータで平均値を計算するということです。
(c)Shutterstock.com
実際の計算はエクセルの関数に任せます。次の関数を使い、計算してみてください。
=TRIMMEAN(セル範囲、除外割合)
セル範囲とは対象とするデータをエクセルファイルの中で指定する範囲のこと。除外割合とは、除去するデータが全データに占める割合のことです。つまり、今回の例であれば、次のような指定をすることになります。
=TRIMMEAN(30日間の日別データ、0.2)
計算してみると、およそ237点という結果を得ました。かなり差があることがわかりますし、この2つの数字を比較するだけでも極端に大きな異常値が存在する可能性が把握できます。
異常値を除去しない平均値 298点
異常値の可能性があるデータを除去した平均値 237点
このようなテクニックはたとえば「日本の平均世帯年収」など、ほんの一部の人の高い(低い)数値が全体の平均値に大きな影響を及ぼす可能性がある場合などに活用するのが有効です。データから正しく実態を読み取るために、前回のグラフ化と今回の関数はぜひ身につけて欲しいと思います。
(c)Shutterstock.com
PROFILE|深沢真太郎 ビジネス数学の専門家/人材教育コンサルタント
BMコンサルティング株式会社代表取締役/多摩大学非常勤講師/理学修士(数学)
ビジネスパーソンの思考力や数字力を鍛える「ビジネス数学」を提唱し人財育成に従事。著作多数。
文化放送「The News Masters TOKYO」ニュースマスター
ラジオ『深沢真太郎のビジネス数学カフェ』パーソナリティ
パールハーバープロダクション所属(文化人タレント)
国内初のビジネス数学検定1級AAA認定者
公式チャンネル「ビジネス数学TV」