まず初めに、統計学とは、ばらつきのある複数の要素が集合したデータから、何らかの特徴や傾向・法則性を見出すための学問です。
その有用性から、ビジネス、とくにマーケティングでは、ビッグデータからマーケティング手法の策定につながるヒントを見出すためにも、データ分析の手法の一つとして広く活用されています。
収集したデータを統計分析するためのツールとしては様々なものが存在しますが、中でも初心者におすすめなのがExcelです。
Excelを使えば、だれでも手軽に統計処理を行うことができます。
Excelには「分析ツール」という大変便利な機能があります。
「分析ツール」とはエクセルのアドインの一つで、クリックや簡単なパラメータの入力のみでデータ分析を可能にしてくれる機能です。
「分析ツール」機能を使用すれば、特別な関数やコードを書く必要が一切ありません。
導入も簡単ですので、初心者でも気軽にデータ分析を行うことができます。
Contents
Excelで分析ツールアドインを読み込む方法
実際に統計手法について学ぶ前に、Excelに分析ツールを導入する方法を解説します。
Excelの「分析ツール」機能は初期設定ではオフになっているため、使用するにはオンにする必要があります。
手順通りにマウスをクリックしていくだけですので、非常に簡単に導入することができます。
その手順は以下の通りです。
- Excelを開き、「ファイル」タブをクリック
- 左下の「オプション」をクリック
- 左の「アドイン」をクリック
- 「管理」ボックスで「Excelアドイン」が選択されていることを確認し、「設定」をクリック
- 「有効なアドイン」欄の「分析ツール」にチェックを入れ、「OK」をクリック
すると、「データ」タブのリボンの右端に、「データ分析」というアドインが追加されていることが確認できます。
以上で、分析ツールの読み込みは完了です。
今回は、統計処理でよく使われるエクセルの分析ツールとして、
- 基本統計量
- 相関係数
- t検定
- 分散分析
- 回帰分析
の5つを紹介します。
手軽に分析できる「分析ツール」機能
「分析ツール」機能を使用したデータ分析は、手順通りにマウスをクリックしていくだけで行うことができます。
大雑把に説明すると、以下の3stepで分析を行います。
- データを準備する
- 「データ」→「データ分析」→行いたい分析手法→「OK」を選択
- 必要な項目を選択して「OK」を選択
この3step以外の操作は基本的に必要ありません。
このように関数の作成や列の追加などを省略して分析できるため、かなり直感的な操作で単純な作業として終わらせることができます。
以下では、上述した5つの手法を行う場合の、各手法の個別具体的な「分析ツール」機能の使い方について説明します。
分析ツールで多種多様な分析が可能
この「分析ツール」機能は、ヒストグラムの作成から回帰分析まで19種類もの分析を可能にしてくれます。以下は「分析ツール」機能で行える分析手法一覧です。
- 分散分析:一元配置
- 分散分析:繰り返しのある二元配置
- 分散分析:繰り返しのない二元配置
- 相関
- 共分散
- 基本統計量
- 指数平滑
- F検定: 2 標本を使った分散の検定
- フーリエ解析
- ヒストグラム
- 移動平均
- 乱数発生
- 順位と百分位数
- 回帰分析
- サンプリング
- t検定:一対の標本による平均の検定
- t検定:等分散を仮定した2標本による検定
- t検定:分散が等しくないと仮定した2標本による検定
- z検定:2標本による平均の検定
基本統計量や相関分析から検定、回帰分析までサポートされているので、分析手法の基本どころは「分析ツール」でカバーできます。
簡単な操作だけでデータ分析ができることは「分析ツール」機能の一つの特徴です。
出力される結果が主たる結果一つだけではなく、その結果に関連する複数の統計量も表やグラフといった整理された形式で同時に出力されることも大きなメリットです。
しかし一方で、主成分分析など、上記に存在しないような高度な分析手法は「分析ツール」機能では行うことができません。
上に挙げた19項目以外の分析を行いたいときは、別の手段を講ずる必要があります。
基本統計量:データの全体像を把握
データ分析を進めていく際に重要な情報として、「基本統計量」というものがあります。
「基本統計量」とは、データの特徴・性質をあらわす代表的な数値で、対象データ全体にどのような特徴があるのかを全体像として把握できます。
基本統計量の他にも、代表値、要約統計量とも呼ばれたりします。
基本統計量を基にデータ分析していくことで、ビジネス判断を行うために役立つ情報を見つけ出すことが可能になります。
エクセルの「分析ツール」機能では、以下の基本統計量を一括で出力することができます。
- 平均値
- 標準誤差
- 中央値 (メジアン)
- 最頻値 (モード)
- 標準偏差
- 分散
- 尖度
- 歪度
- 範囲
- 最小値
- 最大値
- 合計値
- データの個数
太字表記にしたものは、基本統計量の中でも特に重要と思われる統計量です。
それでは基本統計量を求めてみます。
まず、データを用意して、「分析ツール」を開き、「基本統計量」を選択し、「OK」をクリックします。
「入力範囲」で分析するデータを、見出しのセルも含めて指定し、 「先頭行をラベルとして使用」のチェックマークを「ON」にします。すると、出力結果の表でも先頭のセルがそのまま見出しとして表示されます。更に、「統計情報」をクリックしてチェックマークを「ON」にした上で「OK」を選択すると、新しいシートに基本統計量が結果として出力されます。結果が出力されます。
相関係数:2種類のデータ同士の関係性の有無・強弱を把握
相関係数・相関分析とは?
相関係数とは、2つの変数の関係がどれくらい強いのかを表す指標です。-1~1の間の実数で算出されます。
算出された相関係数の値をどのように解釈するかは、目的にもよりますが、一般的に以下のような目安があります。
1に近いほど「正の相関」が強く (一方が増加すると、もう一方も増加する傾向が強い) 、-1に近いほど「負の相関」が強い (一方が増加すると、もう一方は反対に減少する傾向が強い) と解釈します。
また、相関係数が0に近ければ近いほど相関性が弱い(2つの要素は互いに無関係)ということになります。
ただし、相関係数はy=axといったデータの線形性を仮定しているため、計算には表れない相関がある場合もあります (例えばy=ax2などの非線形な関数に沿ったデータだと、関連性は高いにもかかわらず相関係数は0に近くなる) 。
そのため確認として、元データを座標上に点で記した「散布図」を用いて目視で確認することも大切です。
相関分析とは、2つ以上の要素の変動がどの程度関連しているかを要素間の相関係数を求めることで調べる分析方法です。
例えば「消費者の年齢層」と「商品の売り上げ」が関係しているかどうかや、「店舗の所在地」と「利益率」が関係するかどうか、ということを調べるために使われます。
各データの動き方の共通性を見たいときに、よく用いられる手法です。
ビジネスでは、相関分析によって想定外の要素が売上に影響を与えるていることが判明し、新たなビジネスチャンスを発見するというケースも少なくありません。
エクセルの分析ツールを使って相関分析を行う場合は、まずデータを用意して「分析ツール」を開き、 そこから「相関」を選択して「OK」をクリックします。
その後、開いたウインドウの「入力範囲」欄に対象データが入力されているセルを選択し入力します。
このとき、 見出しのセルも含めて「入力範囲」に指定し、 「先頭行をラベルとして使用」のチェックマークを「ON」にすると、出力結果の表でも先頭のセルがそのまま見出しとして表示されます。
更に、「出力先」に相関係数を出力したいセルを入力し、「OK」ボタンを押すと、 出力先として選択したセルに相関係数が表示されます。
データ方向と出力先を指定すれば、結果が表示されます。
t検定: 2種類のデータの平均に違いがあるのかを確認
t検定とは
t検定は、「母平均に対する検定」と呼ばれており、2つの母集団の平均値の違いに「偶然とは言えない差」があるのかどうかを、各データの分散の大きさを用いて検定するための分析手法です。
「今年の桃は例年より重いか」、「AとBのクラスで数学の平均点数に差はあるのか」といった、母集団全体の等平均仮説の正否を、少数のサンプルを母集団から抽出するだけで検証できるため、あらゆるシーンで活用されています。
ことビジネスにおいては、工業製品の品質管理などで用いられることが多い検定です。
Excelの分析ツールを用いてt検定を行う場合、「分析ツール」のボックスから「t検定:一対の標本による平均の検定」、もしくは「t検定:等分散を仮定した2標本による検定」を選択し、「OK」をクリックします。
このうち、前者は対応のあるデータ、後者は対応のないデータに対して使用する検定です。
対応とは、2つのデータが対になっているという意味です。
例えば、生徒Aの中間テストの成績と期末テストの成績は対応しているといえますが、生徒Aの期末テストの成績と生徒Bの期末テストの成績は、対応しているとはいえません。
どちらも使い方に大きな違いはありません。
対応がある場合は「変数1の入力範囲」に1つ目の条件での標本データを、「変数2の入力範囲」には2つ目の条件での標本データが入力されたセルを指定します。
対応がない場合はそれぞれに、2つの標本データが入力されたセルを指定してください。
指定が完了したら、「OK」をクリックします。
すると、t検定の結果が出力されます。
なお、条件が2つの場合と3以上の場合では分析の設定が異なります。
条件が3つ以上ある場合は、「分析ツール」ボックス内の「分散分析」を選択しなければなりません。
「分散分析」については、下の章で詳しく解説しています。
分散分析: 3種類以上のデータの平均に違いがあるのかを確認
分散分析とは?(一元配置)
分散分析とは、3群以上のデータ、もしくは3つ以上の条件下で分類されたデータの母平均の差を、各群の分散の大きさを用いて検定するための分析方法です。
クラスごとのテストの結果や、年間購入額のランクで分けた顧客の年齢など、幅広いシーンで母平均の差を統計的に検討するために活用されています。
分散分析を行ううえで知っておかなければならないのが、「要因」と「水準」という2つの概念です。
要因は値に変化を与える要素、水準は要因に含まれる項目を意味します。
例えばクラス毎のテストの平均点に有意 (統計的) な差があるかどうかを検討するために分散分析を行う場合、「クラス (学級) 」という要因のなかに「A組」「B組」「C組」など、学級の数と同じ数だけ「水準」があるということです。
更に分散分析には大きく分けると、1元配置と多元 (主に2元) 配置の二種類があります。
「元」というのは、要因数を表しています。
例えば、投薬効果の平均の差を見る要因は薬剤の種類という一要因のみなので、1元配置となります。
そこに、被験者の個人差や投薬時期などの要因が加わると多元配置になります。
今回は、1元配置の場合の分散分析のやり方についてご説明します。
データを用意して、「分析ツール」を開き、「分散分析:一元配置」を選択し、「先頭行をラベルとして使用」や「出力」オプション、「有意水準α」を必要に応じて適宜指定した後、「OK」をクリックします。
注意点としては、今度はt検定の時とは異なり、入力範囲は複数の系列に跨った対象データを一括で指定します。
「OK」ボタンをクリックした結果、分散分析の結果が出力されました。
たくさんの指標が表示されていますが、今回の出力で注目する指標は「P-値」です。
この値が先ほど設定した有意水準α (=0.05) より小さければ、
P-値は「帰無仮説H0が起こる確率」を意味します。
帰無仮説とは文字通り、無に帰される (否定される) ことを望んで立てられる仮説のことで、一般的には「グループ間に差が出てほしい」と望んで検定を実施しているため、帰無仮説H0は、「グループ間に差が無い」と仮定されます。
つまり、分散分析においての帰無仮説H0とは「データ群の平均が等しいこと」であり、投薬データの例だと、「薬剤の種類による効果の平均に差は無い」ということに値します。
そして、このP-値が予め設定した有意水準α (=0.05) の値を下回れば、帰無仮説H0を棄却 (対立仮説H1を採択) できるといった仕組みです。
先ほどの例に出した投薬データの場合、薬剤による効果の平均に差があると結論付けることができます。
通常、分析対象の分野にもよりますが、有意水準αは0.05に設定されることが多いです。
例外で言うと、人の命を左右する医療分野では、有意水準αは0.01あるいはそれ以下と厳しく、有意差が出にくい経済分野では有意水準αを0.1と許容範囲を甘くする傾向にあります。
このように、3種類以上のデータに対してそれらの平均に差があるかを確かめるときに、分散分析を用います。
しかし、「分析ツール」機能では要因が3つ以上あるデータの分散分析はできないことは頭に留めておく必要があります。
回帰分析:複数のデータから求めたい数値を予測
回帰分析は、ある変数の変動から別の変数の変動を予測・説明するための分析手法です。
特にビジネスの分野においては、結果を「予測」することよりも、結果に対する原因を「推測 (説明)」することに重点が置かれる場合が多いかと思われます。
説明・予測の対象となる変数を目的変数、予測するために用いる変数を説明変数と呼びます。
説明変数が1つの場合は単回帰分析、2つ以上の場合は重回帰分析と呼ばれます。
回帰分析を行うと、「広告宣伝費から来客者数を予測する」、「身長とウエスト、バストから体重を予測する」、「母親のIQと父親のIQから子のIQを予測する」、「ある日の天気と乗降客数から、その日のタクシーの売上高を予測する」といったことが可能になります。
根拠となるデータが出そろっていない場合も予測できるようになる点がメリットです。
一方で、剰余変数の存在に注意しなければ、誤った推論になる可能性があります。
剰余変数とは、回帰式に採用した説明変数以外で、目的変数に影響を与える隠れた変数のことです。
例えば体重を予測する場合、男性と女性ではウエストやバストの大きさが異なるため、性別という説明変数を導入しなければ各性別の体重を正確に予測するのは困難だと考えられます。
今までと同様に、まず目的変数と説明変数のデータを用意して、「分析ツール」を開き、そこから「回帰分析」を選択して「OK」をクリックします。
開いたウインドウの「入力Y範囲」に目的変数とするデータの範囲を、「入力X範囲」に説明変数とするデータの範囲を選択、入力し、再び「OK」をクリックします。
重回帰分析の場合も、単回帰分析の場合と手順に大きな違いはありません。
「入力X範囲」に、説明変数として用いるセル全てを同時指定するだけです。
すると、様々な値が回帰分析の結果として出力されます。
その中でも代表的な指標の意味解釈を以下で説明します。
- 重相関R:1に近ければ近いほど、信頼できるデータであることを示す。
- 重決定R2:一般的には決定係数と呼ばれることが多い。重相関Rを2乗した値で、モデルの説明力を表している。
1に近ければ近いほど、説明変数で説明できる割合が多い。 - 補正R2:上述した重決定に自由度の影響による補正を加えた実用的な決定係数。
- 係数:説明変数が目的変数に与える影響の大きさを示す。
コメントする