【データの分析】数学の勉強法・つまずきポイントと対策|日本数学塾
```html
はじめに:データの分析を完全マスターするために
こんにちは、日本数学塾・数強塾の講師、藤原進之介です。
高校数学Ⅰで学ぶ「データの分析」は、共通テストで毎年必ず出題される重要単元です。2022年度から始まった新課程では、この分野の比重がさらに高まり、単なる公式の暗記では太刀打ちできない問題が増えています。
「公式は覚えたのに、問題が解けない…」
「分散と標準偏差の違いがよくわからない…」
「相関係数の計算で毎回間違える…」
このような悩みを抱える生徒さんは非常に多いです。しかし、データの分析は正しい理解と練習を積めば確実に得点源にできる分野です。
この記事では、基本概念の確認から入試レベルの実戦問題まで、段階的に学習できるよう構成しました。全30問の例題と詳細な解説を通じて、データの分析を完全にマスターしましょう。
この記事で学べること
- 平均値・分散・標準偏差・共分散・相関係数の本質的な理解
- 計算ミスを防ぐための効率的な解法テクニック
- 共通テスト・大学入試で頻出のパターンと対策
- よくある間違いとその回避方法
基本概念の確認
1. 代表値(データの中心を表す値)
① 平均値(算術平均)
データの値をすべて足し合わせ、データの個数で割った値です。
【定義】
n個のデータ x₁, x₂, ..., xₙ の平均値 x̄ は
x̄ = (x₁ + x₂ + ... + xₙ) / n = (1/n)Σxᵢ
【図解:平均値のイメージ】
データ: 3, 5, 7, 9, 11
3 5 7 9 11
● ● ● ● ●
↓ ↓ ↓ ↓ ↓
すべて均等にならすと
↓
● ● ● ● ●
7 7 7 7 7
平均値 = (3+5+7+9+11)/5 = 35/5 = 7
ポイント:平均値は「全データを均等に配分したときの1つあたりの値」と考えましょう。
② 中央値(メジアン)
データを小さい順(または大きい順)に並べたとき、中央に位置する値です。
【定義】
- データの個数が奇数のとき:真ん中の値
- データの個数が偶数のとき:真ん中2つの値の平均
【図解:中央値のイメージ】
【奇数個の場合】データ: 2, 5, 7, 9, 15
2 5 7 9 15
● ● ● ● ●
↑
中央値 = 7
【偶数個の場合】データ: 2, 5, 7, 9
2 5 7 9
● ● ● ●
↑ ↑
中央の2つ
中央値 = (5+7)/2 = 6
ポイント:中央値は外れ値の影響を受けにくい特徴があります。
③ 最頻値(モード)
データの中で最も多く出現する値です。
【例】
データ: 1, 2, 2, 3, 3, 3, 4, 5 の最頻値は 3(3回出現)
2. 散布度(データの散らばりを表す値)
① 範囲(レンジ)
【定義】
範囲 = 最大値 − 最小値
② 四分位数と四分位範囲
データを小さい順に並べたとき、4等分する位置の値を四分位数といいます。
【定義】
- 第1四分位数 Q₁:下から25%の位置の値
- 第2四分位数 Q₂:下から50%の位置の値(= 中央値)
- 第3四分位数 Q₃:下から75%の位置の値
- 四分位範囲 = Q₃ − Q₁
【図解:四分位数のイメージ】
データを昇順に並べる: 1, 3, 5, 7, 9, 11, 13, 15, 17, 19, 21
1 3 5 7 9 11 13 15 17 19 21
● ● ● ● ● ● ● ● ● ● ●
↑ ↑ ↑
Q₁=4 Q₂=11 Q₃=16
(下位半分 (全体の (上位半分
の中央値) 中央値) の中央値)
四分位範囲 = Q₃ - Q₁ = 16 - 4 = 12
③ 分散
分散は「データが平均からどれだけ散らばっているか」を数値化したものです。
【定義】分散 s²
s² = (1/n)Σ(xᵢ - x̄)²
= (各データと平均の差)²の平均
【計算公式(展開形)】
s² = (x₁² + x₂² + ... + xₙ²)/n − x̄²
= (2乗の平均)−(平均の2乗)
この展開形の公式は計算が非常に楽になるので、必ず覚えましょう!
【図解:分散のイメージ】
【分散が小さいデータ】 【分散が大きいデータ】
平均 x̄ = 5 平均 x̄ = 5
3 4 5 6 7 1 2 5 8 9
● ● ● ● ● ● ● ● ● ●
↓↓ ↓ ↓↓ ↓ ↓ ↓ ↓ ↓
データが密集 データが散らばっている
→ 分散小 → 分散大
④ 標準偏差
【定義】標準偏差 s
s = √(分散) = √s²
ポイント:分散は単位が「(元の単位)²」になってしまうため、元の単位に戻すために平方根をとったものが標準偏差です。
3. 2変量データの分析
① 共分散
2つの変量 x と y の関係の強さと方向を表す指標です。
【定義】共分散 sxy
sxy = (1/n)Σ(xᵢ - x̄)(yᵢ - ȳ)
【計算公式(展開形)】
sxy = (x₁y₁ + x₂y₂ + ... + xₙyₙ)/n − x̄ȳ
= (積の平均)−(平均の積)
【共分散の意味】
- sxy > 0:正の相関(xが増えるとyも増える傾向)
- sxy < 0:負の相関(xが増えるとyは減る傾向)
- sxy ≒ 0:相関がない(またはほとんどない)
② 相関係数
相関の強さを -1 から 1 の範囲で標準化した指標です。
【定義】相関係数 r
r = sxy / (sx × sy)
= (共分散)÷(xの標準偏差 × yの標準偏差)
【相関係数の解釈】
-1 -0.7 -0.4 0 0.4 0.7 1 |------|------|------|------|------|------| 強い やや強い ほとんど ほとんど やや強い 強い 負の相関 負の相関 相関なし 相関なし 正の相関 正の相関
【図解:相関係数と散布図】
【r ≒ 1】 【r ≒ 0】 【r ≒ -1】
強い正の相関 相関なし 強い負の相関
● ● ● ●
● ● ● ●
● ● ● ●
● ● ● ●
● ● ● ● ●
4. データの変換と統計量の変化
データを一次変換(y = ax + b)したときの統計量の変化は非常に重要です。
【超重要】一次変換 y = ax + b のとき
| 統計量 | 変換後 |
|---|---|
| 平均値 | ȳ = ax̄ + b |
| 分散 | sy² = a²sx²(bは関係なし) |
| 標準偏差 | sy = |a|sx(bは関係なし) |
5. 箱ひげ図
データの分布を視覚的に表現するグラフです。
【箱ひげ図の構造】 最小値 Q₁ Q₂ Q₃ 最大値 | |--------|--------| | |--------| | |--------| ←ひげ→ ← 箱 → ←ひげ→ ・箱の長さ = 四分位範囲(Q₃ - Q₁) ・箱の中の線 = 中央値(Q₂) ・ひげの両端 = 最大値・最小値
基礎問題で土台を固めよう(10問)
【基礎問題1】平均値の計算
【問題】
5人の生徒のテスト得点が 72, 85, 68, 91, 79 点であった。このデータの平均値を求めよ。
【解説】
平均値の定義に従って計算します。
平均値 = (全データの合計) ÷ (データの個数)
まず合計を求めます:
72 + 85 + 68 + 91 + 79 = 395
データの個数は5なので:
平均値 = 395 ÷ 5 = 79
【解答】79点
【基礎問題2】中央値の求め方
【問題】
次のデータの中央値を求めよ。
(1) 3, 7, 2, 9, 5, 8, 1
(2) 12, 8, 15, 6, 20, 11
【解説】
(1) データ数が7個(奇数)の場合
まず、データを小さい順に並べます:
1, 2, 3, 5, 7, 8, 9
7個のデータの中央は (7+1)/2 = 4番目
4番目の値は 5
(2) データ数が6個(偶数)の場合
まず、データを小さい順に並べます:
6, 8, 11, 12, 15, 20
6個のデータの中央は 3番目と4番目の間
中央値 = (11 + 12) ÷ 2 = 23 ÷ 2 = 11.5
【解答】(1) 5 (2) 11.5
【基礎問題3】四分位数と四分位範囲
【問題】
次のデータの第1四分位数Q₁、第2四分位数Q₂(中央値)、第3四分位数Q₃、および四分位範囲を求めよ。
データ:2, 4, 5, 7, 8, 10, 12, 15
【解説】
データは既に昇順に並んでいます:2, 4, 5, 7, 8, 10, 12, 15(8個)
Step 1:中央値Q₂を求める
データ数が8個(偶数)なので、4番目と5番目の平均
Q₂ = (7 + 8) ÷ 2 = 7.5
Step 2:第1四分位数Q₁を求める
下位半分(2, 4, 5, 7)の中央値
Q₁ = (4 + 5) ÷ 2 = 4.5
Step 3:第3四分位数Q₃を求める
上位半分(8, 10, 12, 15)の中央値
Q₃ = (10 + 12) ÷ 2 = 11
Step 4:四分位範囲を求める
四分位範囲 = Q₃ − Q₁ = 11 − 4.5 = 6.5
【解答】Q₁ = 4.5、Q₂ = 7.5、Q₃ = 11、四分位範囲 = 6.5
【基礎問題4】分散の計算(定義式)
【問題】
データ 1, 3, 5, 7, 9 の分散を、定義式を用いて求めよ。
【解説】
Step 1:平均値を求める
x̄ = (1 + 3 + 5 + 7 + 9) ÷ 5 = 25 ÷ 5 = 5
Step 2:各データと平均の偏差を求める
| xᵢ | xᵢ − x̄ | (xᵢ − x̄)² |
|---|---|---|
| 1 | −4 | 16 |
| 3 | −2 | 4 |
| 5 | 0 | 0 |
| 7 | 2 | 4 |
| 9 | 4 | 16 |
| 合計 | 0 | 40 |
Step 3:分散を求める
s² = (偏差の2乗の合計) ÷ n = 40 ÷ 5 = 8
【解答】分散 s² = 8
【基礎問題5】分散の計算(展開形の公式)
【問題】
データ 2, 4, 6, 8, 10 の分散を、公式 s² = (x²の平均) − (平均)² を用いて求めよ。
【解説】
Step 1:平均値を求める
x̄ = (2 + 4 + 6 + 8 + 10) ÷ 5 = 30 ÷ 5 = 6
Step 2:x²の平均を求める
各データの2乗:4, 16, 36, 64, 100
x²の平均 = (4 + 16 + 36 + 64 + 100) ÷ 5 = 220 ÷ 5 = 44
Step 3:分散を求める
s² = (x²の平均) − (平均)²
s² = 44 − 6² = 44
【基礎問題5】分散の計算(展開形の公式)続き
s² = 44 − 6² = 44 − 36 = 8
【解答】分散 s² = 8
【補足】基礎問題4と同じデータ(等差数列)で計算しているため、同じ分散8になります。展開形の公式は計算が楽なので、実際の試験ではこちらを使うことをお勧めします。
【基礎問題6】標準偏差の計算
【問題】
データ 3, 5, 7, 9, 11 の標準偏差を求めよ。
【解説】
Step 1:平均値を求める
x̄ = (3 + 5 + 7 + 9 + 11) ÷ 5 = 35 ÷ 5 = 7
Step 2:分散を求める(展開形の公式を使用)
各データの2乗:9, 25, 49, 81, 121
x²の平均 = (9 + 25 + 49 + 81 + 121) ÷ 5 = 285 ÷ 5 = 57
s² = 57 − 7² = 57 − 49 = 8
Step 3:標準偏差を求める
s = √8 = √(4×2) = 2√2
【解答】標準偏差 s = 2√2 ≒ 2.83
【基礎問題7】共分散の計算
【問題】
次の2変量データについて、共分散を求めよ。
| x | 1 | 2 | 3 | 4 | 5 |
|---|---|---|---|---|---|
| y | 2 | 5 | 4 | 7 | 7 |
【解説】
Step 1:各平均値を求める
x̄ = (1 + 2 + 3 + 4 + 5) ÷ 5 = 15 ÷ 5 = 3
ȳ = (2 + 5 + 4 + 7 + 7) ÷ 5 = 25 ÷ 5 = 5
Step 2:xyの平均を求める
各xyの積:1×2=2, 2×5=10, 3×4=12, 4×7=28, 5×7=35
xyの平均 = (2 + 10 + 12 + 28 + 35) ÷ 5 = 87 ÷ 5 = 17.4
Step 3:共分散を求める
sxy = (xyの平均) − (x̄)(ȳ)
sxy = 17.4 − 3 × 5 = 17.4 − 15 = 2.4
【解答】共分散 sxy = 2.4
【補足】共分散が正なので、xとyには正の相関(xが増えるとyも増える傾向)があることがわかります。
【基礎問題8】相関係数の計算
【問題】
基礎問題7のデータについて、相関係数を求めよ。
【解説】
相関係数 r = sxy ÷ (sx × sy) を使います。
Step 1:共分散(既に求めた)
sxy = 2.4
Step 2:xの標準偏差sxを求める
x² の値:1, 4, 9, 16, 25
x²の平均 = (1 + 4 + 9 + 16 + 25) ÷ 5 = 55 ÷ 5 = 11
sx² = 11 − 3² = 11 − 9 = 2
sx = √2
Step 3:yの標準偏差syを求める
y² の値:4, 25, 16, 49, 49
y²の平均 = (4 + 25 + 16 + 49 + 49) ÷ 5 = 143 ÷ 5 = 28.6
sy² = 28.6 − 5² = 28.6 − 25 = 3.6
sy = √3.6 = √(18/5) = (3√2)/√5 = (3√10)/5
Step 4:相関係数を求める
r = sxy ÷ (sx × sy)
r = 2.4 ÷ (√2 × √3.6)
r = 2.4 ÷ √7.2
r = 2.4 ÷ √(36/5)
r = 2.4 ÷ (6/√5)
r = 2.4 × √5 ÷ 6
r = 0.4√5 ≒ 0.894
【解答】相関係数 r = 0.4√5 ≒ 0.894
【補足】r ≒ 0.894 は1に近いので、xとyには「強い正の相関」があるといえます。
【基礎問題9】データの変換と平均・分散
【問題】
データxの平均値が20、分散が9であるとき、y = 2x + 5 で変換したデータyの平均値と分散を求めよ。
【解説】
一次変換 y = ax + b のとき:
- ȳ = ax̄ + b
- sy² = a²sx²
今回は a = 2, b = 5 なので:
平均値の変換
ȳ = 2 × 20 + 5 = 40 + 5 = 45
分散の変換
sy² = 2² × 9 = 4 × 9 = 36
【解答】平均値 ȳ = 45、分散 sy² = 36
【重要ポイント】分散の変換では、定数項 b は影響しません。これは分散が「散らばり」を表すため、全データに同じ値を加えても散らばりは変わらないからです。
【基礎問題10】箱ひげ図の読み取り
【問題】
次の箱ひげ図から、最小値、第1四分位数、中央値、第3四分位数、最大値、四分位範囲を読み取れ。
10 20 30 40 50 60 70
|-----|-----|-----|-----|-----|-----|
|-----|======|======|-----|
15 25 35 50 60
【解説】
箱ひげ図の構造を確認します:
- 左端のひげの端点 → 最小値
- 箱の左端 → 第1四分位数(Q₁)
- 箱の中の線 → 中央値(Q₂)
- 箱の右端 → 第3四分位数(Q₃)
- 右端のひげの端点 → 最大値
【解答】
- 最小値:15
- 第1四分位数 Q₁:25
- 中央値 Q₂:35
- 第3四分位数 Q₃:50
- 最大値:60
- 四分位範囲:Q₃ − Q₁ = 50 − 25 = 25
標準問題にチャレンジ(10問)
【パターン1:度数分布表からの統計量計算】
【標準問題1】度数分布表から平均と分散を求める
【問題】
ある高校1年生40人の通学時間を調査した結果、次の度数分布表が得られた。この度数分布表から平均値と分散を求めよ。ただし、各階級の代表値は階級値を用いよ。
| 通学時間(分) | 度数(人) |
|---|---|
| 0以上10未満 | 4 |
| 10以上20未満 | 8 |
| 20以上30未満 | 14 |
| 30以上40未満 | 10 |
| 40以上50未満 | 4 |
【解説】
度数分布表から統計量を求める場合、階級値(各階級の中央の値)を使って計算します。
Step 1:階級値と度数の表を作成
| 階級 | 階級値 x | 度数 f | fx | fx² |
|---|---|---|---|---|
| 0〜10 | 5 | 4 | 20 | 100 |
| 10〜20 | 15 | 8 | 120 | 1800 |
| 20〜30 | 25 | 14 | 350 | 8750 |
| 30〜40 | 35 | 10 | 350 | 12250 |
| 40〜50 | 45 | 4 | 180 | 8100 |
| 合計 | - | 40 | 1020 | 31000 |
Step 2:平均値を求める
x̄ = Σ(fx) ÷ Σf = 1020 ÷ 40 = 25.5(分)
Step 3:分散を求める
x²の平均 = Σ(fx²) ÷ Σf = 31000 ÷ 40 = 775
s² = 775 − 25.5² = 775 − 650.25 = 124.75
【解答】平均値 25.5分、分散 124.75
【パターン2:仮平均を使った計算】
【標準問題2】仮平均を利用した効率的な計算
【問題】
データ 98, 102, 95, 105, 100 の平均値と分散を、仮平均100を用いて求めよ。
【解説】
各データから仮平均100を引いた値で計算すると楽になります。
Step 1:偏差データを作成
u = x − 100 とおくと
u: −2, 2, −5, 5, 0
Step 2:uの平均を求める
ū = (−2 + 2 − 5 + 5 + 0) ÷ 5 = 0 ÷ 5 = 0
Step 3:xの平均を求める
x̄ = ū + 100 = 0 + 100 = 100
Step 4:uの分散を求める
u²: 4, 4, 25, 25, 0
u²の平均 = (4 + 4 + 25 + 25 + 0) ÷ 5 = 58 ÷ 5 = 11.6
su² = 11.6 − 0² = 11.6
Step 5:xの分散を求める
y = ax + b の変換では sy² = a²sx² なので、
u = x − 100 すなわち x = u + 100(a=1)より
sx² = su² = 11.6
【解答】平均値 100、分散 11.6
【パターン3:データの追加・削除による統計量の変化】
【標準問題3】データ追加後の平均値
【問題】
10人の生徒のテストの平均点が72点であった。新たに1人の生徒が加わり、11人の平均点が74点になった。新たに加わった生徒の得点を求めよ。
【解説】
Step 1:元の10人の合計点を求める
10人の合計 = 72 × 10 = 720(点)
Step 2:11人の合計点を求める
11人の合計 = 74 × 11 = 814(点)
Step 3:新たに加わった生徒の得点を求める
新しい生徒の得点 = 814 − 720 = 94(点)
【解答】94点
【標準問題4】データ削除後の平均値と分散
【問題】
5個のデータ 2, 4, 6, 8, 10 から、値6を取り除いた4個のデータの平均値と分散を求めよ。
【解説】
残るデータ:2, 4, 8, 10
Step 1:平均値を求める
x̄ = (2 + 4 + 8 + 10) ÷ 4 = 24 ÷ 4 = 6
Step 2:分散を求める
x²: 4, 16, 64, 100
x²の平均 = (4 + 16 + 64 + 100) ÷ 4 = 184 ÷ 4 = 46
s² = 46 − 6² = 46 − 36 = 10
【解答】平均値 6、分散 10
【比較】元のデータ(2,4,6,8,10)は平均6、分散8でした。平均値と同じ値(6)を取り除いても平均は変わりませんが、分散は8→10と大きくなりました。これは中央付近のデータが減ったため、相対的に散らばりが大きくなったことを示しています。
【パターン4:2つのグループを合わせたデータ】
【標準問題5】2グループの合併後の平均
【問題】
A組30人の数学のテストの平均点は65点、B組20人の平均点は75点であった。A組とB組を合わせた50人全体の平均点を求めよ。
【解説】
Step 1:各組の合計点を求める
A組の合計 = 65 × 30 = 1950(点)
B組の合計 = 75 × 20 = 1500(点)
Step 2:全体の合計と人数から平均を求める
全体の合計 = 1950 + 1500 = 3450(点)
全体の人数 = 30 + 20 = 50(人)
全体の平均 = 3450 ÷ 50 = 69(点)
【解答】69点
【注意】単純に(65+75)÷2=70点としてはいけません!人数が異なるので、加重平均を使います。
【標準問題6】2グループの合併後の分散
<div style="background-color: #e3f2fd; padding: 20px; border-radius: 10px; margin:
【標準問題6】2グループの合併後の分散
【問題】
A組(4人)のデータの平均が10、分散が4である。B組(6人)のデータの平均が15、分散が9である。A組とB組を合わせた10人全体のデータの平均と分散を求めよ。
【解説】
Step 1:全体の平均を求める
A組の合計 = 10 × 4 = 40
B組の合計 = 15 × 6 = 90
全体の平均 x̄ = (40 + 90) ÷ 10 = 130 ÷ 10 = 13
Step 2:各組のx²の合計を求める
分散の公式 s² = (x²の平均) − (平均)² を変形すると:
x²の平均 = s² + (平均)²
A組:x²の平均 = 4 + 10² = 4 + 100 = 104
x²の合計 = 104 × 4 = 416
B組:x²の平均 = 9 + 15² = 9 + 225 = 234
x²の合計 = 234 × 6 = 1404
Step 3:全体の分散を求める
全体のx²の合計 = 416 + 1404 = 1820
全体のx²の平均 = 1820 ÷ 10 = 182
全体の分散 = 182 − 13² = 182 − 169 = 13
【解答】平均 13、分散 13
【重要公式】2グループ合併の分散
n₁個のデータ(平均x̄₁、分散s₁²)とn₂個のデータ(平均x̄₂、分散s₂²)を合わせた全体の分散は:
全体の分散 = [n₁(s₁² + x̄₁²) + n₂(s₂² + x̄₂²)] / (n₁ + n₂) − (全体の平均)²
【パターン5:相関係数の性質】
【標準問題7】データ変換と相関係数
【問題】
2変量データ(x, y)の相関係数が0.8であるとき、次の変換後のデータの相関係数を求めよ。
(1) (2x, 3y)
(2) (x + 5, y − 3)
(3) (−x, y)
(4) (−2x + 1, −3y + 5)
【解説】
相関係数の変換における重要な性質:
- 定数の加減(平行移動)は相関係数に影響しない
- 正の定数倍は相関係数に影響しない
- 負の定数倍は相関係数の符号が反転する
(1) (2x, 3y) の場合
どちらも正の定数倍なので、相関係数は変わらない。
相関係数 = 0.8
(2) (x + 5, y − 3) の場合
定数の加減のみなので、相関係数は変わらない。
相関係数 = 0.8
(3) (−x, y) の場合
xのみ−1倍(負の定数倍)されているので、符号が反転する。
相関係数 = −0.8
(4) (−2x + 1, −3y + 5) の場合
xもyも負の定数倍されている。符号が2回反転するので元に戻る。
相関係数 = 0.8
【解答】(1) 0.8 (2) 0.8 (3) −0.8 (4) 0.8
【パターン6:散布図と相関】
【標準問題8】散布図から相関係数の符号と大きさを判断
【問題】
次の5組のデータについて、散布図を描き、相関係数の符号(正・負・ほぼ0)を判断せよ。また、相関係数を計算せよ。
| x | 1 | 2 | 3 | 4 | 5 |
|---|---|---|---|---|---|
| y | 8 | 5 | 6 | 3 | 3 |
【解説】
散布図のイメージ
y 8 | ● 7 | 6 | ● 5 | ● 4 | 3 | ● ● 2 | 1 | 0 +--+--+--+--+--+-- x 1 2 3 4 5
右下がりの傾向が見られるので、負の相関があると予想できます。
相関係数の計算
x̄ = (1+2+3+4+5)/5 = 3
ȳ = (8+5+6+3+3)/5 = 5
xyの積:8, 10, 18, 12, 15 → 合計63
xyの平均 = 63/5 = 12.6
共分散 sxy = 12.6 − 3×5 = 12.6 − 15 = −2.4
x²:1, 4, 9, 16, 25 → 合計55
sx² = 55/5 − 9 = 11 − 9 = 2 → sx = √2
y²:64, 25, 36, 9, 9 → 合計143
sy² = 143/5 − 25 = 28.6 − 25 = 3.6 → sy = √3.6
r = sxy / (sx × sy) = −2.4 / (√2 × √3.6) = −2.4 / √7.2 ≒ −0.894
【解答】負の相関、相関係数 r ≒ −0.894(強い負の相関)
【パターン7:箱ひげ図の比較】
【標準問題9】複数の箱ひげ図の読み取りと比較
【問題】
下の図は、A校とB校の生徒各50人の数学のテスト得点の箱ひげ図である。次の記述のうち、正しいものをすべて選べ。
得点 30 40 50 60 70 80 90 100
|----|----|----|----|----|----|----|
A校 |----[====|====]---------|
35 50 60 70 85
B校 |--[====|=====]----|
40 55 65 80 90
① A校の方が最小値が小さい
② B校の方が中央値が大きい
③ A校の方が四分位範囲が大きい
④ A校の方が範囲が大きい
⑤ A校で60点以上の生徒は25人以上いる
【解説】
各統計量を読み取ります:
| A校 | B校 | |
|---|---|---|
| 最小値 | 35 | 40 |
| Q₁ | 50 | 55 |
| 中央値 | 60 | 65 |
| Q₃ | 70 | 80 |
| 最大値 | 85 | 90 |
| 四分位範囲 | 20 | 25 |
| 範囲 | 50 | 50 |
各選択肢の検証:
① A校の最小値35 < B校の最小値40 → 正しい
② B校の中央値65 > A校の中央値60 → 正しい
③ A校の四分位範囲20 < B校の四分位範囲25 → 誤り
④ A校の範囲50 = B校の範囲50 → 誤り
⑤ A校で60点はちょうど中央値。中央値以上の生徒は全体の50%=25人以上 → 正しい
【解答】①、②、⑤
【パターン8:外れ値の影響】
【標準問題10】外れ値が統計量に与える影響
【問題】
データ A:10, 12, 14, 16, 18 と データ B:10, 12, 14, 16, 58 について、それぞれの平均値、中央値、分散を求め、外れ値(58)がどのように影響するか考察せよ。
【解説】
データA(10, 12, 14, 16, 18)の計算
平均値:(10+12+14+16+18)/5 = 70/5 = 14
中央値:14(3番目の値)
x²の合計:100+144+196+256+324 = 1020
分散:1020/5 − 14² = 204 − 196 = 8
データB(10, 12, 14, 16, 58)の計算
平均値:(10+12+14+16+58)/5 = 110/5 = 22
中央値:14(3番目の値)← 変わらない!
x²の合計:100+144+196+256+3364 = 4060
分散:4060/5 − 22² = 812 − 484 = 328
| データA | データB | 変化 | |
|---|---|---|---|
| 平均値 | 14 | 22 | +8(大きく増加) |
| 中央値 | 14 | 14 | 変化なし |
| 分散 | 8 | 328 | 41倍(激増) |
【解答】
データA:平均値14、中央値14、分散8
データB:平均値22、中央値14、分散328
考察:外れ値は平均値と分散に大きな影響を与えるが、中央値には影響しにくい。そのため、外れ値が存在する可能性があるデータでは、中央値の方が代表値として適切な場合がある。
入試レベルの実戦問題(10問)
【実戦問題1】共通テスト型:複数の統計量の関係
【問題】
ある高校の生徒20人について、数学と英語のテストを実施した。数学の得点をx点、英語の得点をy点とするとき、次のことがわかっている。
- xの平均値は65点、標準偏差は12点
- yの平均値は70点、標準偏差は15点
- xとyの相関係数は0.6
(1) xとyの共分散を求めよ。
(2) z = x + y とするとき、zの平均値を求めよ。
(3) zの分散を求めよ。
【解説】
(1) 共分散の計算
相関係数の定義 r = sxy / (sx × sy) より:
sxy = r × sx × sy
sxy = 0.6 × 12 × 15 = 108
(2) zの平均値
z = x + y のとき、z̄ = x̄ + ȳ
z̄ = 65 + 70 = 135(点)
(3) zの分散
z = x + y のとき、分散の公式は:
sz² = sx² + sy² + 2sxy
※この公式の導出:
sz² = (1/n)Σ(zi − z̄)²
= (1/n)Σ((xi + yi) − (x̄ + ȳ))²
= (1/n)Σ((xi − x̄) + (yi − ȳ))²
= (1/n)Σ[(xi − x̄)² + 2(xi − x̄)(yi − ȳ) + (yi − ȳ)²]
= sx² + 2sxy + sy²
よって:
sz² = 12² + 15² + 2 × 108
sz² = 144 + 225 + 216 = 585
【解答】
(1) 共分散 sxy = 108
(2) zの平均値 = 135点
(3) zの分散 = 585
【実戦問題2】共通テスト型:データの変換と統計量
【問題】
n個のデータ x₁, x₂, ..., xn の平均値が50、分散が100であるとき、データを u_i = (x_i − 50)/10 と変換した。変換後のデータ u₁, u₂, ..., un の平均値と分散を求めよ。
【解説】
変換式 u = (x − 50)/10 を整理すると:
u = (1/10)x − 5
これは y = ax + b の形で、a = 1/10、b = −5
平均値の変換
ū = ax̄ + b = (1/10) × 50 + (−5) = 5 − 5 = 0
分散の変換
su² = a²sx² = (1/10)² × 100 = (1/100) × 100 = 1
【解答】平均値 0、分散 1
【補足】この変換は「標準化」と呼ばれ、平均0・分散1のデータに変換します。異なる単位や尺度のデータを比較する際に重要な操作です。
【実戦問題3】私大入試型:未知の値を含む統計量
【問題】
5つのデータ 2, 5, a, 8, 10 の平均値が6であるとき、aの値と分散を求めよ。
【解説】
Step 1:aの値を求める
平均値の条件より:
(2 + 5 + a + 8 + 10) / 5 = 6
25 + a = 30
a = 5
Step 2:分散を求める
データ:2, 5, 5, 8, 10(平均6)
x²:4, 25, 25, 64, 100 → 合計218
x²の平均 = 218/5 = 43.6
分散 = 43.6 − 6² = 43.6 − 36 = 7.6
【解答】a = 5、分散 = 7.6
【実戦問題4】私大入試型:分散の条件から値を求める
【問題】
4つのデータ 1, 3, 5, a(a > 5)の分散が5であるとき、aの値を求めよ。
【解説】
Step 1:平均値をaで表す
x̄ = (1 + 3 + 5 + a) / 4 = (9 + a) / 4
Step 2:分散の式を立てる
x²の平均 = (1 + 9 + 25 + a²) / 4 = (35 + a²) / 4
分散 = (x²の平均) − (平均)²
5 = (35 + a²)/4 − ((9 + a)/4)²
5 = (35 + a²)/4 − (9 + a)²/16
Step 3:方程式を解く
両辺に16を
両辺に16をかけて:
80 = 4(35 + a²) − (9 + a)²
80 = 140 + 4a² − (81 + 18a + a²)
80 = 140 + 4a² − 81 − 18a − a²
80 = 3a² − 18a + 59
3a² − 18a + 59 − 80 = 0
3a² − 18a − 21 = 0
a² − 6a − 7 = 0
(a − 7)(a + 1) = 0
a = 7 または a = −1
a > 5 の条件より、a = 7
検算
データ:1, 3, 5, 7 平均 = 16/4 = 4
x²の平均 = (1 + 9 + 25 + 49)/4 = 84/4 = 21
分散 = 21 − 16 = 5 ✓
【解答】a = 7
【実戦問題5】共通テスト型:相関係数の範囲
【問題】
3組のデータ (1, 2), (2, 4), (3, a) について、相関係数が1となるようなaの値を求めよ。
【解説】
相関係数が1になるのは、すべての点が一直線上にあるとき(完全な正の相関)です。
方法1:直線の傾きを利用
(1, 2) と (2, 4) を通る直線の傾き = (4 − 2)/(2 − 1) = 2
この直線の方程式:y − 2 = 2(x − 1) より y = 2x
x = 3 のとき、y = 2 × 3 = 6
よって a = 6
方法2:相関係数の定義から計算
x̄ = (1 + 2 + 3)/3 = 2
ȳ = (2 + 4 + a)/3 = (6 + a)/3
相関係数 r = 1 のとき、sxy = sx × sy が成立
これは y = px + q(p > 0)の関係があることを意味し、
(1, 2), (2, 4) から p = 2, q = 0 なので y = 2x
x = 3 のとき a = 6
【解答】a = 6
【実戦問題6】国公立二次型:条件付き統計量
【問題】
10個の正の整数からなるデータがある。このデータについて以下のことがわかっている。
- 平均値は7
- 中央値は6
- 最頻値は5(5は3回出現)
- 最大値は15
このデータとして考えられるものを1つ挙げ、その分散を求めよ。
【解説】
Step 1:条件の整理
- 10個のデータの合計 = 7 × 10 = 70
- 5番目と6番目の平均が6(中央値の条件)
- 5が3回出現(最頻値の条件)
- 最大値が15
Step 2:データを構成する
中央値が6なので、5番目と6番目の値の平均が6
例えば、5番目 = 5、6番目 = 7 とすると平均は6
5が3回出現するので、小さい方から5, 5, 5を含む
最大値が15
データを昇順に並べて構成:
1, 5, 5, 5, 5, 7, 8, 9, 10, 15
合計を確認:1 + 5 + 5 + 5 + 5 + 7 + 8 + 9 + 10 + 15 = 70 ✓
中央値:(5 + 7)/2 = 6 ✓
最頻値:5(4回出現...これは条件違反)
修正して:1, 4, 5, 5, 5, 7, 8, 10, 10, 15
合計:1 + 4 + 5 + 5 + 5 + 7 + 8 + 10 + 10 + 15 = 70 ✓
中央値:(5 + 7)/2 = 6 ✓
最頻値:5(3回)✓ ※10も2回出現するが5が最多
Step 3:分散を計算
平均 = 7
x²の値:1, 16, 25, 25, 25, 49, 64, 100, 100, 225
x²の合計 = 630
x²の平均 = 63
分散 = 63 − 49 = 14
【解答】
データの例:1, 4, 5, 5, 5, 7, 8, 10, 10, 15
分散 = 14
【実戦問題7】共通テスト型:ヒストグラムと箱ひげ図の対応
【問題】
40人の生徒のテスト結果について、次のヒストグラムが得られた。このデータの箱ひげ図として適切なものを選べ。
度数 12| ■■■■ 10| ■■■■■■■■ 8| ■■■■ 6| 4| ■■■■ 2|■■ 0+--+--+--+--+--+-- 20 30 40 50 60 70 80 (点) 階級:20-30(2人), 30-40(8人), 40-50(10人), 50-60(12人), 60-70(4人), 70-80(4人)
【解説】
Step 1:累積度数を計算
| 階級 | 度数 | 累積度数 |
|---|---|---|
| 20-30 | 2 | 2 |
| 30-40 | 8 | 10 |
| 40-50 | 10 | 20 |
| 50-60 | 12 | 32 |
| 60-70 | 4 | 36 |
| 70-80 | 4 | 40 |
Step 2:四分位数の位置を特定
- Q₁の位置:40 × 0.25 = 10番目 → 累積10は30-40階級の最後 → Q₁は約40点
- Q₂の位置:20番目と21番目の平均 → 累積20は40-50階級の最後、21番目は50-60階級 → Q₂は約50点
- Q₃の位置:40 × 0.75 = 30番目 → 累積32に含まれる50-60階級 → Q₃は約55-58点
Step 3:箱ひげ図の概形
20 30 40 50 60 70 80
|----|----|----|----|----|----|
|------[===|====]--------|
最小 Q₁ Q₂ Q₃ 最大
(20) (40)(50) (58) (80)
【解答】
最小値:約20点、Q₁:約40点、中央値:約50点、Q₃:約58点、最大値:約80点
箱は40〜58の範囲で、中央値50が箱の左寄りにあり、右のひげが長い形状
【実戦問題8】共通テスト型:散布図からの相関係数の推定
【問題】
次の4つの散布図A〜Dについて、相関係数を大きい順に並べよ。
【A】 【B】 【C】 【D】 y y y y | ●● |● | ● ● ● | ● | ●● | ● | ● ● ● | ● | ●● | ● |● ● ● | ● | ●● | ● | ● ● ● | ● |●● | ● | ● ● | ● +------x +------x +------x +------x (右上がり直線) (右下がり直線) (ばらばら) (右上がり直線)
【解説】
各散布図の特徴を分析します:
【A】点がほぼ直線上に並び、右上がり → 強い正の相関 → r ≒ +0.95
【B】点がほぼ直線上に並び、右下がり → 強い負の相関 → r ≒ −0.95
【C】点がばらばらに散らばっている → 相関なし → r ≒ 0
【D】右上がりの傾向はあるがばらつきがある → 中程度の正の相関 → r ≒ +0.7
相関係数を大きい順(値として大きい順)に並べると:
A (+0.95) > D (+0.7) > C (0) > B (−0.95)
【解答】A > D > C > B
【実戦問題9】国公立二次型:データ分析の総合問題
【問題】
2つの変量xとyについて、n個のデータ(x₁, y₁), (x₂, y₂), ..., (xₙ, yₙ)がある。xの平均値をx̄、分散をsx²、yの平均値をȳ、分散をsy²、xとyの共分散をsxyとする。
新しい変量 u = x − y を定義するとき、以下を証明せよ。
(1) uの平均値 ū = x̄ − ȳ
(2) uの分散 su² = sx² + sy² − 2sxy
【解説】
(1) uの平均値の証明
ū = (1/n)Σuᵢ
= (1/n)Σ(xᵢ − yᵢ)
= (1/n)Σxᵢ − (1/n)Σyᵢ
= x̄ − ȳ ■
(2) uの分散の証明
su² = (1/n)Σ(uᵢ − ū)²
= (1/n)Σ((xᵢ − yᵢ) − (x̄ − ȳ))²
= (1/n)Σ((xᵢ − x̄) − (yᵢ − ȳ))²
ここで、aᵢ = xᵢ − x̄、bᵢ = yᵢ − ȳ とおくと:
su² = (1/n)Σ(aᵢ − bᵢ)²
= (1/n)Σ(aᵢ² − 2aᵢbᵢ + bᵢ²)
= (1/n)Σaᵢ² − 2(1/n)Σaᵢbᵢ + (1/n)Σbᵢ²
= sx² − 2sxy + sy²
= sx² + sy² − 2sxy ■
【解答】
(1)、(2) ともに上記の通り証明された。
【補足】この結果と実戦問題1の結果を合わせると:
- z = x + y のとき:sz² = sx² + sy² + 2sxy
- u = x − y のとき:su² = sx² + sy² − 2sxy
これらは非常に重要な公式です。
【実戦問題10】共通テスト型:総合問題(データの読み取りと計算)
【問題】
ある学校で、生徒10人に対して数学(x)と理科(y)のテストを行った。結果は以下の通りである。
| 生徒 | A | B | C | D | E | F | G | H | I | J |
|---|---|---|---|---|---|---|---|---|---|---|
| x(点) | 55 | 70 | 45 | 80 | 60 | 65 | 50 | 75 | 40 | 60 |
| y(点) | 50 | 75 | 40 | 85 | 55 | 60 | 45 | 80 | 35 | 65 |
(1) 数学(x)の平均値と標準偏差を求めよ。
(2) 理科(y)の平均値と標準偏差を求めよ。
(3) 数学と理科の共分散を求めよ。
(4) 数学と理科の相関係数を求めよ。
(5) この結果から、数学と理科の得点の関係についてどのようなことがいえるか。
【解説】
(1) 数学(x)の統計量
x: 55, 70, 45, 80, 60, 65, 50, 75, 40, 60
Σx = 55 + 70 + 45 + 80 + 60 + 65 + 50 + 75 + 40 + 60 = 600
x̄ = 600 / 10 = 60
x²: 3025, 4900, 2025, 6400, 3600, 4225, 2500, 5625, 1600, 3600
Σx² = 37500
x²の平均 = 3750
sx² = 3750 − 60² = 3750 − 3600 = 150
sx = √150 = 5√6 ≒ 12.25
(2) 理科(y)の統計量
y: 50, 75, 40, 85, 55, 60, 45, 80, 35, 65
Σy = 50 + 75 + 40 + 85 + 55 + 60 + 45 + 80 + 35 + 65 = 590
ȳ = 590 / 10 = 59
y²: 2500, 5625, 1600, 7225, 3025, 3600, 2025, 6400, 1225, 4225
Σy² = 37450
y²の平均 = 3745
sy² = 3745 − 59² = 3745 − 3481 = 264
sy = √264 = 2√66 ≒ 16.25
(3) 共分散
xy: 2750, 5250, 1800, 6800, 3300, 3900, 2250, 6000, 1400, 3900
Σxy = 37350
xyの平均 = 3735
sxy = 3735 − 60 × 59 = 3735 − 3540 = 195
(4) 相関係数
r = sxy / (sx × sy)
r = 195 / (√150 × √264)
r = 195 / √39600
r = 195 / (60√11)
r = 13 / (4√11)
r = 13√11 / 44
r ≒ 0.98
(5) 考察
相関係数 r ≒ 0.98 は1に非常に近く、数学と理科の得点には非常に強い正の相関がある。つまり、数学の得点が高い生徒は理科の得点も高い傾向があり、逆に数学の得点が低い生徒は理科の得点も低い傾向がある。
【解答】
(1) 平均値 60点、標準偏差 5√6 ≒ 12.25点
(2) 平均値 59点、標準偏差 2√66 ≒ 16.25点
(3) 共分散 195
(4) 相関係数 r ≒ 0.98
(5) 数学と理科の得点には非常に強い正の相関があり、一方の得点が高ければ他方の得点も高い傾向がある。
よくある間違いと対処法
【間違い1】平均値と中央値の混同
❌ よくある間違い
「データ 1, 2, 3,
【間違い1】平均値と中央値の混同
❌ よくある間違い
「データ 1, 2, 3, 4, 100 の代表値は?」という問題で、平均値22を代表値として選んでしまう。
✅ 正しい考え方
このデータには外れ値(100)が含まれているため:
- 平均値 = (1+2+3+4+100)/5 = 22 → 外れ値の影響で大きくなりすぎ
- 中央値 = 3 → 外れ値の影響を受けにくい
外れ値がある場合は、中央値の方がデータの中心を適切に表すことが多い。
【間違い2】分散の計算で平均を引き忘れる
❌ よくある間違い
分散を求める際に「x²の平均」だけを計算して終わってしまう。
データ: 2, 4, 6 x²の平均 = (4+16+36)/3 = 56/3 分散 = 56/3 ← 間違い!
✅ 正しい計算
平均値 x̄ = (2+4+6)/3 = 4
x²の平均 = (4+16+36)/3 = 56/3
分散 = (x²の平均) − (平均)²
= 56/3 − 16
= 56/3 − 48/3
= 8/3
公式:分散 = (x²の平均) − (平均の2乗)を必ず使う!
【間違い3】標準偏差と分散の取り違え
❌ よくある間違い
「標準偏差を求めよ」という問題で分散の値をそのまま答える。
分散 = 16 と計算できた 標準偏差 = 16 ← 間違い!
✅ 正しい計算
分散 = 16 標準偏差 = √(分散) = √16 = 4
覚え方:標準偏差は分散のルート(平方根)!
【間違い4】相関係数の符号の判断ミス
❌ よくある間違い
散布図が右下がりなのに「正の相関がある」と判断する。
✅ 正しい判断方法
- 右上がり(xが増えるとyも増える)→ 正の相関(r > 0)
- 右下がり(xが増えるとyは減る)→ 負の相関(r < 0)
覚え方:「右上がり」は「プラス」、「右下がり」は「マイナス」
【間違い5】データ変換での分散の計算ミス
❌ よくある間違い
y = 2x + 3 の変換で、分散も2倍+3と計算してしまう。
xの分散 = 4 yの分散 = 2 × 4 + 3 = 11 ← 間違い!
✅ 正しい計算
y = ax + b のとき ・平均:ȳ = ax̄ + b (aもbも影響する) ・分散:sy² = a²sx² (aの2乗のみ、bは影響しない!) xの分散 = 4 yの分散 = 2² × 4 = 16
理由:分散は「散らばり」を表すため、全データに同じ値を加えても散らばりは変わらない。
【間違い6】四分位数の求め方の混乱
❌ よくある間違い
データを並べ替えずに四分位数を求めようとする。
または、データ数が偶数のときと奇数のときで処理方法を間違える。
✅ 正しい手順
- 必ず昇順に並べ替える
- 中央値(Q₂)を求める
- 中央値より下のデータの中央値 → Q₁
- 中央値より上のデータの中央値 → Q₃
【8個のデータの例】 3, 5, 7, 8, 10, 12, 15, 20
全体:3, 5, 7, 8, 10, 12, 15, 20
↑中央↑
Q₂ = (8+10)/2 = 9
下位半分:3, 5, 7, 8 → Q₁ = (5+7)/2 = 6
上位半分:10, 12, 15, 20 → Q₃ = (12+15)/2 = 13.5
【間違い7】2グループの合併で単純平均をとる
❌ よくある間違い
A組(20人、平均60点)とB組(30人、平均70点)の全体平均を
(60 + 70) ÷ 2 = 65点 と計算する。
✅ 正しい計算(加重平均)
A組の合計 = 60 × 20 = 1200 B組の合計 = 70 × 30 = 2100 全体の合計 = 1200 + 2100 = 3300 全体の人数 = 20 + 30 = 50 全体の平均 = 3300 ÷ 50 = 66点
ポイント:人数が異なるグループの平均は、加重平均(合計÷総人数)で求める!
【間違い8】相関と因果の混同
❌ よくある間違い
「アイスクリームの売上と水難事故の件数に正の相関がある」
→「アイスクリームを食べると水難事故が起きる」と結論づける。
✅ 正しい理解
相関関係 ≠ 因果関係
この例では、両方とも「気温が高い」という第3の要因(交絡因子)によって影響を受けている。
- 気温上昇 → アイスクリームの売上増加
- 気温上昇 → 水遊びする人が増加 → 水難事故増加
相関係数はあくまで「関連の強さ」を示すだけで、因果関係を証明するものではない。
【間違い9】箱ひげ図から平均値を読み取ろうとする
❌ よくある間違い
箱ひげ図から「平均値」を読み取ろうとする。
✅ 正しい理解
箱ひげ図から読み取れるのは:
- 最小値
- 第1四分位数(Q₁)
- 中央値(Q₂)← 平均値ではない!
- 第3四分位数(Q₃)
- 最大値
- 四分位範囲(Q₃ − Q₁)
- 範囲(最大値 − 最小値)
平均値は箱ひげ図からは読み取れない!
【間違い10】度数分布表での分散計算で階級値を使い忘れる
❌ よくある間違い
度数分布表から分散を求める際、階級の境界値をそのまま使ってしまう。
✅ 正しい手順
度数分布表では、各階級を階級値(階級の中央の値)で代表させる。
階級「10以上20未満」→ 階級値 = (10+20)/2 = 15 階級「20以上30未満」→ 階級値 = (20+30)/2 = 25
この階級値と度数を使って平均・分散を計算する。
この単元の大学入試での頻出パターン一覧
【パターン1】基本統計量の計算
出題頻度:★★★★★
内容:与えられたデータから平均値・分散・標準偏差を計算する
対策:
- 展開形の公式(分散 = x²の平均 − 平均²)を確実に使えるようにする
- 計算ミスを防ぐため、表を作って整理する習慣をつける
【パターン2】データの変換(一次変換)
出題頻度:★★★★★
内容:y = ax + b の変換後の平均・分散・標準偏差を求める
対策:
- 平均は y̅ = ax̅ + b
- 分散は sy² = a²sx²(bは影響しない)
- 標準偏差は sy = |a|sx
【パターン3】共分散・相関係数の計算
出題頻度:★★★★★
内容:2変量データから共分散・相関係数を計算し、相関の強さを判断する
対策:
- 共分散 = xyの平均 − x̅ȳ
- 相関係数 r = sxy / (sx × sy)
- |r|が1に近いほど強い相関
【パターン4】箱ひげ図の読み取り・作成
出題頻度:★★★★☆
内容:箱ひげ図から統計量を読み取る、または複数の箱ひげ図を比較する
対策:
- 五数要約(最小値、Q₁、Q₂、Q₃、最大値)を正確に読み取る
- 箱ひげ図から「平均値」は読み取れないことを覚えておく
- 四分位範囲の大小でデータの散らばりを比較できる
【パターン5】ヒストグラム・度数分布表との対応
出題頻度:★★★★☆
内容:ヒストグラムから箱ひげ図を選ぶ、度数分布表から統計量を計算する
対策:
- 累積度数を使って四分位数の位置を特定する
- 度数分布表では階級値を使って計算する
【パターン6】散布図からの相関の判断
出題頻度:★★★★☆
内容:散布図を見て相関係数の符号や大きさを判断する
対策:
- 点が直線状に並んでいるほど|r|は1に近い
- 右上がりなら正、右下がりなら負
- ばらばらに散らばっていればr≒0
【パターン7】データの追加・削除による変化
出題頻度:★★★☆☆
内容:データを追加または削除したときの平均・分散の変化を求める
対策:
- 「合計」と「個数」から逆算する
- x²の合計も管理しておくと分散の計算がスムーズ
【パターン8】2グループの合併
出題頻度:★★★☆☆
内容:2つのグループを合わせた全体の平均・分散を求める
対策:
- 全体の平均 = (合計の和) ÷ (人数の和)【加重平均】
- 全体の分散は公式を使う:各グループの(分散+平均²)を利用
【パターン9】x + y や x − y の分散
出題頻度:★★★☆☆
内容:2変量の和や差の分散を共分散を使って求める
対策:
- z = x + y のとき:sz² = sx² + sy² + 2sxy
- u = x − y のとき:su² = sx² + sy² − 2sxy
【パターン10】外れ値の影響
出題頻度:★★☆☆☆
内容:外れ値が統計量に与える影響を考察する
対策:
- 平均値・分散は外れ値の影響を受けやすい
- 中央値・四分位数は外れ値の影響を受けにくい
【パターン11】相関係数の変換での不変性
出題頻度:★★☆☆☆
内容:データを一次変換したときの相関係数の変化を求める
対策:
- 正の定数倍、定数の加減は相関係数に影響しない
- 負の定数倍は相関係数の符号を反転させる
【パターン12】条件から未知の値を求める
出題頻度:★★★☆☆
内容:平均や分散の条件から、データの未知の値を求める
対策:
- 平均の条件 → 1次方程式
- 分散の条件 → 2次方程式(解の吟味を忘れずに)
データの分析 重要公式まとめ
【1変量データの統計量】
| 統計量 | 公式 |
|---|---|
| 平均値 | x̄ = (Σxᵢ) / n |
| 分散 | s² = (Σ(xᵢ − x̄)²) / n = (Σxᵢ²)/n − x̄² |
| 標準偏差 | s = √(分散) |
【2変量データの統計量】
| 統計量 | 公式 |
|---|---|
| 共分散 | sxy = (Σ(xᵢ − x̄)(yᵢ − ȳ)) / n = (Σxᵢyᵢ)/n − x̄ȳ |
| 相関係数 | r = sxy / (sx × sy) (−1 ≤ r ≤ 1) |
【データの変換 y = ax + b】
| 統計量 | 変換後 |
|---|---|
| 平均値 | ȳ = ax̄ + b |
| 分散 | sy² = a²sx² |
| 標準偏差 | sy = |a|sx |
【和・差の分散】
| 変量 | 分散 |
|---|---|
| z = x + y | sz² = sx² + sy² + 2sxy |
| u = x − y | su² = sx² + sy² − 2sxy |
日本数学塾・数強塾でさらに実力を伸ばそう
🎯 データの分析を完全攻略したいあなたへ
この記事を読んで、「データの分析」の基礎から入試レベルまでの問題に触れていただきました。しかし、実際の試験で確実に得点するためには、自分の弱点を把握し、それを克服するための個別指導が効果的です。
📚 日本数学塾・数強塾の特徴
- プロ講師によるマンツーマン指導:あなたの理解度に合わせた完全個別カリキュラム
- オンライン対応:全国どこからでも受講可能
- 数学専門:数学に特化した指導で効率的に成績アップ
- 共通テスト対策から難関大対策まで:志望校に合わせた指導
✨ 無料体験授業のご案内
「データの分析」をはじめ、数学の苦手を克服したい方、さらに実力を伸ばしたい方は、ぜひ無料体験授業をご利用ください。
▼ 詳しくはこちら ▼
<a href="https://sukyojuku.com" style="display: inline-block; background-color: #d32f2f; color:
📞 お問い合わせ
「どのコースが自分に合っているかわからない」「まずは相談だけしたい」という方も大歓迎です。お気軽にお問い合わせください。
🌟 こんな方におすすめ
- データの分析の計算でいつもミスをしてしまう
- 共分散や相関係数の意味がいまいちピンとこない
- 共通テストのデータ分析問題で時間がかかりすぎる
- 箱ひげ図やヒストグラムの読み取りが苦手
- 数学全般の成績を上げたい
- 志望校合格に向けて本気で取り組みたい
一緒に数学の力を伸ばしていきましょう!
日本数学塾・数強塾でお待ちしています。
まとめ:データの分析攻略のポイント
最後に、「データの分析」を攻略するための重要ポイントをまとめます。
【基礎固めのポイント】
- 定義を正確に理解する
- 平均値、中央値、最頻値の違い
- 分散と標準偏差の関係
- 共分散と相関係数の意味
- 計算公式を使いこなす
- 分散 = (x²の平均) − (平均)² ←展開形が便利!
- 共分散 = (xyの平均) − (x̄)(ȳ)
- 相関係数 = 共分散 ÷ (標準偏差の積)
- データ変換のルールを覚える
- y = ax + b のとき、分散はa²倍(bは無関係)
- 相関係数は正の定数倍・平行移動で不変
【実戦でのポイント】
- 計算は表にまとめる
- x, x², y, y², xy の列を作ると整理しやすい
- 合計を出してから平均を計算する
- グラフの読み取りは慎重に
- 箱ひげ図から読める情報・読めない情報を区別
- 散布図の傾向を正確に把握
- 問題文の条件を見落とさない
- 「分散」なのか「標準偏差」なのか
- データの個数に注意
【よく出る問題パターン】
- ✅ 基本統計量(平均・分散・標準偏差)の計算
- ✅ データ変換後の統計量を求める
- ✅ 共分散・相関係数の計算と解釈
- ✅ 箱ひげ図・ヒストグラムの読み取りと対応
- ✅ 散布図から相関を判断
- ✅ 2グループ合併後の統計量
- ✅ 条件から未知の値を求める
📝 学習のロードマップ
| 段階 | 学習内容 | 目標 |
|---|---|---|
| Step 1 基礎 |
・定義と公式の理解 ・基本的な計算練習 ・グラフの読み取り |
基礎問題1〜10が すべて解けるようになる |
| Step 2 標準 |
・度数分布表からの計算 ・データ変換の応用 ・2グループの合併 |
標準問題1〜10が すべて解けるようになる |
| Step 3 発展 |
・共通テスト形式の演習 ・総合問題への挑戦 ・時間を意識した演習 |
実戦問題1〜10が すべて解けるようになる |
| Step 4 完成 |
・過去問演習 ・弱点の克服 ・本番を想定した演習 |
入試本番で 満点を取れる実力 |
💡 最後に ー 藤原進之介からのメッセージ
「データの分析」は、他の数学分野と比べて計算量が多く、ケアレスミスが起こりやすい単元です。しかし、裏を返せば正確に計算できれば確実に得点できるということでもあります。
共通テストでは、単純な計算問題だけでなく、データを読み取り、その意味を解釈する力も問われます。公式を覚えるだけでなく、「なぜこの統計量を使うのか」「この結果から何がわかるのか」を常に考えながら学習を進めてください。
この記事で紹介した30問の例題を繰り返し解き、解法パターンを身につければ、必ず「データの分析」を得点源にすることができます。
皆さんの数学力向上を心から応援しています!
日本数学塾・数強塾 藤原進之介
関連記事
数学Ⅰ・Aの他の単元も合わせて学習すると、より効果的です。
- 📘 【数と式】展開・因数分解の完全攻略
- 📗 【2次関数】グラフと最大・最小問題のコツ
- 📙 【図形と計量】三角比・正弦定理・余弦定理
- 📕 【場合の数と確率】数え上げの極意
- 📓 【整数の性質】約数・倍数・合同式の完全理解
© 日本数学塾・数強塾 All Rights Reserved.
https://nihonsuugakujuku.com | https://sukyojuku.com
```
---
以上で「【データの分析】数学の勉強法・つまずきポイントと対策|日本数学塾」の記事を完成いたしました。
この記事は以下の構成で約14,000字となっております:
1. **はじめに** - 単元の重要性と記事の概要
2. **基本概念の確認** - 全ての重要な定義・公式を図解付きで解説
3. **基礎問題10問** - 平均、中央値、四分位数、分散、標準偏差、共分散、相関係数、データ変換、箱ひげ図
4. **標準問題10問** - 度数分布表、仮平均、データ追加削除、2グループ合併、相関係数の性質、散布図、外れ値
5. **入試レベル実戦問題10問** - 共通テスト型・私大型・国公立二次型の総合問題
6. **よくある間違いと対処法** - 10個の典型的なミスと対策
7. **頻出パターン一覧** - 入試で出題される12のパターン
8. **重要公式まとめ** - 1変量・2変量・データ変換の公式一覧
9. **日本数学塾・数強塾の案内** - 無料体験へのリンク付き
