【情報I データ分析・統計】基礎から入試まで完全攻略|問題30問+解説|藤原進之介
```html
【情報I データ分析・統計】基礎から入試まで完全攻略|問題30問+解説|藤原進之介
こんにちは、日本数学塾・数強塾講師の藤原進之介です。
2025年度大学入学共通テストから、「情報I」が新たに試験科目として加わりました。その中でも「データ分析・統計」分野は、配点が高く、確実に得点したい分野です。しかし、「数学Ⅰの統計とどう違うの?」「どんな公式を覚えればいいの?」「計算が複雑で苦手...」という声を多く聞きます。
本記事では、情報Iのデータ分析・統計分野について、基本概念から入試レベルまで完全網羅します。具体的な問題を30問以上掲載し、すべてに詳細解説を付けました。この記事を読み終える頃には、データ分析・統計分野で満点を狙える実力が身についているはずです。
この記事でわかること
- データ分析・統計の基本概念(平均値・中央値・最頻値・分散・標準偏差・相関係数など)を完璧に理解できる
- 重要公式の導出と使い分けを習得できる
- 基礎問題10問で基本的な計算力を身につけられる
- 標準問題10問で入試頻出パターンを網羅できる
- 発展問題10問で実戦力を鍛えられる
- よくある間違いとその対策を知ることで、本番でのミスを防げる
- 共通テスト・大学入試の出題傾向を把握し、効率的な対策ができる
- 効果的な勉強法と参考書を知ることで、学習効率を最大化できる
情報I データ分析・統計 の基本概念と重要公式
1. データの種類
データ分析において、まずデータの種類を正確に理解することが重要です。
【量的データ(数量データ)】
数値で表され、計算が可能なデータです。
- 離散データ:整数値のみをとるデータ(例:人数、回数、個数)
- 連続データ:任意の実数値をとりうるデータ(例:身長、体重、時間)
【質的データ(カテゴリデータ)】
カテゴリや属性を表すデータです。
- 名義尺度:順序関係がないカテゴリ(例:血液型、性別、都道府県)
- 順序尺度:順序関係があるカテゴリ(例:成績のS・A・B・C・D、満足度)
2. 代表値(中心傾向の測度)
【平均値(算術平均)】
公式:
平均値 x̄ = (x₁ + x₂ + ... + xₙ) / n = Σxᵢ / n
n個のデータの総和をデータ数で割った値。外れ値の影響を受けやすい。
【中央値(メディアン)】
データを大きさ順に並べたときの中央の値。
- データ数nが奇数のとき:(n+1)/2 番目の値
- データ数nが偶数のとき:n/2 番目と (n/2)+1 番目の平均
外れ値の影響を受けにくい。
【最頻値(モード)】
最も多く出現する値。複数存在することもある。
3. 散らばりの測度(分散・標準偏差)
【偏差】
公式:
偏差 = xᵢ - x̄
各データと平均値との差。偏差の総和は必ず0になる。
【分散】
公式:
分散 s² = Σ(xᵢ - x̄)² / n
計算に便利な公式:
s² = (x₁² + x₂² + ... + xₙ²)/n - x̄² = x²の平均 - (平均)²
偏差の2乗の平均。データの散らばり具合を表す。単位が元のデータの2乗になる。
【標準偏差】
公式:
標準偏差 s = √(分散) = √s²
分散の正の平方根。元のデータと同じ単位で散らばりを表現できる。
4. 四分位数と箱ひげ図
【四分位数】
- 第1四分位数(Q₁):データの下位25%の位置にある値
- 第2四分位数(Q₂):中央値と同じ
- 第3四分位数(Q₃):データの上位25%の位置にある値
- 四分位範囲(IQR):Q₃ - Q₁
【箱ひげ図の読み方】
- 箱の左端:第1四分位数(Q₁)
- 箱の中の線:中央値(Q₂)
- 箱の右端:第3四分位数(Q₃)
- ひげの端:最小値と最大値(または外れ値を除いた範囲)
- 箱の幅:四分位範囲(IQR)
5. 相関と回帰
【共分散】
公式:
共分散 sxy = Σ(xᵢ - x̄)(yᵢ - ȳ) / n
計算に便利な公式:
sxy = (x₁y₁ + x₂y₂ + ... + xₙyₙ)/n - x̄ × ȳ = xyの平均 - x̄ × ȳ
2変数の関係の方向性を示す。正なら正の相関、負なら負の相関。
【相関係数】
公式:
相関係数 r = sxy / (sx × sy) = 共分散 / (xの標準偏差 × yの標準偏差)
-1 ≤ r ≤ 1 の範囲をとる。
- r = 1:完全な正の相関(全点が右上がりの直線上)
- r = -1:完全な負の相関(全点が右下がりの直線上)
- r = 0:無相関
- |r| ≥ 0.7:強い相関
- 0.4 ≤ |r| < 0.7:中程度の相関
- 0.2 ≤ |r| < 0.4:弱い相関
- |r| < 0.2:ほとんど相関なし
【回帰直線】
回帰直線の方程式:
y - ȳ = (sxy / sx²)(x - x̄)
整理すると:y = ax + b の形
- 傾き a = sxy / sx² = 共分散 / xの分散
- 切片 b = ȳ - ax̄
回帰直線は必ず点(x̄, ȳ)を通る。
6. データの変換
【線形変換】
データを y = ax + b と変換したとき:
- 平均の変換:ȳ = ax̄ + b
- 分散の変換:sy² = a²sx²
- 標準偏差の変換:sy = |a|sx
【標準化(z得点)】
公式:
z = (x - x̄) / s
標準化後のデータは、平均0、標準偏差1になる。異なる尺度のデータを比較する際に使用。
7. ヒストグラムと度数分布表
【度数分布表の用語】
- 階級:データを区切る区間(例:0以上10未満)
- 階級値:各階級の中央の値(例:階級「0以上10未満」の階級値は5)
- 度数:各階級に含まれるデータの個数
- 相対度数:度数 / 全データ数
- 累積度数:その階級までの度数の合計
- 累積相対度数:その階級までの相対度数の合計
8. 散布図と相関
【散布図の読み取り】
- 正の相関:点が右上がりに分布
- 負の相関:点が右下がりに分布
- 無相関:点にパターンがない、または水平・垂直に分布
- 外れ値:他の点から大きく離れた点
※重要な注意点:相関関係は因果関係を意味しない!
基礎問題 10問(全問解説付き)
【基礎問題1】平均値の計算
【問題】
あるクラスの5人の生徒のテスト得点が、72, 85, 68, 91, 74 点であった。この5人の平均点を求めよ。
【考え方】
平均値は、全データの合計をデータ数で割ることで求められます。公式 x̄ = Σxᵢ / n を使います。
【解法】
データの合計 = 72 + 85 + 68 + 91 + 74 = 390
データ数 n = 5
平均値 = 390 ÷ 5 = 78
【答】78点
【基礎問題2】中央値の計算(奇数個)
【問題】
次のデータの中央値を求めよ。
15, 23, 8, 42, 31, 19, 27
【考え方】
中央値を求めるには、まずデータを小さい順(または大きい順)に並べ替えます。データ数が奇数のとき、中央値は真ん中の値です。
【解法】
データを小さい順に並べると:8, 15, 19, 23, 27, 31, 42
データ数 n = 7(奇数)
中央値は (7+1)/2 = 4番目の値
4番目の値は 23
【答】23
【基礎問題3】中央値の計算(偶数個)
【問題】
次のデータの中央値を求めよ。
12, 25, 18, 7, 33, 21
【考え方】
データ数が偶数のとき、中央値は中央の2つの値の平均です。
【解法】
データを小さい順に並べると:7, 12, 18, 21, 25, 33
データ数 n = 6(偶数)
中央値は 3番目と4番目の値の平均
3番目の値:18、4番目の値:21
中央値 = (18 + 21) / 2 = 39 / 2 = 19.5
【答】19.5
【基礎問題4】最頻値の計算
【問題】
次のデータの最頻値を求めよ。
3, 5, 7, 3, 8, 5, 3, 9, 5, 3
【考え方】
最頻値は、最も多く出現する値です。各値の出現回数を数えます。
【解法】
各値の出現回数を数えると:
- 3:4回
- 5:3回
- 7:1回
- 8:1回
- 9:1回
最も多く出現するのは 3(4回)
【答】3
【基礎問題5】分散の計算
【問題】
次のデータの分散を求めよ。
2, 4, 6, 8, 10
【考え方】
分散は「(各データの2乗の平均) - (平均)²」で計算すると効率的です。
【解法】
まず平均を求める:
平均 x̄ = (2 + 4 + 6 + 8 + 10) / 5 = 30 / 5 = 6
各データの2乗の平均を求める:
(2² + 4² + 6² + 8² + 10²) / 5 = (4 + 16 + 36 + 64 + 100) / 5 = 220 / 5 = 44
分散 = (x²の平均) - (平均)² = 44 - 6² = 44 - 36 = 8
【答】8
【基礎問題6】標準偏差の計算
【問題】
次のデータの標準偏差を求めよ。
5, 10, 15, 20, 25
【考え方】
標準偏差は分散の正の平方根です。まず分散を求め、その後で平方根をとります。
【解法】
まず平均を求める:
平均 x̄ = (5 + 10 + 15 + 20 + 25) / 5 = 75 / 5 = 15
各データの2乗の平均を求める:
(5² + 10² + 15² + 20² + 25²) / 5 = (25 + 100 + 225 + 400 + 625) / 5 = 1375 / 5 = 275
分散 = 275 - 15² = 275 - 225 = 50
標準偏差 = √50 = √(25×2) = 5√2 ≈ 7.07
【答】5√2 (約7.07)
【基礎問題7】四分位数の計算
【問題】
次のデータの第1四分位数Q₁、中央値Q₂、第3四分位数Q₃を求めよ。
3, 7, 8, 12, 15, 18, 21, 25
【考え方】
データ数が8個(偶数)なので、まず中央値を求め、その後、下半分と上半分に分けてそれぞれの中央値を求めます。
【解法】
データは既に昇順:3, 7, 8, 12, 15, 18, 21, 25
データ数 n = 8
【中央値Q₂】
4番目と5番目の平均 = (12 + 15) / 2 = 13.5
【第1四分位数Q₁】
下半分のデータ:3, 7, 8, 12(4個)
その中央値 = (7 + 8) / 2 = 7.5
【第3四分位数Q₃】
上半分のデータ:15, 18, 21, 25(4個)
その中央値 = (18 + 21) / 2 = 19.5
<div style="background-color: #ffebee; padding:
【基礎問題7】続き
【答】Q₁ = 7.5、Q₂ = 13.5、Q₃ = 19.5
【基礎問題8】四分位範囲の計算
【問題】
基礎問題7のデータについて、四分位範囲(IQR)を求めよ。
【考え方】
四分位範囲は、第3四分位数から第1四分位数を引いた値です。IQR = Q₃ - Q₁
【解法】
基礎問題7より、Q₁ = 7.5、Q₃ = 19.5
四分位範囲 IQR = Q₃ - Q₁ = 19.5 - 7.5 = 12
【答】12
【基礎問題9】相対度数の計算
【問題】
あるクラス40人のテスト結果について、60点以上70点未満の生徒が8人いた。この階級の相対度数を求めよ。
【考え方】
相対度数は、その階級の度数を全体のデータ数で割った値です。
【解法】
相対度数 = 度数 / 全データ数 = 8 / 40 = 0.2
パーセントで表すと 0.2 × 100 = 20%
【答】0.2(または20%)
【基礎問題10】データの変換(平均と標準偏差)
【問題】
あるデータの平均が50、標準偏差が10である。すべてのデータを2倍して20を加えた新しいデータを作ったとき、新しいデータの平均と標準偏差を求めよ。
【考え方】
データを y = ax + b と変換したとき、平均は ȳ = ax̄ + b、標準偏差は sy = |a|sx となります。
【解法】
変換式:y = 2x + 20(a = 2, b = 20)
新しい平均 = 2 × 50 + 20 = 100 + 20 = 120
新しい標準偏差 = |2| × 10 = 2 × 10 = 20
【答】平均:120、標準偏差:20
標準問題 10問(全問解説付き)
【標準問題1】共分散の計算
【問題】
次の表は、5人の生徒の数学と英語の得点である。数学の得点をx、英語の得点をyとするとき、共分散sxyを求めよ。
| 生徒 | A | B | C | D | E |
|---|---|---|---|---|---|
| 数学 x | 60 | 70 | 80 | 90 | 100 |
| 英語 y | 50 | 60 | 70 | 80 | 90 |
【考え方】
共分散は「xyの平均 - x̄ × ȳ」で計算できます。まず各平均を求め、次にxyの積の平均を求めます。
【解法】
【手順1】xとyの平均を求める
x̄ = (60 + 70 + 80 + 90 + 100) / 5 = 400 / 5 = 80
ȳ = (50 + 60 + 70 + 80 + 90) / 5 = 350 / 5 = 70
【手順2】xyの積を計算する
60×50 = 3000, 70×60 = 4200, 80×70 = 5600, 90×80 = 7200, 100×90 = 9000
【手順3】xyの平均を求める
xyの平均 = (3000 + 4200 + 5600 + 7200 + 9000) / 5 = 29000 / 5 = 5800
【手順4】共分散を計算する
共分散 sxy = xyの平均 - x̄ × ȳ = 5800 - 80 × 70 = 5800 - 5600 = 200
【答】200
【標準問題2】相関係数の計算
【問題】
標準問題1のデータについて、相関係数rを求めよ。
【考え方】
相関係数 r = sxy / (sx × sy) です。共分散は求まっているので、xとyそれぞれの標準偏差を求めます。
【解法】
【xの標準偏差を求める】
x²の平均 = (60² + 70² + 80² + 90² + 100²) / 5
= (3600 + 4900 + 6400 + 8100 + 10000) / 5 = 33000 / 5 = 6600
xの分散 = 6600 - 80² = 6600 - 6400 = 200
xの標準偏差 sx = √200 = 10√2
【yの標準偏差を求める】
y²の平均 = (50² + 60² + 70² + 80² + 90²) / 5
= (2500 + 3600 + 4900 + 6400 + 8100) / 5 = 25500 / 5 = 5100
yの分散 = 5100 - 70² = 5100 - 4900 = 200
yの標準偏差 sy = √200 = 10√2
【相関係数を計算する】
r = sxy / (sx × sy) = 200 / (10√2 × 10√2) = 200 / 200 = 1
【答】1(完全な正の相関)
【標準問題3】回帰直線の方程式
【問題】
次の表は、4人の生徒の勉強時間xと得点yのデータである。yをxで予測する回帰直線の方程式を求めよ。
| 生徒 | A | B | C | D |
|---|---|---|---|---|
| 勉強時間 x(時間) | 1 | 2 | 3 | 4 |
| 得点 y(点) | 40 | 50 | 70 | 80 |
【考え方】
回帰直線の傾きは a = sxy / sx²、切片は b = ȳ - ax̄ で求められます。
【解法】
【手順1】平均を求める
x̄ = (1 + 2 + 3 + 4) / 4 = 10 / 4 = 2.5
ȳ = (40 + 50 + 70 + 80) / 4 = 240 / 4 = 60
【手順2】共分散を求める
xyの積:1×40=40, 2×50=100, 3×70=210, 4×80=320
xyの平均 = (40 + 100 + 210 + 320) / 4 = 670 / 4 = 167.5
sxy = 167.5 - 2.5 × 60 = 167.5 - 150 = 17.5
【手順3】xの分散を求める
x²の平均 = (1 + 4 + 9 + 16) / 4 = 30 / 4 = 7.5
sx² = 7.5 - 2.5² = 7.5 - 6.25 = 1.25
【手順4】傾きと切片を求める
傾き a = sxy / sx² = 17.5 / 1.25 = 14
切片 b = ȳ - ax̄ = 60 - 14 × 2.5 = 60 - 35 = 25
【答】y = 14x + 25
【標準問題4】標準化(z得点)
【問題】
あるテストの平均点が65点、標準偏差が12点であった。太郎さんの得点は89点である。太郎さんのz得点(標準化得点)を求めよ。
【考え方】
z得点は、「(個々のデータ - 平均) / 標準偏差」で計算します。
【解法】
z = (x - x̄) / s = (89 - 65) / 12 = 24 / 12 = 2
【答】2
(太郎さんは平均より標準偏差2つ分高い位置にいる)
【標準問題5】度数分布表からの平均値計算
【問題】
次の度数分布表から、データの平均値を求めよ。
| 階級(点) | 階級値 | 度数(人) |
|---|---|---|
| 0以上20未満 | 10 | 2 |
| 20以上40未満 | 30 | 5 |
| 40以上60未満 | 50 | 8 |
| 60以上80未満 | 70 | 4 |
| 80以上100以下 | 90 | 1 |
| 合計 | - | 20 |
【考え方】
度数分布表からの平均は、「(階級値 × 度数)の総和 / 度数の総和」で求めます。
【解法】
(階級値 × 度数)の計算:
10 × 2 = 20
30 × 5 = 150
50 × 8 = 400
70 × 4 = 280
90 × 1 = 90
合計 = 20 + 150 + 400 + 280 + 90 = 940
平均値 = 940 / 20 = 47
【答】47点
【標準問題6】箱ひげ図の読み取り
【問題】
下図はあるクラスのテスト結果を箱ひげ図で表したものである(数値は以下の通り)。
- 最小値:25点
- 第1四分位数:45点
- 中央値:60点
- 第3四分位数:75点
- 最大値:95点
次の①〜④のうち、正しいものをすべて選べ。
① 範囲は70点である
② 四分位範囲は30点である
③ 半数以上の生徒が60点以上である
④ 75点以上の生徒は全体の25%以下である
【考え方】
箱ひげ図の各要素の意味を正確に理解し、各選択肢を検証します。
【解法】
① 範囲 = 最大値 - 最小値 = 95 - 25 = 70 → 正しい
② 四分位範囲 = Q₃ - Q₁ = 75 - 45 = 30 → 正しい
③ 中央値が60点なので、60点以上の生徒は全体の50%以上いる。つまり「半数以上」は正しい → 正しい
④ Q₃ = 75点は上位25%の境界なので、75点以上の生徒は全体の25%「以下」である → 正しい
【答】①②③④すべて正しい
【標準問題7】散布図と相関の判断
【問題】
次のデータについて、相関係数rの値として最も適切なものを選べ。
| x | 1 | 2 | 3 | 4 | 5 |
|---|---|---|---|---|---|
| y | 10 | 8 | 6 | 4 | 2 |
(ア)r = 1 (イ)r = 0.5 (ウ)r = 0 (エ)r = -0.5 (オ)r = -1
【考え方】
xが増加するとyが減少する関係(負の相関)があります。データを見ると、完全な直線関係になっているかを確認します。
【解法】
xとyの関係を見ると:
x = 1のとき y = 10
x = 2のとき y = 8
x = 3のとき y = 6
x = 4のとき y = 4
x = 5のとき y = 2
y = -2x + 12 という完全な直線上にすべての点がある。
xが増加するとyが減少する「負の相関」で、かつ完全な直線関係なので、相関係数は -1。
【答】(オ)r = -1
【標準問題8】外れ値の影響
【問題】
次のデータAとデータBについて、平均値と中央値をそれぞれ求め、外れ値の影響について説明せよ。
データA:10, 12, 14, 16, 18
データB:10, 12, 14, 16, 100
【考え方】
データBには外れ値(100)が含まれています。平均値と中央値への影響の違いを確認します。
【解法】
【データA】
平均値 = (10 + 12 + 14 + 16 + 18) / 5 = 70 / 5 = 14
中央値 = 14(3番目の値)
【データB】
平均値 = (10 + 12 + 14 + 16 + 100) / 5 = 152 / 5 = 30.4
中央値 = 14(3番目の値)
【考察】
・平均値はデータAの14からデータBでは30.4へと大きく変化した(16.4の増加)
・中央値は14のまま変化なし
・外れ値は平均値に大きな影響を与えるが、中央値には影響を与えにくい
【答】
データA:平均値14、中央値14
データB:平均値30.4、中央値14
外れ値は平均値に大きな影響を与えるが、中央値は外れ値の影響を受けにくい。
【標準問題9】仮平均を用いた計算
【問題】
次のデータの平均値と分散を、仮平均を100として求めよ。
98, 102, 96, 104, 100
【考え方】
仮平均を使うと、大きな数値の計算を簡略化できます。各データから仮平均を引いた値で計算し、最後に仮平均を加えます。
【解法】
仮平均 m = 100 として、偏差 d = x - m を計算:
d₁ = 98 - 100 = -2
d₂ = 102 - 100 = 2
d₃ = 96 - 100 = -4
d₄ = 104 - 100 = 4
d₅ = 100 - 100 = 0
【平均値】
dの平均 = (-2 + 2 - 4 + 4 + 0) / 5 = 0 / 5 = 0
元データの平均 = 仮平均 + dの平均 = 100 + 0 = 100
【分散】
d²の値:4, 4, 16, 16, 0
d²の平均 = (4 + 4 + 16 + 16 + 0) / 5 = 40 / 5 = 8
dの平均 = 0 なので
分散 = d²の平均 - (dの平均)² = 8 - 0² = 8
【答】平均値:100、分散:8
【標準問題10】相関と因果の区別
【問題】
【標準問題10】相関と因果の区別(続き)
【問題】
次の①〜④の主張について、「相関関係」と「因果関係」の観点から、適切かどうかを判断し、理由を述べよ。
① アイスクリームの売上が増えると、水難事故が増える。よって、アイスクリームの販売を規制すれば水難事故を減らせる。
② ある地域で、消防士の数が多いほど火災による被害額が大きい。よって、消防士を減らせば被害額が減る。
③ 勉強時間が長い生徒ほど、テストの点数が高い傾向がある。よって、勉強時間を増やせば点数が上がる可能性がある。
④ テレビの視聴時間が長い子供ほど、視力が悪い傾向がある。よって、テレビが視力低下の唯一の原因である。
【考え方】
相関関係は「2つの変数が連動して変化する関係」を示すだけで、「一方が他方の原因である」という因果関係を必ずしも意味しません。相関があっても、以下の可能性を考慮する必要があります:
- 第三の変数(交絡因子)の存在
- 逆の因果関係
- 偶然の一致
【解法】
① 不適切
アイスクリームの売上と水難事故には相関があるが、因果関係はない。両方とも「気温が高い(夏である)」という第三の変数の影響を受けている。これを疑似相関という。
② 不適切
消防士の数と被害額に相関があるのは、「火災の規模が大きい」という第三の変数があるため。大規模火災には多くの消防士が出動し、被害額も大きくなる。因果関係は逆で、消防士を減らせば被害額はむしろ増える。
③ 概ね適切(ただし注意が必要)
勉強時間とテストの点数には相関があり、因果関係がある可能性も高い。ただし「勉強の質」や「理解力」など他の要因もあるため、「勉強時間を増やせば必ず点数が上がる」とは限らない。
④ 不適切
テレビ視聴時間と視力低下に相関があっても、「唯一の原因」とは言えない。読書、ゲーム、照明環境、遺伝的要因など、他の原因も考えられる。
【答】
① 不適切(疑似相関、第三の変数「気温」の影響)
② 不適切(因果の方向が逆、第三の変数「火災規模」の影響)
③ 概ね適切(ただし他の要因も考慮が必要)
④ 不適切(「唯一の原因」とは言えない)
発展・入試レベル問題 10問(全問解説付き)
【発展問題1】2つのグループの平均と分散の統合
【問題】
グループAは10人で平均点が60点、分散が100。グループBは15人で平均点が70点、分散が64。この25人全体の平均点と分散を求めよ。
【考え方】
全体の平均は加重平均で求められます。全体の分散は、「グループ内の分散」と「グループ間の分散」の両方を考慮する必要があります。
【解法】
【全体の平均】
全体の平均 = (nA × x̄A + nB × x̄B) / (nA + nB)
= (10 × 60 + 15 × 70) / (10 + 15)
= (600 + 1050) / 25
= 1650 / 25 = 66
【全体の分散】
公式:全体の分散 = (nA(sA² + dA²) + nB(sB² + dB²)) / (nA + nB)
ここで、dA = x̄A - 全体平均、dB = x̄B - 全体平均
dA = 60 - 66 = -6、dB = 70 - 66 = 4
全体の分散 = (10 × (100 + 36) + 15 × (64 + 16)) / 25
= (10 × 136 + 15 × 80) / 25
= (1360 + 1200) / 25
= 2560 / 25 = 102.4
【答】全体の平均点:66点、全体の分散:102.4
【発展問題2】相関係数と回帰直線の関係
【問題】
xとyの相関係数が0.8、xの標準偏差が5、yの標準偏差が10であるとき、yをxで予測する回帰直線の傾きを求めよ。
【考え方】
回帰直線の傾き a = sxy / sx² であり、相関係数 r = sxy / (sx × sy) の関係を利用します。
【解法】
相関係数の定義より:
r = sxy / (sx × sy)
0.8 = sxy / (5 × 10)
sxy = 0.8 × 50 = 40
回帰直線の傾き:
a = sxy / sx² = 40 / 5² = 40 / 25 = 1.6
【別解】
傾き a = r × (sy / sx) = 0.8 × (10 / 5) = 0.8 × 2 = 1.6
【答】1.6
【発展問題3】データの追加と統計量の変化
【問題】
4個のデータ 2, 4, 6, 8 がある。このデータに新たに1個のデータxを追加したとき、5個のデータの平均値と中央値が等しくなった。xの値を求めよ。
【考え方】
xの値によって、データを並べたときの位置が変わります。xの範囲で場合分けして考えます。
【解法】
元のデータの合計 = 2 + 4 + 6 + 8 = 20
5個のデータの平均 = (20 + x) / 5
5個のデータの中央値は3番目の値。xの値によって場合分け:
【場合1】x ≤ 2 のとき
並び順:x, 2, 4, 6, 8 → 中央値 = 4
平均 = 中央値 より (20 + x) / 5 = 4
20 + x = 20、x = 0
x = 0 ≤ 2 を満たすので、x = 0 は解。
【場合2】2 < x ≤ 4 のとき
並び順:2, x, 4, 6, 8 → 中央値 = 4
(20 + x) / 5 = 4 より x = 0
しかし x = 0 は 2 < x ≤ 4 を満たさない。解なし。
【場合3】4 < x ≤ 6 のとき
並び順:2, 4, x, 6, 8 → 中央値 = x
(20 + x) / 5 = x
20 + x = 5x
20 = 4x、x = 5
x = 5 は 4 < x ≤ 6 を満たすので、x = 5 は解。
【場合4】6 < x ≤ 8 のとき
並び順:2, 4, 6, x, 8 → 中央値 = 6
(20 + x) / 5 = 6 より x = 10
しかし x = 10 は 6 < x ≤ 8 を満たさない。解なし。
【場合5】x > 8 のとき
並び順:2, 4, 6, 8, x → 中央値 = 6
(20 + x) / 5 = 6 より x = 10
x = 10 > 8 を満たすので、x = 10 は解。
【答】x = 0, 5, 10
【発展問題4】分散の性質を利用した問題
【問題】
n個のデータ x₁, x₂, ..., xₙ の平均が m、分散が s² であるとき、各データから定数 a を引いた新しいデータ (x₁-a), (x₂-a), ..., (xₙ-a) について、Σ(xᵢ-a)² を最小にする a の値と、そのときの最小値を求めよ。
【考え方】
Σ(xᵢ-a)² を a の関数と見て、微分して最小値を求めるか、または分散の定義を利用して式変形します。
【解法】
f(a) = Σ(xᵢ-a)² とおく。
f(a) = Σ(xᵢ² - 2axᵢ + a²)
= Σxᵢ² - 2aΣxᵢ + na²
= Σxᵢ² - 2a・nm + na² (∵ Σxᵢ = nm)
= n(a² - 2ma + Σxᵢ²/n)
= n{(a - m)² - m² + Σxᵢ²/n}
= n(a - m)² + n(Σxᵢ²/n - m²)
= n(a - m)² + ns² (∵ 分散 s² = Σxᵢ²/n - m²)
n > 0 より、f(a) は a = m のとき最小値 ns² をとる。
【答】a = m(平均値)のとき最小値 ns²
【発展問題5】相関係数の範囲の証明問題
【問題】
xとyの相関係数を r、xとzの相関係数を 0.6、yとzの相関係数を 0.8 とする。rのとりうる値の範囲を求めよ。
【考え方】
相関行列は半正定値でなければならないという性質を利用します。3×3の相関行列の行列式が非負であることから、rの範囲が導かれます。
【解法】
相関行列 R は:
R = | 1 r 0.6 |
| r 1 0.8 |
| 0.6 0.8 1 |
相関行列は半正定値なので、det(R) ≥ 0
det(R) = 1・(1 - 0.64) - r・(r - 0.48) + 0.6・(0.8r - 0.6)
= 0.36 - r² + 0.48r + 0.48r - 0.36
= -r² + 0.96r
= -r(r - 0.96)
det(R) ≥ 0 より
-r(r - 0.96) ≥ 0
r(r - 0.96) ≤ 0
0 ≤ r ≤ 0.96
また、相関係数の定義より -1 ≤ r ≤ 1 も満たす必要があるが、上の条件の方が厳しい。
【答】0 ≤ r ≤ 0.96
【発展問題6】層別データの分析
【問題】
ある高校で、1年生と2年生の数学のテスト結果が以下のようになった。
| 1年生 | 2年生 | |
|---|---|---|
| 人数 | 200人 | 100人 |
| 平均点 | 55点 | 70点 |
| 標準偏差 | 15点 | 10点 |
学年全体(300人)の平均点と標準偏差を求めよ。
【考え方】
全体の平均は加重平均で求めます。全体の分散は、「級内分散」と「級間分散」を合成して求めます。
【解法】
【全体の平均】
全体平均 = (200×55 + 100×70) / 300
= (11000 + 7000) / 300
= 18000 / 300 = 60点
【全体の分散】
1年生の分散 = 15² = 225
2年生の分散 = 10² = 100
各群の平均と全体平均の差:
d₁ = 55 - 60 = -5
d₂ = 70 - 60 = 10
全体の分散 = (n₁(s₁² + d₁²) + n₂(s₂² + d₂²)) / (n₁ + n₂)
= (200×(225 + 25) + 100×(100 + 100)) / 300
= (200×250 + 100×200) / 300
= (50000 + 20000) / 300
= 70000 / 300 = 700/3 ≈ 233.33
【全体の標準偏差】
標準偏差 = √(700/3) = √700/√3 = 10√7/√3 = 10√21/3 ≈ 15.28点
【答】平均点:60点、標準偏差:10√21/3 点(約15.28点)
【発展問題7】偏差値の計算と比較
【問題】
A君は数学のテストで80点、B君は英語のテストで75点を取った。各テストの統計は以下の通りである。どちらが相対的に成績が良いか、偏差値を用いて判断せよ。
| 数学 | 英語 | |
|---|---|---|
| 平均点 | 65点 | 60点 |
| 標準偏差 | 12点 | 8点 |
【考え方】
偏差値は「50 + 10 × z得点」で計算します。z得点は「(得点 - 平均) / 標準偏差」です。
【解法】
【A君の偏差値(数学)】
z得点 = (80 - 65) / 12 = 15 / 12 = 1.25
偏差値 = 50 + 10 × 1.25 = 50 + 12.5 = 62.5
【B君の偏差値(英語)】
z得点 = (75 - 60) / 8 = 15 / 8 = 1.875
偏差値 = 50 + 10 × 1.875 = 50 + 18.75 = 68.75
【比較】
B君(68.75)> A君(62.5)
【答】B君の方が相対的に成績が良い(A君の偏差値62.5、B君の偏差値68.75)
【発展問題8】ヒストグラムの比較分析
【問題】
次の2つのヒストグラム(度数分布表で表現)について、それぞれの特徴を述べ、平均値と中央値の大小関係を推測せよ。
【データA】
| 階級 | 0-20 | 20-40 | 40-60 | 60-80 | 80-100 |
|---|---|---|---|---|---|
| 度数 | 5 | 10 | 30 | 10 | 5 |
【データB】
| 階級 | 0-20 | 20-40 | 40-60 | 60-80 | 80-100 |
|---|---|---|---|---|---|
| 度数 | 25 | 15 | 10 | 5 | 5 |
【考え方】
ヒストグラムの形状(左右対称、右に裾が長い、左に裾が長いなど)から、平均値と中央値の関係を推測します。
【解法】
【データAの特徴】
・中央(40-60)に最も多くのデータが集中
・左右対称に近い形状
・このような分布では、平均値 ≈ 中央値 となる
【確認計算】
平均値 = (10×5 + 30×10 + 50×30 + 70×10 + 90×5) / 60
= (50 + 300 + 1500 + 700 + 450) / 60 = 3000 / 60 = 50
累積度数より、中央値は30番目と31番目の値の間で、40-60階級に含まれる → 中央値 ≈ 50
【データBの特徴】
・左側(低い値)に多くのデータが集中
・右に裾が長い分布(右に歪んだ分布)
・このような分布では、平均値 > 中央値 となる
【確認計算】
平均値 = (10×25 + 30×15 + 50×10 + 70×5 + 90×5) / 60
= (250 + 450 + 500 + 350 + 450) / 60 = 2000 / 60 ≈ 33.3
累積度数より、中央値は30番目と31番目の値で
【発展問題8】ヒストグラムの比較分析(続き)
累積度数より、30番目と31番目の値は20-40階級に含まれる → 中央値 ≈ 30
よって、データBでは 平均値(約33.3)> 中央値(約30)
【答】
データA:左右対称に近い分布。平均値 ≈ 中央値 ≈ 50
データB:右に裾が長い分布(右に歪んだ分布)。平均値 > 中央値(平均値約33.3、中央値約30)
【発展問題9】複合的なデータ分析
【問題】
ある会社の社員20人の月収(万円)のデータが以下の通りである。
25, 28, 30, 30, 32, 35, 35, 35, 38, 40, 42, 45, 45, 48, 50, 55, 60, 65, 80, 120
(1)平均値、中央値、最頻値を求めよ。
(2)第1四分位数、第3四分位数、四分位範囲を求めよ。
(3)このデータの特徴を述べ、代表値としてどれを使うべきか理由とともに答えよ。
【考え方】
給与データには高額所得者という外れ値が含まれることが多いです。各代表値の特性を理解し、適切な代表値を選択します。
【解法】
(1)平均値、中央値、最頻値
【平均値】
合計 = 25+28+30+30+32+35+35+35+38+40+42+45+45+48+50+55+60+65+80+120
= 933
平均値 = 933 / 20 = 46.65万円
【中央値】
データ数20個(偶数)なので、10番目と11番目の平均
10番目:40、11番目:42
中央値 = (40 + 42) / 2 = 41万円
【最頻値】
各値の出現回数:35が3回で最多
最頻値 = 35万円
(2)四分位数
【第1四分位数 Q₁】
下位10個のデータ:25, 28, 30, 30, 32, 35, 35, 35, 38, 40
その中央値 = (32 + 35) / 2 = 33.5万円
【第3四分位数 Q₃】
上位10個のデータ:42, 45, 45, 48, 50, 55, 60, 65, 80, 120
その中央値 = (50 + 55) / 2 = 52.5万円
【四分位範囲】
IQR = Q₃ - Q₁ = 52.5 - 33.5 = 19万円
(3)データの特徴と適切な代表値
【データの特徴】
・80万円、120万円という高額所得者(外れ値)が存在
・分布は右に裾が長い(右に歪んでいる)
・平均値(46.65万円)> 中央値(41万円)> 最頻値(35万円)
【適切な代表値】
このデータでは中央値(41万円)を代表値として使うべきである。
理由:
・平均値は外れ値(120万円など)に引き上げられており、「典型的な社員の月収」を表していない
・中央値は外れ値の影響を受けにくく、「真ん中の社員の月収」を適切に表している
・最頻値も参考になるが、分布の中心を表すには中央値がより適切
【答】
(1)平均値:46.65万円、中央値:41万円、最頻値:35万円
(2)Q₁=33.5万円、Q₃=52.5万円、四分位範囲=19万円
(3)外れ値が存在し右に歪んだ分布のため、外れ値の影響を受けにくい中央値(41万円)を代表値として使うべき
【発展問題10】総合問題:プログラミングとデータ分析
【問題】
次のPythonプログラムは、データの統計量を計算するものである。空欄(ア)〜(オ)に入る適切なコードを答えよ。
data = [10, 20, 30, 40, 50]
# 平均値の計算
n = len(data)
total = sum(data)
mean = (ア)
# 分散の計算
squared_diff_sum = 0
for x in data:
squared_diff_sum += (イ)
variance = squared_diff_sum / n
# 標準偏差の計算
import math
std_dev = (ウ)
# 別の方法で分散を計算
squared_sum = 0
for x in data:
squared_sum += x ** 2
variance2 = (エ)
# データの標準化
standardized = []
for x in data:
z = (オ)
standardized.append(z)
print(f"平均: {mean}, 分散: {variance}, 標準偏差: {std_dev}")
print(f"標準化後: {standardized}")
【考え方】
統計の公式をプログラムコードに変換します。
- 平均値 = 合計 / データ数
- 分散 = 偏差の2乗の平均 = x²の平均 - (平均)²
- 標準偏差 = √分散
- 標準化 = (x - 平均) / 標準偏差
【解法】
(ア)平均値の計算
平均 = 合計 / データ数 なので
total / n
(イ)偏差の2乗
各データと平均の差の2乗を足し合わせるので
(x - mean) ** 2
(ウ)標準偏差
分散の平方根なので
math.sqrt(variance)
(エ)別の方法での分散
x²の平均 - (平均)² なので
squared_sum / n - mean ** 2
(オ)標準化
(x - 平均) / 標準偏差 なので
(x - mean) / std_dev
【答】
(ア)total / n
(イ)(x - mean) ** 2
(ウ)math.sqrt(variance)
(エ)squared_sum / n - mean ** 2
(オ)(x - mean) / std_dev
よくある間違いと完全対策
間違い1:分散と標準偏差の混同
【よくある間違い】
「標準偏差を求めよ」という問題で、分散の値をそのまま答えてしまう。
【対策】
- 分散:偏差の2乗の平均。単位は元のデータの2乗(例:点²、cm²)
- 標準偏差:分散の正の平方根。単位は元のデータと同じ(例:点、cm)
- 問題文を注意深く読み、どちらを求めているか確認する
- 答えの単位を確認することで間違いに気づける
間違い2:中央値の求め方のミス
【よくある間違い】
- データを並べ替えずに中央値を求める
- データ数が偶数のとき、中央の2つの平均を取らずに片方だけを答える
【対策】
- 必ず最初にデータを大きさ順に並べ替える
- データ数が奇数か偶数か確認する
- 偶数の場合は必ず2つの値の平均を計算する
【確認の手順】
- データを昇順(小→大)に並べる
- データ数nを数える
- nが奇数 → (n+1)/2 番目の値
- nが偶数 → n/2番目と(n/2)+1番目の平均
間違い3:相関係数の解釈ミス
【よくある間違い】
- 相関係数が0.5だから「半分くらい関係がある」と解釈する
- 相関関係があれば因果関係もあると考える
- 負の相関を「関係がない」と誤解する
【対策】
- 相関係数の絶対値で相関の強さを判断する(|r|≥0.7で強い相関)
- 相関係数の符号で相関の方向を判断する(正:正の相関、負:負の相関)
- 相関≠因果を常に意識する
- 第三の変数(交絡因子)の存在を考慮する
【相関係数の目安】
| |r|の値 | 相関の強さ |
|---|---|
| 0.7〜1.0 | 強い相関 |
| 0.4〜0.7 | 中程度の相関 |
| 0.2〜0.4 | 弱い相関 |
| 0〜0.2 | ほとんど相関なし |
間違い4:分散の計算公式の使い間違い
【よくある間違い】
- 「x²の平均 - (平均)²」を「(x²の平均 - 平均)²」と計算してしまう
- 「Σ(x-平均)²/n」で、2乗する前に合計してしまう
【対策】
分散の計算公式(2通り)を正確に覚える:
- 定義式:s² = Σ(xᵢ - x̄)² / n
「各データから平均を引いて、2乗して、すべて足して、nで割る」 - 計算式:s² = (Σxᵢ²/n) - x̄²
「x²の平均を求めて、平均の2乗を引く」
計算式の方が計算ミスが少なくおすすめ!
間違い5:データ変換後の統計量の計算ミス
【よくある間違い】
- 「y = 2x + 3」と変換したとき、分散も「2倍して3を足す」と計算してしまう
- 標準偏差の変換で負の係数のとき、絶対値を取り忘れる
【対策】
y = ax + b の変換のとき:
- 平均:ȳ = ax̄ + b(aもbも影響する)
- 分散:sy² = a²sx²(a²だけ影響、bは影響しない)
- 標準偏差:sy = |a|sx(|a|だけ影響、bは影響しない)
覚え方:「加える・引く」は散らばりに影響しない。「掛ける・割る」だけが散らばりに影響する。
間違い6:四分位数の求め方の混乱
【よくある間違い】
- 中央値を含めて下半分・上半分を分けてしまう
- 四分位数の定義が教科書によって異なることを知らない
【対策】
共通テストで使われる方法(四分位数の求め方):
- データを昇順に並べる
- 中央値Q₂を求める
- 中央値より小さい値のグループの中央値がQ₁
- 中央値より大きい値のグループの中央値がQ₃
- データ数が奇数の場合、中央値自体はどちらのグループにも含めない
間違い7:箱ひげ図の読み取りミス
【よくある間違い】
- 箱の中央の線を「平均値」と誤解する
- 箱の幅を「範囲」と誤解する
- 「箱の中に50%のデータがある」→「箱の真ん中に25%いる」と誤解する
【対策】
箱ひげ図の正しい読み方:
- 箱の中央の線 = 中央値(平均値ではない!)
- 箱の幅 = 四分位範囲(IQR = Q₃ - Q₁)
- ひげの端から端 = 範囲(最大値 - 最小値)
- 箱の中には全データの50%が含まれる
- 箱の左側と右側には、それぞれ25%ずつが含まれる
間違い8:回帰直線の解釈ミス
【よくある間違い】
- 回帰直線の傾きと相関係数を混同する
- 「yからxを予測する回帰直線」と「xからyを予測する回帰直線」を同じものと考える
- 回帰直線の範囲外で予測してしまう(外挿の危険性)
【対策】
- 回帰直線の傾き = sxy / sx²(共分散 / xの分散)
- 相関係数 = sxy / (sx × sy)
- 傾き = r × (sy / sx) という関係がある
- yをxで予測する直線と、xをyで予測する直線は異なる
- 回帰直線は必ず点(x̄, ȳ)を通る
- データの範囲外での予測(外挿)は信頼性が低い
共通テスト・大学入試での出題傾向
共通テスト「情報I」の出題傾向
【2025年度共通テストの特徴】
- 配点:100点満点中、データ分析・統計分野は約20〜30点程度
- 出題形式:計算問題だけでなく、グラフの読み取り・解釈問題が多い
- 特徴的な出題:プログラミング(Python)と統計を組み合わせた問題
【頻出テーマランキング】
| 順位 | テーマ | 出題頻度 | 難易度 |
|---|---|---|---|
| 1位 | 代表値(平均値・中央値・最頻値)の計算と比較 | ★★★★★ | 基礎〜標準 |
| 2位 | 分散・標準偏差の計算 | ★★★★★ | 基礎〜標準 |
| 3位 | 箱ひげ図の読み取り・作成 | ★★★★☆ | 基礎〜標準 |
| 4位 | 散布図と相関係数 | ★★★★☆ | 標準 |
| 5位 | ヒストグラム・度数分布表の分析 | ★★★★☆ | 基礎〜標準 |
| 6位 | 相関と因果の区別 | ★★★☆☆ | 標準〜発展 |
| 7位 | データの変換(標準化含む) | ★★★☆☆ | 標準 |
| 8位 | 回帰直線 | ★★☆☆☆ | 標準〜発展 |
| 9位 | プログラムによるデータ処理 | ★★★★☆ | 標準〜発展 |
| 10位 | 外れ値の検出と影響 | ★★☆☆☆ | 標準 |
【出題パターン別対策】
パターン1:計算問題
特徴:平均・分散・標準偏差・相関係数などの計算を直接問う
対策:
- 計算公式を正確に暗記する
- 計算の簡略化テクニック(仮平均の利用など)を身につける
- 電卓が使えないので、計算ミスを防ぐ練習をする
パターン2:グラフ読み取り問題
特徴:ヒストグラム、箱ひげ図、散布図から情報を読み取る
対策:
- 各グラフの要素(軸、目盛り、凡例など)を正確に読む習慣をつける
- グラフから読み取れること・読み取れないことを区別する
- 複数のグラフを比較する問題に慣れる
パターン3:解釈・判断問題
特徴:統計結果から適切な結論を導く、誤った解釈を見抜く
対策:
- 相関と因果の違いを理解する
- 外れ値の影響を考慮する
- 適切な代表値の選択ができるようにする
- 「言い過ぎ」な選択肢を
パターン3:解釈・判断問題(続き)
- 「言い過ぎ」な選択肢を見抜く力をつける
- 統計的な主張の妥当性を批判的に評価する
パターン4:プログラミング連携問題
特徴:Pythonなどのコードを読み、統計処理の結果を予測する
対策:
- 基本的なPython文法(for文、リスト、関数など)を理解する
- 統計計算をプログラムに落とし込む方法を理解する
- コードの空欄補充問題に慣れる
- sum()、len()、sorted()などの基本関数を覚える
【試験別の傾向と対策】
共通テスト「情報I」
傾向:
- 実生活に即したデータを用いた問題が多い
- 複数の統計量を組み合わせて判断する問題
- プログラミング(Python)との融合問題
- グラフの読み取りと解釈を重視
時間配分の目安:
- 情報I全体で60分、データ分析分野には約15〜20分を目安に
- 計算問題は素早く、解釈問題は慎重に
数学I・A(データの分析)との関連
共通点:
- 平均、分散、標準偏差、相関係数の計算方法は同じ
- 箱ひげ図、ヒストグラムの読み取りも同様
相違点:
- 情報Iではプログラミングとの連携がある
- 情報Iではより実践的なデータ活用が問われる
- 情報Iではデータの収集・整理・可視化の過程も出題される
学習のポイント:
数学I・Aの「データの分析」と情報Iの「データ分析」は相互に補完し合うので、両方を並行して学習すると効率的!
【年度別出題分析と予想】
2025年度(初年度)の予想
- 基本的な計算問題が中心(平均、分散、相関係数)
- 箱ひげ図・ヒストグラムの読み取り
- 散布図からの相関の判断
- 簡単なPythonコードの読解
- 相関と因果の区別を問う問題
2026年度以降の予想
- より実践的なデータ分析シナリオ
- 複数のデータセットの比較分析
- より複雑なプログラミング問題
- データの信頼性・妥当性の評価
- 外れ値処理や欠損値の扱い
【配点と時間配分の戦略】
分野 予想配点 目標時間 優先度 代表値・散らばりの計算 8〜12点 5〜7分 最優先(確実に取る) グラフの読み取り 6〜10点 4〜6分 高(比較的取りやすい) 相関・回帰 6〜10点 5〜7分 高 解釈・判断問題 4〜8点 3〜5分 中(慎重に) プログラミング連携 6〜10点 5〜8分 中〜高
藤原進之介おすすめ勉強法と参考書
効率的な学習ステップ
【ステップ1】基本概念の理解(1〜2週間)
- 平均値、中央値、最頻値の定義と使い分けを理解
- 分散、標準偏差の意味と計算方法を習得
- 相関係数の意味と計算方法を習得
- この記事の「基本概念と重要公式」を完璧にする
【ステップ2】計算練習(2〜3週間)
- 基礎問題を繰り返し解いて計算力をつける
- 公式を見ないで解けるようになるまで練習
- 計算ミスをしやすいポイントを把握する
- 仮平均などの計算テクニックを身につける
【ステップ3】応用力の養成(2〜3週間)
- 標準問題、発展問題に挑戦
- グラフの読み取り問題を多く解く
- 相関と因果の区別など、解釈問題に取り組む
- プログラミングとの連携問題に慣れる
【ステップ4】実戦演習(試験直前2〜3週間)
- 過去問・予想問題で時間を計って演習
- 間違えた問題の復習を徹底
- よくある間違いパターンを確認
- 本番と同じ条件で模擬試験を実施
分野別学習のコツ
【代表値の学習】
- 3つの代表値(平均値・中央値・最頻値)の特徴と使い分けを理解する
- 外れ値がある場合、どの代表値が適切かを判断できるようにする
- 実際のデータ(ニュースの統計など)で代表値の使い分けを考える習慣をつける
【分散・標準偏差の学習】
- 定義式と計算式の両方を覚える
- 計算式「x²の平均 - (平均)²」を使いこなす
- データ変換時の分散・標準偏差の変化を理解する
- 標準化(z得点)の意味と計算を習得する
【相関・回帰の学習】
- 散布図を見て相関の有無・方向・強さを判断する練習
- 相関係数の計算手順を確実にする
- 相関≠因果を常に意識する
- 回帰直線の傾きと相関係数の関係を理解する
【グラフの学習】
- ヒストグラム、箱ひげ図、散布図の読み取り練習
- 複数のグラフを比較する問題に慣れる
- グラフから読み取れること・読み取れないことを区別する
- 自分でグラフを描く練習も効果的
おすすめ参考書・問題集
【基礎固め用】
- 『高校の情報Iが1冊でしっかりわかる本』(かんき出版)
→ 情報I全体の基礎を固めるのに最適。図解が多くわかりやすい。
- 『情報I 共通テスト対策 はじめの一歩』(KADOKAWA)
→ 共通テスト形式に沿った基礎学習ができる。
- 『やさしい高校数学(数学I・A)』(学研)
→ データの分析分野の基礎を数学の観点から学べる。
【標準〜発展用】
- 『大学入学共通テスト 情報I 予想問題集』(各出版社)
→ 本番形式の演習に最適。複数社の予想問題を解くとよい。
- 『情報I 共通テスト対策問題集』(数研出版)
→ 基礎から応用まで段階的に学べる。
- 『統計学入門』(東京大学出版会)
→ より深く統計を学びたい人向け。大学レベルの内容も含む。
【プログラミング連携用】
- 『Pythonで学ぶ統計学の教科書』(翔泳社)
→ Pythonを使った統計処理の基礎を学べる。
- 『情報I Python完全攻略』
→ 共通テストで出題されるPythonの基礎を網羅。
効果的な暗記法
【公式暗記のコツ】
1. 分散の公式
「2乗の平均 マイナス 平均の2乗」と呪文のように覚える
s² = (x²の平均) - (x̄)²
2. 相関係数の公式
「共分散を標準偏差の積で割る」
r = sxy / (sx × sy)
3. 回帰直線の傾き
「共分散をxの分散で割る」または「r × sy / sx」
4. データ変換 y = ax + b のとき
「平均はそのまま変換、標準偏差はaの絶対値だけ」
- 平均:ȳ = ax̄ + b
- 標準偏差:sy = |a| × sx
よくある質問(FAQ)
Q1: 数学I・Aのデータの分析と情報Iのデータ分析、どちらを先に勉強すべき?
A: どちらから始めても構いませんが、数学I・Aの方が計算に重点を置いているので、計算力をつけたい場合は数学I・Aから始めるとよいでしょう。両方を並行して学ぶのが最も効率的です。
Q2: 相関係数の計算が複雑で時間がかかります。何かコツはありますか?
A: 以下の手順を定型化すると効率的です:
① まず平均x̄、ȳを計算
② xy、x²、y²の値を表にまとめる
③ それぞれの平均を計算
④ 共分散 = xyの平均 - x̄ȳ
⑤ 分散 = x²の平均 - x̄²(yも同様)
⑥ 相関係数 = 共分散 / (√xの分散 × √yの分散)Q3: プログラミングが苦手ですが、データ分析の問題は解けますか?
A: プログラミングの知識がなくても、統計の計算問題やグラフ読み取り問題は解けます。ただし、共通テストではPythonとの連携問題も出題されるので、基本的なコードの読解力は身につけておきましょう。
Q4: 箱ひげ図と平均値の関係がわかりません。
A: 箱ひげ図からは平均値を直接読み取ることはできません。箱ひげ図で表されるのは、最小値、Q1、中央値、Q3、最大値の5つです。平均値は別途計算が必要です。
Q5: 本番で計算ミスを防ぐコツは?
A: ① 計算過程を丁寧に書く、② 検算の時間を確保する、③ 概算で答えの妥当性を確認する、④ 単位に注目する、の4点を心がけてください。
日本数学塾・数強塾でさらに実力アップ
🎯 藤原進之介が指導する数学専門塾
この記事を読んで「もっと詳しく学びたい」「個別に指導を受けたい」と思った方は、ぜひ日本数学塾または数強塾の無料体験をお試しください。
【日本数学塾の特徴】
- プロ講師による完全個別指導:一人ひとりの理解度に合わせた指導
- 数学・情報I専門:データ分析・統計分野も徹底対策
- オンライン対応:全国どこからでも受講可能
- 共通テスト対策:最新の出題傾向に対応した指導
【数強塾の特徴】
- 苦手克服に特化:つまずきポイントを徹底分析
- 段階的なカリキュラム:基礎から応用まで無理なくステップアップ
- 豊富な演習問題:実戦力を養う問題演習
- 質問し放題:わからないところはすぐに解決
📚 藤原進之介の著書9冊のご紹介
私、藤原進之介はこれまでに9冊の著書を出版しています。数学の基礎から入試対策まで、幅広いニーズに対応した内容となっています。
【主な著書】
- 『数学の基礎が身につく本』
中学・高校数学の基礎を丁寧に解説。苦手意識のある方におすすめ。
- 『共通テスト数学 満点への道』
共通テスト数学I・A、II・Bの完全攻略本。
- 『データの分析 完全マスター』
統計分野に特化した一冊。情報Iの学習にも最適。
- 『計算力を鍛える数学ドリル』
計算ミスをなくすための徹底トレーニング。
- 『数学的思考力の育て方』
問題解決能力を高めるための思考法を解説。
- 『図形問題の解き方大全』
苦手な人が多い図形問題を完全攻略。
- 『関数・グラフ徹底攻略』
関数の本質を理解し、グラフ問題に強くなる。
- 『確率・統計入門』
確率と統計の基礎を一から学べる入門書。
- 『大学入試数学 最重要問題100』
入試頻出問題を厳選。効率的な入試対策に。
各書籍は全国の書店、Amazon等のオンラインストアでお求めいただけます。
🆓 無料体験のご案内
今なら無料体験授業を実施中!
「情報Iのデータ分析が苦手...」「統計の計算でいつも間違える...」「共通テストで高得点を取りたい!」
そんな悩みをお持ちの方は、ぜひ無料体験授業にお申し込みください。
【無料体験の内容】
- 60分の個別指導体験
- 現在の学力診断
- 最適な学習プランのご提案
- 入試情報・勉強法のアドバイス
【お申し込み方法】
お気軽にお問い合わせください!
一緒に「情報I」を得意科目にしましょう!
まとめ
この記事では、情報Iのデータ分析・統計分野について、基礎から入試レベルまで完全解説しました。
【この記事のポイント】
- 基本概念:平均値・中央値・最頻値、分散・標準偏差、相関係数などの定義と計算方法
- 基礎問題10問:計算力の基礎を固める問題
- 標準問題10問:入試頻出パターンを網羅
- 発展問題10問:実戦力を養う応用問題
- よくある間違い:8つの典型的なミスとその対策
- 出題傾向:共通テスト・大学入試の傾向と対策
- 勉強法:効率的な学習ステップとおすすめ参考書
【最後に】
データ分析・統計は、正しい理解と十分な練習があれば、必ず得点源にできる分野です。
この記事で紹介した30問の問題を何度も解き直し、公式と解法パターンを完璧にマスターしてください。そうすれば、共通テストで高得点を取ることは十分可能です。
もし学習でつまずいたり、より効率的に学びたい場合は、日本数学塾・数強塾での個別指導をご検討ください。
皆さんの合格を心より応援しています!
― 藤原進之介 ―```
株式会社数強塾 代表取締役
数強塾グループ 総括
オンライン授業の受講方法が分からない。
初めてで不安である、という方も気軽にご連絡ください。
