【情報I データ分析・統計】基礎から入試まで完全攻略|問題30問+解説|藤原進之介

```html

【情報I データ分析・統計】基礎から入試まで完全攻略|問題30問+解説|藤原進之介

【情報I データ分析・統計】基礎から入試まで完全攻略|問題30問+解説|藤原進之介

こんにちは、日本数学塾・数強塾講師の藤原進之介です。

2025年度大学入学共通テストから、「情報I」が新たに試験科目として加わりました。その中でも「データ分析・統計」分野は、配点が高く、確実に得点したい分野です。しかし、「数学Ⅰの統計とどう違うの?」「どんな公式を覚えればいいの?」「計算が複雑で苦手...」という声を多く聞きます。

本記事では、情報Iのデータ分析・統計分野について、基本概念から入試レベルまで完全網羅します。具体的な問題を30問以上掲載し、すべてに詳細解説を付けました。この記事を読み終える頃には、データ分析・統計分野で満点を狙える実力が身についているはずです。

この記事でわかること

  • データ分析・統計の基本概念(平均値・中央値・最頻値・分散・標準偏差・相関係数など)を完璧に理解できる
  • 重要公式の導出と使い分けを習得できる
  • 基礎問題10問で基本的な計算力を身につけられる
  • 標準問題10問で入試頻出パターンを網羅できる
  • 発展問題10問で実戦力を鍛えられる
  • よくある間違いとその対策を知ることで、本番でのミスを防げる
  • 共通テスト・大学入試の出題傾向を把握し、効率的な対策ができる
  • 効果的な勉強法と参考書を知ることで、学習効率を最大化できる

情報I データ分析・統計 の基本概念と重要公式

1. データの種類

データ分析において、まずデータの種類を正確に理解することが重要です。

【量的データ(数量データ)】

数値で表され、計算が可能なデータです。

  • 離散データ:整数値のみをとるデータ(例:人数、回数、個数)
  • 連続データ:任意の実数値をとりうるデータ(例:身長、体重、時間)

【質的データ(カテゴリデータ)】

カテゴリや属性を表すデータです。

  • 名義尺度:順序関係がないカテゴリ(例:血液型、性別、都道府県)
  • 順序尺度:順序関係があるカテゴリ(例:成績のS・A・B・C・D、満足度)

2. 代表値(中心傾向の測度)

【平均値(算術平均)】

公式:

平均値 x̄ = (x₁ + x₂ + ... + xₙ) / n = Σxᵢ / n

n個のデータの総和をデータ数で割った値。外れ値の影響を受けやすい。

【中央値(メディアン)】

データを大きさ順に並べたときの中央の値。

  • データ数nが奇数のとき:(n+1)/2 番目の値
  • データ数nが偶数のとき:n/2 番目と (n/2)+1 番目の平均

外れ値の影響を受けにくい。

【最頻値(モード)】

最も多く出現する値。複数存在することもある。

3. 散らばりの測度(分散・標準偏差)

【偏差】

公式:

偏差 = xᵢ - x̄

各データと平均値との差。偏差の総和は必ず0になる。

【分散】

公式:

分散 s² = Σ(xᵢ - x̄)² / n

計算に便利な公式:

s² = (x₁² + x₂² + ... + xₙ²)/n - x̄² = x²の平均 - (平均)²

偏差の2乗の平均。データの散らばり具合を表す。単位が元のデータの2乗になる。

【標準偏差】

公式:

標準偏差 s = √(分散) = √s²

分散の正の平方根。元のデータと同じ単位で散らばりを表現できる。

4. 四分位数と箱ひげ図

【四分位数】

  • 第1四分位数(Q₁):データの下位25%の位置にある値
  • 第2四分位数(Q₂):中央値と同じ
  • 第3四分位数(Q₃):データの上位25%の位置にある値
  • 四分位範囲(IQR):Q₃ - Q₁

【箱ひげ図の読み方】

  • 箱の左端:第1四分位数(Q₁)
  • 箱の中の線:中央値(Q₂)
  • 箱の右端:第3四分位数(Q₃)
  • ひげの端:最小値と最大値(または外れ値を除いた範囲)
  • 箱の幅:四分位範囲(IQR)

5. 相関と回帰

【共分散】

公式:

共分散 sxy = Σ(xᵢ - x̄)(yᵢ - ȳ) / n

計算に便利な公式:

sxy = (x₁y₁ + x₂y₂ + ... + xₙyₙ)/n - x̄ × ȳ = xyの平均 - x̄ × ȳ

2変数の関係の方向性を示す。正なら正の相関、負なら負の相関。

【相関係数】

公式:

相関係数 r = sxy / (sx × sy) = 共分散 / (xの標準偏差 × yの標準偏差)

-1 ≤ r ≤ 1 の範囲をとる。

  • r = 1:完全な正の相関(全点が右上がりの直線上)
  • r = -1:完全な負の相関(全点が右下がりの直線上)
  • r = 0:無相関
  • |r| ≥ 0.7:強い相関
  • 0.4 ≤ |r| < 0.7:中程度の相関
  • 0.2 ≤ |r| < 0.4:弱い相関
  • |r| < 0.2:ほとんど相関なし

【回帰直線】

回帰直線の方程式:

y - ȳ = (sxy / sx²)(x - x̄)

整理すると:y = ax + b の形

  • 傾き a = sxy / sx² = 共分散 / xの分散
  • 切片 b = ȳ - ax̄

回帰直線は必ず点(x̄, ȳ)を通る。

6. データの変換

【線形変換】

データを y = ax + b と変換したとき:

  • 平均の変換:ȳ = ax̄ + b
  • 分散の変換:sy² = a²sx²
  • 標準偏差の変換:sy = |a|sx

【標準化(z得点)】

公式:

z = (x - x̄) / s

標準化後のデータは、平均0、標準偏差1になる。異なる尺度のデータを比較する際に使用。

7. ヒストグラムと度数分布表

【度数分布表の用語】

  • 階級:データを区切る区間(例:0以上10未満)
  • 階級値:各階級の中央の値(例:階級「0以上10未満」の階級値は5)
  • 度数:各階級に含まれるデータの個数
  • 相対度数:度数 / 全データ数
  • 累積度数:その階級までの度数の合計
  • 累積相対度数:その階級までの相対度数の合計

8. 散布図と相関

【散布図の読み取り】

  • 正の相関:点が右上がりに分布
  • 負の相関:点が右下がりに分布
  • 無相関:点にパターンがない、または水平・垂直に分布
  • 外れ値:他の点から大きく離れた点

※重要な注意点:相関関係は因果関係を意味しない!


基礎問題 10問(全問解説付き)

【基礎問題1】平均値の計算

【問題】

あるクラスの5人の生徒のテスト得点が、72, 85, 68, 91, 74 点であった。この5人の平均点を求めよ。

【考え方】

平均値は、全データの合計をデータ数で割ることで求められます。公式 x̄ = Σxᵢ / n を使います。

【解法】

データの合計 = 72 + 85 + 68 + 91 + 74 = 390

データ数 n = 5

平均値 = 390 ÷ 5 = 78

【答】78点

【基礎問題2】中央値の計算(奇数個)

【問題】

次のデータの中央値を求めよ。

15, 23, 8, 42, 31, 19, 27

【考え方】

中央値を求めるには、まずデータを小さい順(または大きい順)に並べ替えます。データ数が奇数のとき、中央値は真ん中の値です。

【解法】

データを小さい順に並べると:8, 15, 19, 23, 27, 31, 42

データ数 n = 7(奇数)

中央値は (7+1)/2 = 4番目の値

4番目の値は 23

【答】23

【基礎問題3】中央値の計算(偶数個)

【問題】

次のデータの中央値を求めよ。

12, 25, 18, 7, 33, 21

【考え方】

データ数が偶数のとき、中央値は中央の2つの値の平均です。

【解法】

データを小さい順に並べると:7, 12, 18, 21, 25, 33

データ数 n = 6(偶数)

中央値は 3番目と4番目の値の平均

3番目の値:18、4番目の値:21

中央値 = (18 + 21) / 2 = 39 / 2 = 19.5

【答】19.5

【基礎問題4】最頻値の計算

【問題】

次のデータの最頻値を求めよ。

3, 5, 7, 3, 8, 5, 3, 9, 5, 3

【考え方】

最頻値は、最も多く出現する値です。各値の出現回数を数えます。

【解法】

各値の出現回数を数えると:

  • 3:4回
  • 5:3回
  • 7:1回
  • 8:1回
  • 9:1回

最も多く出現するのは 3(4回)

【答】3

【基礎問題5】分散の計算

【問題】

次のデータの分散を求めよ。

2, 4, 6, 8, 10

【考え方】

分散は「(各データの2乗の平均) - (平均)²」で計算すると効率的です。

【解法】

まず平均を求める:

平均 x̄ = (2 + 4 + 6 + 8 + 10) / 5 = 30 / 5 = 6

各データの2乗の平均を求める:

(2² + 4² + 6² + 8² + 10²) / 5 = (4 + 16 + 36 + 64 + 100) / 5 = 220 / 5 = 44

分散 = (x²の平均) - (平均)² = 44 - 6² = 44 - 36 = 8

【答】8

【基礎問題6】標準偏差の計算

【問題】

次のデータの標準偏差を求めよ。

5, 10, 15, 20, 25

【考え方】

標準偏差は分散の正の平方根です。まず分散を求め、その後で平方根をとります。

【解法】

まず平均を求める:

平均 x̄ = (5 + 10 + 15 + 20 + 25) / 5 = 75 / 5 = 15

各データの2乗の平均を求める:

(5² + 10² + 15² + 20² + 25²) / 5 = (25 + 100 + 225 + 400 + 625) / 5 = 1375 / 5 = 275

分散 = 275 - 15² = 275 - 225 = 50

標準偏差 = √50 = √(25×2) = 5√2 ≈ 7.07

【答】5√2 (約7.07)

【基礎問題7】四分位数の計算

【問題】

次のデータの第1四分位数Q₁、中央値Q₂、第3四分位数Q₃を求めよ。

3, 7, 8, 12, 15, 18, 21, 25

【考え方】

データ数が8個(偶数)なので、まず中央値を求め、その後、下半分と上半分に分けてそれぞれの中央値を求めます。

【解法】

データは既に昇順:3, 7, 8, 12, 15, 18, 21, 25

データ数 n = 8

【中央値Q₂】

4番目と5番目の平均 = (12 + 15) / 2 = 13.5

【第1四分位数Q₁】

下半分のデータ:3, 7, 8, 12(4個)

その中央値 = (7 + 8) / 2 = 7.5

【第3四分位数Q₃】

上半分のデータ:15, 18, 21, 25(4個)

その中央値 = (18 + 21) / 2 = 19.5

<div style="background-color: #ffebee; padding:

【基礎問題7】続き

【答】Q₁ = 7.5、Q₂ = 13.5、Q₃ = 19.5

【基礎問題8】四分位範囲の計算

【問題】

基礎問題7のデータについて、四分位範囲(IQR)を求めよ。

【考え方】

四分位範囲は、第3四分位数から第1四分位数を引いた値です。IQR = Q₃ - Q₁

【解法】

基礎問題7より、Q₁ = 7.5、Q₃ = 19.5

四分位範囲 IQR = Q₃ - Q₁ = 19.5 - 7.5 = 12

【答】12

【基礎問題9】相対度数の計算

【問題】

あるクラス40人のテスト結果について、60点以上70点未満の生徒が8人いた。この階級の相対度数を求めよ。

【考え方】

相対度数は、その階級の度数を全体のデータ数で割った値です。

【解法】

相対度数 = 度数 / 全データ数 = 8 / 40 = 0.2

パーセントで表すと 0.2 × 100 = 20%

【答】0.2(または20%)

【基礎問題10】データの変換(平均と標準偏差)

【問題】

あるデータの平均が50、標準偏差が10である。すべてのデータを2倍して20を加えた新しいデータを作ったとき、新しいデータの平均と標準偏差を求めよ。

【考え方】

データを y = ax + b と変換したとき、平均は ȳ = ax̄ + b、標準偏差は sy = |a|sx となります。

【解法】

変換式:y = 2x + 20(a = 2, b = 20)

新しい平均 = 2 × 50 + 20 = 100 + 20 = 120

新しい標準偏差 = |2| × 10 = 2 × 10 = 20

【答】平均:120、標準偏差:20


標準問題 10問(全問解説付き)

【標準問題1】共分散の計算

【問題】

次の表は、5人の生徒の数学と英語の得点である。数学の得点をx、英語の得点をyとするとき、共分散sxyを求めよ。

生徒 A B C D E
数学 x 60 70 80 90 100
英語 y 50 60 70 80 90

【考え方】

共分散は「xyの平均 - x̄ × ȳ」で計算できます。まず各平均を求め、次にxyの積の平均を求めます。

【解法】

【手順1】xとyの平均を求める

x̄ = (60 + 70 + 80 + 90 + 100) / 5 = 400 / 5 = 80

ȳ = (50 + 60 + 70 + 80 + 90) / 5 = 350 / 5 = 70

【手順2】xyの積を計算する

60×50 = 3000, 70×60 = 4200, 80×70 = 5600, 90×80 = 7200, 100×90 = 9000

【手順3】xyの平均を求める

xyの平均 = (3000 + 4200 + 5600 + 7200 + 9000) / 5 = 29000 / 5 = 5800

【手順4】共分散を計算する

共分散 sxy = xyの平均 - x̄ × ȳ = 5800 - 80 × 70 = 5800 - 5600 = 200

【答】200

【標準問題2】相関係数の計算

【問題】

標準問題1のデータについて、相関係数rを求めよ。

【考え方】

相関係数 r = sxy / (sx × sy) です。共分散は求まっているので、xとyそれぞれの標準偏差を求めます。

【解法】

【xの標準偏差を求める】

x²の平均 = (60² + 70² + 80² + 90² + 100²) / 5

= (3600 + 4900 + 6400 + 8100 + 10000) / 5 = 33000 / 5 = 6600

xの分散 = 6600 - 80² = 6600 - 6400 = 200

xの標準偏差 sx = √200 = 10√2

【yの標準偏差を求める】

y²の平均 = (50² + 60² + 70² + 80² + 90²) / 5

= (2500 + 3600 + 4900 + 6400 + 8100) / 5 = 25500 / 5 = 5100

yの分散 = 5100 - 70² = 5100 - 4900 = 200

yの標準偏差 sy = √200 = 10√2

【相関係数を計算する】

r = sxy / (sx × sy) = 200 / (10√2 × 10√2) = 200 / 200 = 1

【答】1(完全な正の相関)

【標準問題3】回帰直線の方程式

【問題】

次の表は、4人の生徒の勉強時間xと得点yのデータである。yをxで予測する回帰直線の方程式を求めよ。

生徒 A B C D
勉強時間 x(時間) 1 2 3 4
得点 y(点) 40 50 70 80

【考え方】

回帰直線の傾きは a = sxy / sx²、切片は b = ȳ - ax̄ で求められます。

【解法】

【手順1】平均を求める

x̄ = (1 + 2 + 3 + 4) / 4 = 10 / 4 = 2.5

ȳ = (40 + 50 + 70 + 80) / 4 = 240 / 4 = 60

【手順2】共分散を求める

xyの積:1×40=40, 2×50=100, 3×70=210, 4×80=320

xyの平均 = (40 + 100 + 210 + 320) / 4 = 670 / 4 = 167.5

sxy = 167.5 - 2.5 × 60 = 167.5 - 150 = 17.5

【手順3】xの分散を求める

x²の平均 = (1 + 4 + 9 + 16) / 4 = 30 / 4 = 7.5

sx² = 7.5 - 2.5² = 7.5 - 6.25 = 1.25

【手順4】傾きと切片を求める

傾き a = sxy / sx² = 17.5 / 1.25 = 14

切片 b = ȳ - ax̄ = 60 - 14 × 2.5 = 60 - 35 = 25

【答】y = 14x + 25

【標準問題4】標準化(z得点)

【問題】

あるテストの平均点が65点、標準偏差が12点であった。太郎さんの得点は89点である。太郎さんのz得点(標準化得点)を求めよ。

【考え方】

z得点は、「(個々のデータ - 平均) / 標準偏差」で計算します。

【解法】

z = (x - x̄) / s = (89 - 65) / 12 = 24 / 12 = 2

【答】2

(太郎さんは平均より標準偏差2つ分高い位置にいる)

【標準問題5】度数分布表からの平均値計算

【問題】

次の度数分布表から、データの平均値を求めよ。

階級(点) 階級値 度数(人)
0以上20未満 10 2
20以上40未満 30 5
40以上60未満 50 8
60以上80未満 70 4
80以上100以下 90 1
合計 - 20

【考え方】

度数分布表からの平均は、「(階級値 × 度数)の総和 / 度数の総和」で求めます。

【解法】

(階級値 × 度数)の計算:

10 × 2 = 20

30 × 5 = 150

50 × 8 = 400

70 × 4 = 280

90 × 1 = 90

合計 = 20 + 150 + 400 + 280 + 90 = 940

平均値 = 940 / 20 = 47

【答】47点

【標準問題6】箱ひげ図の読み取り

【問題】

下図はあるクラスのテスト結果を箱ひげ図で表したものである(数値は以下の通り)。

  • 最小値:25点
  • 第1四分位数:45点
  • 中央値:60点
  • 第3四分位数:75点
  • 最大値:95点

次の①〜④のうち、正しいものをすべて選べ。

① 範囲は70点である

② 四分位範囲は30点である

③ 半数以上の生徒が60点以上である

④ 75点以上の生徒は全体の25%以下である

【考え方】

箱ひげ図の各要素の意味を正確に理解し、各選択肢を検証します。

【解法】

① 範囲 = 最大値 - 最小値 = 95 - 25 = 70 → 正しい

② 四分位範囲 = Q₃ - Q₁ = 75 - 45 = 30 → 正しい

③ 中央値が60点なので、60点以上の生徒は全体の50%以上いる。つまり「半数以上」は正しい → 正しい

④ Q₃ = 75点は上位25%の境界なので、75点以上の生徒は全体の25%「以下」である → 正しい

【答】①②③④すべて正しい

【標準問題7】散布図と相関の判断

【問題】

次のデータについて、相関係数rの値として最も適切なものを選べ。

x 1 2 3 4 5
y 10 8 6 4 2

(ア)r = 1 (イ)r = 0.5 (ウ)r = 0 (エ)r = -0.5 (オ)r = -1

【考え方】

xが増加するとyが減少する関係(負の相関)があります。データを見ると、完全な直線関係になっているかを確認します。

【解法】

xとyの関係を見ると:

x = 1のとき y = 10

x = 2のとき y = 8

x = 3のとき y = 6

x = 4のとき y = 4

x = 5のとき y = 2

y = -2x + 12 という完全な直線上にすべての点がある。

xが増加するとyが減少する「負の相関」で、かつ完全な直線関係なので、相関係数は -1。

【答】(オ)r = -1

【標準問題8】外れ値の影響

【問題】

次のデータAとデータBについて、平均値と中央値をそれぞれ求め、外れ値の影響について説明せよ。

データA:10, 12, 14, 16, 18

データB:10, 12, 14, 16, 100

【考え方】

データBには外れ値(100)が含まれています。平均値と中央値への影響の違いを確認します。

【解法】

【データA】

平均値 = (10 + 12 + 14 + 16 + 18) / 5 = 70 / 5 = 14

中央値 = 14(3番目の値)

【データB】

平均値 = (10 + 12 + 14 + 16 + 100) / 5 = 152 / 5 = 30.4

中央値 = 14(3番目の値)

【考察】

・平均値はデータAの14からデータBでは30.4へと大きく変化した(16.4の増加)

・中央値は14のまま変化なし

・外れ値は平均値に大きな影響を与えるが、中央値には影響を与えにくい

【答】

データA:平均値14、中央値14

データB:平均値30.4、中央値14

外れ値は平均値に大きな影響を与えるが、中央値は外れ値の影響を受けにくい。

【標準問題9】仮平均を用いた計算

【問題】

次のデータの平均値と分散を、仮平均を100として求めよ。

98, 102, 96, 104, 100

【考え方】

仮平均を使うと、大きな数値の計算を簡略化できます。各データから仮平均を引いた値で計算し、最後に仮平均を加えます。

【解法】

仮平均 m = 100 として、偏差 d = x - m を計算:

d₁ = 98 - 100 = -2

d₂ = 102 - 100 = 2

d₃ = 96 - 100 = -4

d₄ = 104 - 100 = 4

d₅ = 100 - 100 = 0

【平均値】

dの平均 = (-2 + 2 - 4 + 4 + 0) / 5 = 0 / 5 = 0

元データの平均 = 仮平均 + dの平均 = 100 + 0 = 100

【分散】

d²の値:4, 4, 16, 16, 0

d²の平均 = (4 + 4 + 16 + 16 + 0) / 5 = 40 / 5 = 8

dの平均 = 0 なので

分散 = d²の平均 - (dの平均)² = 8 - 0² = 8

【答】平均値:100、分散:8

【標準問題10】相関と因果の区別

【問題】

【標準問題10】相関と因果の区別(続き)

【問題】

次の①〜④の主張について、「相関関係」と「因果関係」の観点から、適切かどうかを判断し、理由を述べよ。

① アイスクリームの売上が増えると、水難事故が増える。よって、アイスクリームの販売を規制すれば水難事故を減らせる。

② ある地域で、消防士の数が多いほど火災による被害額が大きい。よって、消防士を減らせば被害額が減る。

③ 勉強時間が長い生徒ほど、テストの点数が高い傾向がある。よって、勉強時間を増やせば点数が上がる可能性がある。

④ テレビの視聴時間が長い子供ほど、視力が悪い傾向がある。よって、テレビが視力低下の唯一の原因である。

【考え方】

相関関係は「2つの変数が連動して変化する関係」を示すだけで、「一方が他方の原因である」という因果関係を必ずしも意味しません。相関があっても、以下の可能性を考慮する必要があります:

  • 第三の変数(交絡因子)の存在
  • 逆の因果関係
  • 偶然の一致

【解法】

① 不適切

アイスクリームの売上と水難事故には相関があるが、因果関係はない。両方とも「気温が高い(夏である)」という第三の変数の影響を受けている。これを疑似相関という。

② 不適切

消防士の数と被害額に相関があるのは、「火災の規模が大きい」という第三の変数があるため。大規模火災には多くの消防士が出動し、被害額も大きくなる。因果関係は逆で、消防士を減らせば被害額はむしろ増える。

③ 概ね適切(ただし注意が必要)

勉強時間とテストの点数には相関があり、因果関係がある可能性も高い。ただし「勉強の質」や「理解力」など他の要因もあるため、「勉強時間を増やせば必ず点数が上がる」とは限らない。

④ 不適切

テレビ視聴時間と視力低下に相関があっても、「唯一の原因」とは言えない。読書、ゲーム、照明環境、遺伝的要因など、他の原因も考えられる。

【答】

① 不適切(疑似相関、第三の変数「気温」の影響)

② 不適切(因果の方向が逆、第三の変数「火災規模」の影響)

③ 概ね適切(ただし他の要因も考慮が必要)

④ 不適切(「唯一の原因」とは言えない)


発展・入試レベル問題 10問(全問解説付き)

【発展問題1】2つのグループの平均と分散の統合

【問題】

グループAは10人で平均点が60点、分散が100。グループBは15人で平均点が70点、分散が64。この25人全体の平均点と分散を求めよ。

【考え方】

全体の平均は加重平均で求められます。全体の分散は、「グループ内の分散」と「グループ間の分散」の両方を考慮する必要があります。

【解法】

【全体の平均】

全体の平均 = (nA × x̄A + nB × x̄B) / (nA + nB)

= (10 × 60 + 15 × 70) / (10 + 15)

= (600 + 1050) / 25

= 1650 / 25 = 66

【全体の分散】

公式:全体の分散 = (nA(sA² + dA²) + nB(sB² + dB²)) / (nA + nB)

ここで、dA = x̄A - 全体平均、dB = x̄B - 全体平均

dA = 60 - 66 = -6、dB = 70 - 66 = 4

全体の分散 = (10 × (100 + 36) + 15 × (64 + 16)) / 25

= (10 × 136 + 15 × 80) / 25

= (1360 + 1200) / 25

= 2560 / 25 = 102.4

【答】全体の平均点:66点、全体の分散:102.4

【発展問題2】相関係数と回帰直線の関係

【問題】

xとyの相関係数が0.8、xの標準偏差が5、yの標準偏差が10であるとき、yをxで予測する回帰直線の傾きを求めよ。

【考え方】

回帰直線の傾き a = sxy / sx² であり、相関係数 r = sxy / (sx × sy) の関係を利用します。

【解法】

相関係数の定義より:

r = sxy / (sx × sy)

0.8 = sxy / (5 × 10)

sxy = 0.8 × 50 = 40

回帰直線の傾き:

a = sxy / sx² = 40 / 5² = 40 / 25 = 1.6

【別解】

傾き a = r × (sy / sx) = 0.8 × (10 / 5) = 0.8 × 2 = 1.6

【答】1.6

【発展問題3】データの追加と統計量の変化

【問題】

4個のデータ 2, 4, 6, 8 がある。このデータに新たに1個のデータxを追加したとき、5個のデータの平均値と中央値が等しくなった。xの値を求めよ。

【考え方】

xの値によって、データを並べたときの位置が変わります。xの範囲で場合分けして考えます。

【解法】

元のデータの合計 = 2 + 4 + 6 + 8 = 20

5個のデータの平均 = (20 + x) / 5

5個のデータの中央値は3番目の値。xの値によって場合分け:

【場合1】x ≤ 2 のとき

並び順:x, 2, 4, 6, 8 → 中央値 = 4

平均 = 中央値 より (20 + x) / 5 = 4

20 + x = 20、x = 0

x = 0 ≤ 2 を満たすので、x = 0 は解。

【場合2】2 < x ≤ 4 のとき

並び順:2, x, 4, 6, 8 → 中央値 = 4

(20 + x) / 5 = 4 より x = 0

しかし x = 0 は 2 < x ≤ 4 を満たさない。解なし。

【場合3】4 < x ≤ 6 のとき

並び順:2, 4, x, 6, 8 → 中央値 = x

(20 + x) / 5 = x

20 + x = 5x

20 = 4x、x = 5

x = 5 は 4 < x ≤ 6 を満たすので、x = 5 は解。

【場合4】6 < x ≤ 8 のとき

並び順:2, 4, 6, x, 8 → 中央値 = 6

(20 + x) / 5 = 6 より x = 10

しかし x = 10 は 6 < x ≤ 8 を満たさない。解なし。

【場合5】x > 8 のとき

並び順:2, 4, 6, 8, x → 中央値 = 6

(20 + x) / 5 = 6 より x = 10

x = 10 > 8 を満たすので、x = 10 は解。

【答】x = 0, 5, 10

【発展問題4】分散の性質を利用した問題

【問題】

n個のデータ x₁, x₂, ..., xₙ の平均が m、分散が s² であるとき、各データから定数 a を引いた新しいデータ (x₁-a), (x₂-a), ..., (xₙ-a) について、Σ(xᵢ-a)² を最小にする a の値と、そのときの最小値を求めよ。

【考え方】

Σ(xᵢ-a)² を a の関数と見て、微分して最小値を求めるか、または分散の定義を利用して式変形します。

【解法】

f(a) = Σ(xᵢ-a)² とおく。

f(a) = Σ(xᵢ² - 2axᵢ + a²)

= Σxᵢ² - 2aΣxᵢ + na²

= Σxᵢ² - 2a・nm + na² (∵ Σxᵢ = nm)

= n(a² - 2ma + Σxᵢ²/n)

= n{(a - m)² - m² + Σxᵢ²/n}

= n(a - m)² + n(Σxᵢ²/n - m²)

= n(a - m)² + ns² (∵ 分散 s² = Σxᵢ²/n - m²)

n > 0 より、f(a) は a = m のとき最小値 ns² をとる。

【答】a = m(平均値)のとき最小値 ns²

【発展問題5】相関係数の範囲の証明問題

【問題】

xとyの相関係数を r、xとzの相関係数を 0.6、yとzの相関係数を 0.8 とする。rのとりうる値の範囲を求めよ。

【考え方】

相関行列は半正定値でなければならないという性質を利用します。3×3の相関行列の行列式が非負であることから、rの範囲が導かれます。

【解法】

相関行列 R は:

R = | 1 r 0.6 |

  | r 1 0.8 |

  | 0.6 0.8 1 |

相関行列は半正定値なので、det(R) ≥ 0

det(R) = 1・(1 - 0.64) - r・(r - 0.48) + 0.6・(0.8r - 0.6)

= 0.36 - r² + 0.48r + 0.48r - 0.36

= -r² + 0.96r

= -r(r - 0.96)

det(R) ≥ 0 より

-r(r - 0.96) ≥ 0

r(r - 0.96) ≤ 0

0 ≤ r ≤ 0.96

また、相関係数の定義より -1 ≤ r ≤ 1 も満たす必要があるが、上の条件の方が厳しい。

【答】0 ≤ r ≤ 0.96

【発展問題6】層別データの分析

【問題】

ある高校で、1年生と2年生の数学のテスト結果が以下のようになった。

1年生 2年生
人数 200人 100人
平均点 55点 70点
標準偏差 15点 10点

学年全体(300人)の平均点と標準偏差を求めよ。

【考え方】

全体の平均は加重平均で求めます。全体の分散は、「級内分散」と「級間分散」を合成して求めます。

【解法】

【全体の平均】

全体平均 = (200×55 + 100×70) / 300

= (11000 + 7000) / 300

= 18000 / 300 = 60点

【全体の分散】

1年生の分散 = 15² = 225

2年生の分散 = 10² = 100

各群の平均と全体平均の差:

d₁ = 55 - 60 = -5

d₂ = 70 - 60 = 10

全体の分散 = (n₁(s₁² + d₁²) + n₂(s₂² + d₂²)) / (n₁ + n₂)

= (200×(225 + 25) + 100×(100 + 100)) / 300

= (200×250 + 100×200) / 300

= (50000 + 20000) / 300

= 70000 / 300 = 700/3 ≈ 233.33

【全体の標準偏差】

標準偏差 = √(700/3) = √700/√3 = 10√7/√3 = 10√21/3 ≈ 15.28点

【答】平均点:60点、標準偏差:10√21/3 点(約15.28点)

【発展問題7】偏差値の計算と比較

【問題】

A君は数学のテストで80点、B君は英語のテストで75点を取った。各テストの統計は以下の通りである。どちらが相対的に成績が良いか、偏差値を用いて判断せよ。

数学 英語
平均点 65点 60点
標準偏差 12点 8点

【考え方】

偏差値は「50 + 10 × z得点」で計算します。z得点は「(得点 - 平均) / 標準偏差」です。

【解法】

【A君の偏差値(数学)】

z得点 = (80 - 65) / 12 = 15 / 12 = 1.25

偏差値 = 50 + 10 × 1.25 = 50 + 12.5 = 62.5

【B君の偏差値(英語)】

z得点 = (75 - 60) / 8 = 15 / 8 = 1.875

偏差値 = 50 + 10 × 1.875 = 50 + 18.75 = 68.75

【比較】

B君(68.75)> A君(62.5)

【答】B君の方が相対的に成績が良い(A君の偏差値62.5、B君の偏差値68.75)

【発展問題8】ヒストグラムの比較分析

【問題】

次の2つのヒストグラム(度数分布表で表現)について、それぞれの特徴を述べ、平均値と中央値の大小関係を推測せよ。

【データA】

階級 0-20 20-40 40-60 60-80 80-100
度数 5 10 30 10 5

【データB】

階級 0-20 20-40 40-60 60-80 80-100
度数 25 15 10 5 5

【考え方】

ヒストグラムの形状(左右対称、右に裾が長い、左に裾が長いなど)から、平均値と中央値の関係を推測します。

【解法】

【データAの特徴】

・中央(40-60)に最も多くのデータが集中

・左右対称に近い形状

・このような分布では、平均値 ≈ 中央値 となる

【確認計算】

平均値 = (10×5 + 30×10 + 50×30 + 70×10 + 90×5) / 60

= (50 + 300 + 1500 + 700 + 450) / 60 = 3000 / 60 = 50

累積度数より、中央値は30番目と31番目の値の間で、40-60階級に含まれる → 中央値 ≈ 50

【データBの特徴】

・左側(低い値)に多くのデータが集中

・右に裾が長い分布(右に歪んだ分布)

・このような分布では、平均値 > 中央値 となる

【確認計算】

平均値 = (10×25 + 30×15 + 50×10 + 70×5 + 90×5) / 60

= (250 + 450 + 500 + 350 + 450) / 60 = 2000 / 60 ≈ 33.3

累積度数より、中央値は30番目と31番目の値で

【発展問題8】ヒストグラムの比較分析(続き)

累積度数より、30番目と31番目の値は20-40階級に含まれる → 中央値 ≈ 30

よって、データBでは 平均値(約33.3)> 中央値(約30)

【答】

データA:左右対称に近い分布。平均値 ≈ 中央値 ≈ 50

データB:右に裾が長い分布(右に歪んだ分布)。平均値 > 中央値(平均値約33.3、中央値約30)

【発展問題9】複合的なデータ分析

【問題】

ある会社の社員20人の月収(万円)のデータが以下の通りである。

25, 28, 30, 30, 32, 35, 35, 35, 38, 40, 42, 45, 45, 48, 50, 55, 60, 65, 80, 120

(1)平均値、中央値、最頻値を求めよ。

(2)第1四分位数、第3四分位数、四分位範囲を求めよ。

(3)このデータの特徴を述べ、代表値としてどれを使うべきか理由とともに答えよ。

【考え方】

給与データには高額所得者という外れ値が含まれることが多いです。各代表値の特性を理解し、適切な代表値を選択します。

【解法】

(1)平均値、中央値、最頻値

【平均値】

合計 = 25+28+30+30+32+35+35+35+38+40+42+45+45+48+50+55+60+65+80+120

= 933

平均値 = 933 / 20 = 46.65万円

【中央値】

データ数20個(偶数)なので、10番目と11番目の平均

10番目:40、11番目:42

中央値 = (40 + 42) / 2 = 41万円

【最頻値】

各値の出現回数:35が3回で最多

最頻値 = 35万円

(2)四分位数

【第1四分位数 Q₁】

下位10個のデータ:25, 28, 30, 30, 32, 35, 35, 35, 38, 40

その中央値 = (32 + 35) / 2 = 33.5万円

【第3四分位数 Q₃】

上位10個のデータ:42, 45, 45, 48, 50, 55, 60, 65, 80, 120

その中央値 = (50 + 55) / 2 = 52.5万円

【四分位範囲】

IQR = Q₃ - Q₁ = 52.5 - 33.5 = 19万円

(3)データの特徴と適切な代表値

【データの特徴】

・80万円、120万円という高額所得者(外れ値)が存在

・分布は右に裾が長い(右に歪んでいる)

・平均値(46.65万円)> 中央値(41万円)> 最頻値(35万円)

【適切な代表値】

このデータでは中央値(41万円)を代表値として使うべきである。

理由:

・平均値は外れ値(120万円など)に引き上げられており、「典型的な社員の月収」を表していない

・中央値は外れ値の影響を受けにくく、「真ん中の社員の月収」を適切に表している

・最頻値も参考になるが、分布の中心を表すには中央値がより適切

【答】

(1)平均値:46.65万円、中央値:41万円、最頻値:35万円

(2)Q₁=33.5万円、Q₃=52.5万円、四分位範囲=19万円

(3)外れ値が存在し右に歪んだ分布のため、外れ値の影響を受けにくい中央値(41万円)を代表値として使うべき

【発展問題10】総合問題:プログラミングとデータ分析

【問題】

次のPythonプログラムは、データの統計量を計算するものである。空欄(ア)〜(オ)に入る適切なコードを答えよ。

data = [10, 20, 30, 40, 50]

# 平均値の計算
n = len(data)
total = sum(data)
mean = (ア)

# 分散の計算
squared_diff_sum = 0
for x in data:
    squared_diff_sum += (イ)

variance = squared_diff_sum / n

# 標準偏差の計算
import math
std_dev = (ウ)

# 別の方法で分散を計算
squared_sum = 0
for x in data:
    squared_sum += x ** 2
variance2 = (エ)

# データの標準化
standardized = []
for x in data:
    z = (オ)
    standardized.append(z)

print(f"平均: {mean}, 分散: {variance}, 標準偏差: {std_dev}")
print(f"標準化後: {standardized}")

【考え方】

統計の公式をプログラムコードに変換します。

  • 平均値 = 合計 / データ数
  • 分散 = 偏差の2乗の平均 = x²の平均 - (平均)²
  • 標準偏差 = √分散
  • 標準化 = (x - 平均) / 標準偏差

【解法】

(ア)平均値の計算

平均 = 合計 / データ数 なので

total / n

(イ)偏差の2乗

各データと平均の差の2乗を足し合わせるので

(x - mean) ** 2

(ウ)標準偏差

分散の平方根なので

math.sqrt(variance)

(エ)別の方法での分散

x²の平均 - (平均)² なので

squared_sum / n - mean ** 2

(オ)標準化

(x - 平均) / 標準偏差 なので

(x - mean) / std_dev

【答】

(ア)total / n

(イ)(x - mean) ** 2

(ウ)math.sqrt(variance)

(エ)squared_sum / n - mean ** 2

(オ)(x - mean) / std_dev


よくある間違いと完全対策

間違い1:分散と標準偏差の混同

【よくある間違い】

「標準偏差を求めよ」という問題で、分散の値をそのまま答えてしまう。

【対策】

  • 分散:偏差の2乗の平均。単位は元のデータの2乗(例:点²、cm²)
  • 標準偏差:分散の正の平方根。単位は元のデータと同じ(例:点、cm)
  • 問題文を注意深く読み、どちらを求めているか確認する
  • 答えの単位を確認することで間違いに気づける

間違い2:中央値の求め方のミス

【よくある間違い】

  • データを並べ替えずに中央値を求める
  • データ数が偶数のとき、中央の2つの平均を取らずに片方だけを答える

【対策】

  • 必ず最初にデータを大きさ順に並べ替える
  • データ数が奇数か偶数か確認する
  • 偶数の場合は必ず2つの値の平均を計算する

【確認の手順】

  1. データを昇順(小→大)に並べる
  2. データ数nを数える
  3. nが奇数 → (n+1)/2 番目の値
  4. nが偶数 → n/2番目と(n/2)+1番目の平均

間違い3:相関係数の解釈ミス

【よくある間違い】

  • 相関係数が0.5だから「半分くらい関係がある」と解釈する
  • 相関関係があれば因果関係もあると考える
  • 負の相関を「関係がない」と誤解する

【対策】

  • 相関係数の絶対値で相関の強さを判断する(|r|≥0.7で強い相関)
  • 相関係数の符号で相関の方向を判断する(正:正の相関、負:負の相関)
  • 相関≠因果を常に意識する
  • 第三の変数(交絡因子)の存在を考慮する

【相関係数の目安】

|r|の値 相関の強さ
0.7〜1.0 強い相関
0.4〜0.7 中程度の相関
0.2〜0.4 弱い相関
0〜0.2 ほとんど相関なし

間違い4:分散の計算公式の使い間違い

【よくある間違い】

  • 「x²の平均 - (平均)²」を「(x²の平均 - 平均)²」と計算してしまう
  • 「Σ(x-平均)²/n」で、2乗する前に合計してしまう

【対策】

分散の計算公式(2通り)を正確に覚える:

  1. 定義式:s² = Σ(xᵢ - x̄)² / n
    「各データから平均を引いて、2乗して、すべて足して、nで割る」
  2. 計算式:s² = (Σxᵢ²/n) - x̄²
    「x²の平均を求めて、平均の2乗を引く」

計算式の方が計算ミスが少なくおすすめ!

間違い5:データ変換後の統計量の計算ミス

【よくある間違い】

  • 「y = 2x + 3」と変換したとき、分散も「2倍して3を足す」と計算してしまう
  • 標準偏差の変換で負の係数のとき、絶対値を取り忘れる

【対策】

y = ax + b の変換のとき:

  • 平均:ȳ = ax̄ + b(aもbも影響する)
  • 分散:sy² = a²sx²(a²だけ影響、bは影響しない)
  • 標準偏差:sy = |a|sx(|a|だけ影響、bは影響しない)

覚え方:「加える・引く」は散らばりに影響しない。「掛ける・割る」だけが散らばりに影響する。

間違い6:四分位数の求め方の混乱

【よくある間違い】

  • 中央値を含めて下半分・上半分を分けてしまう
  • 四分位数の定義が教科書によって異なることを知らない

【対策】

共通テストで使われる方法(四分位数の求め方):

  1. データを昇順に並べる
  2. 中央値Q₂を求める
  3. 中央値より小さい値のグループの中央値がQ₁
  4. 中央値より大きい値のグループの中央値がQ₃
  5. データ数が奇数の場合、中央値自体はどちらのグループにも含めない

間違い7:箱ひげ図の読み取りミス

【よくある間違い】

  • 箱の中央の線を「平均値」と誤解する
  • 箱の幅を「範囲」と誤解する
  • 「箱の中に50%のデータがある」→「箱の真ん中に25%いる」と誤解する

【対策】

箱ひげ図の正しい読み方:

  • 箱の中央の線 = 中央値(平均値ではない!)
  • 箱の幅 = 四分位範囲(IQR = Q₃ - Q₁)
  • ひげの端から端 = 範囲(最大値 - 最小値)
  • 箱の中には全データの50%が含まれる
  • 箱の左側と右側には、それぞれ25%ずつが含まれる

間違い8:回帰直線の解釈ミス

【よくある間違い】

  • 回帰直線の傾きと相関係数を混同する
  • 「yからxを予測する回帰直線」と「xからyを予測する回帰直線」を同じものと考える
  • 回帰直線の範囲外で予測してしまう(外挿の危険性)

【対策】

  • 回帰直線の傾き = sxy / sx²(共分散 / xの分散)
  • 相関係数 = sxy / (sx × sy)
  • 傾き = r × (sy / sx) という関係がある
  • yをxで予測する直線と、xをyで予測する直線は異なる
  • 回帰直線は必ず点(x̄, ȳ)を通る
  • データの範囲外での予測(外挿)は信頼性が低い

共通テスト・大学入試での出題傾向

共通テスト「情報I」の出題傾向

【2025年度共通テストの特徴】

  • 配点:100点満点中、データ分析・統計分野は約20〜30点程度
  • 出題形式:計算問題だけでなく、グラフの読み取り・解釈問題が多い
  • 特徴的な出題:プログラミング(Python)と統計を組み合わせた問題

【頻出テーマランキング】

順位 テーマ 出題頻度 難易度
1位 代表値(平均値・中央値・最頻値)の計算と比較 ★★★★★ 基礎〜標準
2位 分散・標準偏差の計算 ★★★★★ 基礎〜標準
3位 箱ひげ図の読み取り・作成 ★★★★☆ 基礎〜標準
4位 散布図と相関係数 ★★★★☆ 標準
5位 ヒストグラム・度数分布表の分析 ★★★★☆ 基礎〜標準
6位 相関と因果の区別 ★★★☆☆ 標準〜発展
7位 データの変換(標準化含む) ★★★☆☆ 標準
8位 回帰直線 ★★☆☆☆ 標準〜発展
9位 プログラムによるデータ処理 ★★★★☆ 標準〜発展
10位 外れ値の検出と影響 ★★☆☆☆ 標準

【出題パターン別対策】

パターン1:計算問題

特徴:平均・分散・標準偏差・相関係数などの計算を直接問う

対策

  • 計算公式を正確に暗記する
  • 計算の簡略化テクニック(仮平均の利用など)を身につける
  • 電卓が使えないので、計算ミスを防ぐ練習をする
パターン2:グラフ読み取り問題

特徴:ヒストグラム、箱ひげ図、散布図から情報を読み取る

対策

  • 各グラフの要素(軸、目盛り、凡例など)を正確に読む習慣をつける
  • グラフから読み取れること・読み取れないことを区別する
  • 複数のグラフを比較する問題に慣れる
パターン3:解釈・判断問題

特徴:統計結果から適切な結論を導く、誤った解釈を見抜く

対策

  • 相関と因果の違いを理解する
  • 外れ値の影響を考慮する
  • 適切な代表値の選択ができるようにする
  • 「言い過ぎ」な選択肢を
    パターン3:解釈・判断問題(続き)
    • 「言い過ぎ」な選択肢を見抜く力をつける
    • 統計的な主張の妥当性を批判的に評価する
    パターン4:プログラミング連携問題

    特徴:Pythonなどのコードを読み、統計処理の結果を予測する

    対策

    • 基本的なPython文法(for文、リスト、関数など)を理解する
    • 統計計算をプログラムに落とし込む方法を理解する
    • コードの空欄補充問題に慣れる
    • sum()、len()、sorted()などの基本関数を覚える

    【試験別の傾向と対策】

    共通テスト「情報I」

    傾向

    • 実生活に即したデータを用いた問題が多い
    • 複数の統計量を組み合わせて判断する問題
    • プログラミング(Python)との融合問題
    • グラフの読み取りと解釈を重視

    時間配分の目安

    • 情報I全体で60分、データ分析分野には約15〜20分を目安に
    • 計算問題は素早く、解釈問題は慎重に
    数学I・A(データの分析)との関連

    共通点

    • 平均、分散、標準偏差、相関係数の計算方法は同じ
    • 箱ひげ図、ヒストグラムの読み取りも同様

    相違点

    • 情報Iではプログラミングとの連携がある
    • 情報Iではより実践的なデータ活用が問われる
    • 情報Iではデータの収集・整理・可視化の過程も出題される

    学習のポイント

    数学I・Aの「データの分析」と情報Iの「データ分析」は相互に補完し合うので、両方を並行して学習すると効率的!

    【年度別出題分析と予想】

    2025年度(初年度)の予想
    • 基本的な計算問題が中心(平均、分散、相関係数)
    • 箱ひげ図・ヒストグラムの読み取り
    • 散布図からの相関の判断
    • 簡単なPythonコードの読解
    • 相関と因果の区別を問う問題
    2026年度以降の予想
    • より実践的なデータ分析シナリオ
    • 複数のデータセットの比較分析
    • より複雑なプログラミング問題
    • データの信頼性・妥当性の評価
    • 外れ値処理や欠損値の扱い

    【配点と時間配分の戦略】

    分野 予想配点 目標時間 優先度
    代表値・散らばりの計算 8〜12点 5〜7分 最優先(確実に取る)
    グラフの読み取り 6〜10点 4〜6分 高(比較的取りやすい)
    相関・回帰 6〜10点 5〜7分
    解釈・判断問題 4〜8点 3〜5分 中(慎重に)
    プログラミング連携 6〜10点 5〜8分 中〜高

    藤原進之介おすすめ勉強法と参考書

    効率的な学習ステップ

    【ステップ1】基本概念の理解(1〜2週間)

    • 平均値、中央値、最頻値の定義と使い分けを理解
    • 分散、標準偏差の意味と計算方法を習得
    • 相関係数の意味と計算方法を習得
    • この記事の「基本概念と重要公式」を完璧にする

    【ステップ2】計算練習(2〜3週間)

    • 基礎問題を繰り返し解いて計算力をつける
    • 公式を見ないで解けるようになるまで練習
    • 計算ミスをしやすいポイントを把握する
    • 仮平均などの計算テクニックを身につける

    【ステップ3】応用力の養成(2〜3週間)

    • 標準問題、発展問題に挑戦
    • グラフの読み取り問題を多く解く
    • 相関と因果の区別など、解釈問題に取り組む
    • プログラミングとの連携問題に慣れる

    【ステップ4】実戦演習(試験直前2〜3週間)

    • 過去問・予想問題で時間を計って演習
    • 間違えた問題の復習を徹底
    • よくある間違いパターンを確認
    • 本番と同じ条件で模擬試験を実施

    分野別学習のコツ

    【代表値の学習】

    • 3つの代表値(平均値・中央値・最頻値)の特徴と使い分けを理解する
    • 外れ値がある場合、どの代表値が適切かを判断できるようにする
    • 実際のデータ(ニュースの統計など)で代表値の使い分けを考える習慣をつける

    【分散・標準偏差の学習】

    • 定義式と計算式の両方を覚える
    • 計算式「x²の平均 - (平均)²」を使いこなす
    • データ変換時の分散・標準偏差の変化を理解する
    • 標準化(z得点)の意味と計算を習得する

    【相関・回帰の学習】

    • 散布図を見て相関の有無・方向・強さを判断する練習
    • 相関係数の計算手順を確実にする
    • 相関≠因果を常に意識する
    • 回帰直線の傾きと相関係数の関係を理解する

    【グラフの学習】

    • ヒストグラム、箱ひげ図、散布図の読み取り練習
    • 複数のグラフを比較する問題に慣れる
    • グラフから読み取れること・読み取れないことを区別する
    • 自分でグラフを描く練習も効果的

    おすすめ参考書・問題集

    【基礎固め用】

    1. 『高校の情報Iが1冊でしっかりわかる本』(かんき出版)

      → 情報I全体の基礎を固めるのに最適。図解が多くわかりやすい。

    2. 『情報I 共通テスト対策 はじめの一歩』(KADOKAWA)

      → 共通テスト形式に沿った基礎学習ができる。

    3. 『やさしい高校数学(数学I・A)』(学研)

      → データの分析分野の基礎を数学の観点から学べる。

    【標準〜発展用】

    1. 『大学入学共通テスト 情報I 予想問題集』(各出版社)

      → 本番形式の演習に最適。複数社の予想問題を解くとよい。

    2. 『情報I 共通テスト対策問題集』(数研出版)

      → 基礎から応用まで段階的に学べる。

    3. 『統計学入門』(東京大学出版会)

      → より深く統計を学びたい人向け。大学レベルの内容も含む。

    【プログラミング連携用】

    1. 『Pythonで学ぶ統計学の教科書』(翔泳社)

      → Pythonを使った統計処理の基礎を学べる。

    2. 『情報I Python完全攻略』

      → 共通テストで出題されるPythonの基礎を網羅。

    効果的な暗記法

    【公式暗記のコツ】

    1. 分散の公式

    2乗の平均 マイナス 平均の2乗」と呪文のように覚える

    s² = (x²の平均) - (x̄)²

    2. 相関係数の公式

    共分散を標準偏差の積で割る

    r = sxy / (sx × sy)

    3. 回帰直線の傾き

    共分散をxの分散で割る」または「r × sy / sx

    4. データ変換 y = ax + b のとき

    平均はそのまま変換、標準偏差はaの絶対値だけ

    • 平均:ȳ = ax̄ + b
    • 標準偏差:sy = |a| × sx

    よくある質問(FAQ)

    Q1: 数学I・Aのデータの分析と情報Iのデータ分析、どちらを先に勉強すべき?

    A: どちらから始めても構いませんが、数学I・Aの方が計算に重点を置いているので、計算力をつけたい場合は数学I・Aから始めるとよいでしょう。両方を並行して学ぶのが最も効率的です。

    Q2: 相関係数の計算が複雑で時間がかかります。何かコツはありますか?

    A: 以下の手順を定型化すると効率的です:
    ① まず平均x̄、ȳを計算
    ② xy、x²、y²の値を表にまとめる
    ③ それぞれの平均を計算
    ④ 共分散 = xyの平均 - x̄ȳ
    ⑤ 分散 = x²の平均 - x̄²(yも同様)
    ⑥ 相関係数 = 共分散 / (√xの分散 × √yの分散)

    Q3: プログラミングが苦手ですが、データ分析の問題は解けますか?

    A: プログラミングの知識がなくても、統計の計算問題やグラフ読み取り問題は解けます。ただし、共通テストではPythonとの連携問題も出題されるので、基本的なコードの読解力は身につけておきましょう。

    Q4: 箱ひげ図と平均値の関係がわかりません。

    A: 箱ひげ図からは平均値を直接読み取ることはできません。箱ひげ図で表されるのは、最小値、Q1、中央値、Q3、最大値の5つです。平均値は別途計算が必要です。

    Q5: 本番で計算ミスを防ぐコツは?

    A: ① 計算過程を丁寧に書く、② 検算の時間を確保する、③ 概算で答えの妥当性を確認する、④ 単位に注目する、の4点を心がけてください。


    日本数学塾・数強塾でさらに実力アップ

    🎯 藤原進之介が指導する数学専門塾

    この記事を読んで「もっと詳しく学びたい」「個別に指導を受けたい」と思った方は、ぜひ日本数学塾または数強塾の無料体験をお試しください。

    【日本数学塾の特徴】

    • プロ講師による完全個別指導:一人ひとりの理解度に合わせた指導
    • 数学・情報I専門:データ分析・統計分野も徹底対策
    • オンライン対応:全国どこからでも受講可能
    • 共通テスト対策:最新の出題傾向に対応した指導

    日本数学塾 公式サイトはこちら

    【数強塾の特徴】

    • 苦手克服に特化:つまずきポイントを徹底分析
    • 段階的なカリキュラム:基礎から応用まで無理なくステップアップ
    • 豊富な演習問題:実戦力を養う問題演習
    • 質問し放題:わからないところはすぐに解決

    数強塾 公式サイトはこちら

    📚 藤原進之介の著書9冊のご紹介

    私、藤原進之介はこれまでに9冊の著書を出版しています。数学の基礎から入試対策まで、幅広いニーズに対応した内容となっています。

    【主な著書】

    1. 『数学の基礎が身につく本』

      中学・高校数学の基礎を丁寧に解説。苦手意識のある方におすすめ。

    2. 『共通テスト数学 満点への道』

      共通テスト数学I・A、II・Bの完全攻略本。

    3. 『データの分析 完全マスター』

      統計分野に特化した一冊。情報Iの学習にも最適。

    4. 『計算力を鍛える数学ドリル』

      計算ミスをなくすための徹底トレーニング。

    5. 『数学的思考力の育て方』

      問題解決能力を高めるための思考法を解説。

    6. 『図形問題の解き方大全』

      苦手な人が多い図形問題を完全攻略。

    7. 『関数・グラフ徹底攻略』

      関数の本質を理解し、グラフ問題に強くなる。

    8. 『確率・統計入門』

      確率と統計の基礎を一から学べる入門書。

    9. 『大学入試数学 最重要問題100』

      入試頻出問題を厳選。効率的な入試対策に。

    各書籍は全国の書店、Amazon等のオンラインストアでお求めいただけます。

    🆓 無料体験のご案内

    今なら無料体験授業を実施中!

    「情報Iのデータ分析が苦手...」「統計の計算でいつも間違える...」「共通テストで高得点を取りたい!」

    そんな悩みをお持ちの方は、ぜひ無料体験授業にお申し込みください。

    【無料体験の内容】

    • 60分の個別指導体験
    • 現在の学力診断
    • 最適な学習プランのご提案
    • 入試情報・勉強法のアドバイス

    【お申し込み方法】

    1. 日本数学塾または数強塾の公式サイトにアクセス
    2. 「無料体験」ボタンをクリック
    3. 必要事項を入力して送信
    4. 担当者からご連絡いたします

    お気軽にお問い合わせください!
    一緒に「情報I」を得意科目にしましょう!


    まとめ

    この記事では、情報Iのデータ分析・統計分野について、基礎から入試レベルまで完全解説しました。

    【この記事のポイント】

    • 基本概念:平均値・中央値・最頻値、分散・標準偏差、相関係数などの定義と計算方法
    • 基礎問題10問:計算力の基礎を固める問題
    • 標準問題10問:入試頻出パターンを網羅
    • 発展問題10問:実戦力を養う応用問題
    • よくある間違い:8つの典型的なミスとその対策
    • 出題傾向:共通テスト・大学入試の傾向と対策
    • 勉強法:効率的な学習ステップとおすすめ参考書

    【最後に】

    データ分析・統計は、正しい理解と十分な練習があれば、必ず得点源にできる分野です。

    この記事で紹介した30問の問題を何度も解き直し、公式と解法パターンを完璧にマスターしてください。そうすれば、共通テストで高得点を取ることは十分可能です。

    もし学習でつまずいたり、より効率的に学びたい場合は、日本数学塾数強塾での個別指導をご検討ください。

    皆さんの合格を心より応援しています!
    ― 藤原進之介 ―

```

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です