SSブログ

#3020 分散と平均値の問題 : 「初等統計学のススメ」 Apr. 9. 2015 [52. 数学]

 8日から新学期が始まり、明後日金曜日にテストがあるようだ。新入生は数学のクラス分けテストになる。根室高校普通科120名(定員割れで今年の新入生は97名だったかな)は「お迎えテスト」の結果で4段階のクラスに選別される。上から、γ(ガンマ)クラス、β1(ベータワン)クラス、β2(ベータツー)クラス、α(アルファ)クラスである。一番下のαから一番上のγクラスへ階段を昇る人は、年に1人いるかどうかだ。ニムオロ塾の生徒は大半がγクラスだったが、このごろそうではない生徒がいるようになった。数学が苦手な生徒も塾で勉強しているということ(笑)。中学校の文協学力テストで400点を越える生徒が10年前に比べて5分の1以下に激減しているから、高校生の学力が低下してきていることも事実である。学力下位層は一生懸命に勉強した経験のない生徒が多く含まれているから、がんばれない生徒が増えていると言った方が適切かもしれない。勉強でがんばった経験が乏しい生徒が増えているのである、塾で教えるのもむずかしい時代になった。しばしば躾からやらなければならない。
 数学が苦手な生徒でも、ebisu(に限らず他の塾でも)先生の言うとおりに勉強してくれたら、αからγクラスへの階段を昇るのはそんなにむずかしいことではない、自分のやり方を棄てて、指導どおりに一生懸命にやればαでも半分の生徒はγクラスのメンバーになれるだろう。この記事でもわかるが、つねに基本へ立ち返り、根っこのところまで理解できるような指導をしている、世の中にそういう先生は少なくないはずで、基本をおろそかにしない学習スタイルが自然に応用力を育んでくれる。

 さて、本題に移ろう。高2の生徒から数Ⅰ「データ分析」の章の問題の質問が出た。解答を見てもなぜそういう式になるのかわからなかったというのである。理由は後で明らかになる、無理もなかった。
 問題文を見てもらいたい、教科書準拠問題集「3TRIAL数Ⅰ+A」の問題283である。

------------------------------------------------------
<283>  15個の値からなるデータがあり、そのうちの10個の値の平均値は9、分散は3、残り5個の平均値は6、分散は9である。
(1)このデータの平均値を求めよ
(2)このデータ全体の分散を求めよ
------------------------------------------------------

 1番目は、データの個数と平均値を掛けて合計をそれぞれ出し、総合計を総データ数で割ればいいだけだから、首都圏の市立中学受験のできの良いほうの生徒なら全員が正解できるレベルの問題である。だが、2番目はそうはいかない、「分散と平均値の関係式」を使うことになるので理解がちょっとやっかい、関係式がなぜ成り立つのかの説明は教科書にも準拠問題集にも載っていない。自力で考えるということのようだ。その関係式は準拠問題集の同じページの上の段に次のように書かれているのみで解説はナシ。

分散と平均値の関係式
 (xのデータの分散)=(x^2のデータの平均値)-(xのデータの平均値)^2

 この式がなぜ成り立つのか、高2・4月の段階で意味のわかる生徒はほとんどいない、高1の範囲ではこの関係式を証明するのははなはだ困難であるから無理もない。具体的な事例で、帰納的に説明するしかない。
 EXCELを使わないと計算を間違えて、仮設例を簡単にしたつもりでも手計算でやると答えが関係式と一致しない。6データの仮設例を使って簡単化してやってみたが、案の定、計算が合わなかった。ところが∑記号を使って一般式で説明すると実に手際がよくて簡単なのである。
 統計学の専門書ではこういう問題は採録していない、不要だからだ。数学の問題としてはありうるが、統計処理の実務でこういう事例が出てくることは考えられない。

 仮設例: 1、3、5、8、13の5データを前三つと後ろ二つに分けて計算してみた。

 どこかで計算間違いをしたのか数字が合わなくて、検証できなかった。EXCELを使って検証したから、あとでアップする。
 授業中に簡単な仮設例での帰納的解説が破綻したので、結局、この式の演繹的証明をする羽目になった。理解するのは無理だなと思いながらの解説はどこか迫力がないものである。申し訳ないと重いながら∑記号中心の数式を書き連ねる。∑記号は数B の「第4章 確率分布と統計的な推測」のところと数Ⅱの積分で出てくるから、まだ習っていない。どこの学校でもそうかもしれないが、数Bは(根室高校では)数列までしか教えないから、「確率分布と統計的推測」の章は習わない。
(正規分布や推測統計学の基本概念は文科系の大学でも教養課程で授業があるから、この章はぜひ高校でやっておいてもらいたい。)

 数学記号は便利なもので、専用の数学記号を使うとじつに 'simple' に解説できる。使わなければ解説がやたら複雑になるか、シンプルな解説ができても'センス'を必要として多くの生徒には理解できないケースが多い、ましてや複雑な解説は言うに及ばず。ebisu先生、このケースではシグマ記号を使わないシンプルな解説を思いつけなかった、御免。
 もちろん、質問した生徒は黒板に書いたシグマ記号を使ったシンプルな証明を見ても、おおよそしか理解できないから、書き取っておいて数列を習ったところでもう一度見てもらうしかない。EXCELで昨日やったシンプルな仮設例を使って計算しプリントアウトして渡すか、あるいは2時間かけて必要最小限の範囲で数列の授業をやるかだが、今日はテスト前々日だから2時間かける余裕はない。興味があればどちらかの方法で金曜日のテスト後に特別授業に応じたい、こういうときはニムオロ塾では本人次第だ、勉強したい生徒には教えるし、したくない生徒には教えない。水を飲みたくない馬を川辺に連れて行っても飲まないから、ばかばかしいから高校生にはそういうことをしない。高校生は自己の判断について責任の負える大人として扱う。これも人生を生き抜くための一つのトレーニングである。

 そういうわけで、この「Trial B」問題は、高2の4月では質問をしてくれたγ(ガンマ)クラス(一番上のグレード)の生徒ですらも完全理解には手がとどかなかった。ならば対処療法でとりあえず「分散と平均値の関係式」を暗記して応用力を磨くのみ、関係式の基礎的な理解は年明けころになる。そのころに、もう一度証明をやってみせたらすんなり理解できる。
 さて、質問した生徒はどういう選択をするのだろう、2時間の∑記号計算の授業を要求するだろうか?
 こういうことがちょくちょくあるから、塾家業は楽しい。塾長はその都度、塾生に自己選択を迫り、成長を促す。DVD授業やインターネットの配信授業では不可能、生徒と先生が同じ時間と空間を共有するナマの授業のいいところだお互いの感情も、言葉の意図するところも、目と耳とこころで読み取れる、本来の教育とはそういう教える者と教えられる者との共有された時間と空間の中にあるのではないだろうか。日本には400年目からそうした私塾の伝統がある。江戸時代にはすでに3万もの私塾があった、これほど勉強好きな国民は世界中で日本だけだった(過去形で語らなければならないのが悲しい)。おそらく教育熱心なのは1万年の縄文文化にその淵源を持つのだろうから、「振り子」はいずれ元に戻る。ebisuは心配していない。
 答えを書いておくのを忘れるところだった。
「先生、このごろ物忘れ多いね」と生徒に言われて、ギクッとする。たしかに、その傾向はある。(ニヤリ)


 (1番目の答えは 120/15=8、2番目の答えは7)

-------------------------------------------
<証明と解説>
 関係式を∑記号を使って記述すると次のようになる。mは平均を表す。

 1/n{∑(x-m)^2}=1/n{∑x^2-2m∑x+nm^2}
  =1/n∑x^2-2m^2+m^2 ・・・ 1/n・∑x=m
  =1/n∑x^2-m^2

したがって、
分散と平均値の関係式
 (xのデータの分散)=(x^2のデータの平均値)-(xのデータの平均値)^2

は証明された。
-------------------------------------------

<この問題の解き方の要諦>
 問題の解き方の要諦(ポイント)は書いておいたほうがいいだろう。関係式を見てもらいたい、∑x^2と全体の平均値mが計算できれば、分散1/n{∑(x-m)}が計算できるのである。mは(1)ですでに計算済みだから、各データの2乗の総和を求めるにはどうしたらいいのかと考えたらいい。数学的な勘(sense)の良い人はすぐに気がついただろう、∑x^2をk=1→10までとK=11→15まで計算して、それらの合計をとればいいのである。

 1番から10番目までのx^2の総和の平均値をaとし、11番から15番目までのx^2の総和の平均値をbとすると、関係式から次の式が成り立つ。
 3=a-9^2
  9=b-6^2
 よって、a=84、 b=45
  ∑x^2=a*10+b*5=84*10+45*5=840+225=1065
   1/15∑x^2=1065/15=71
  関係式より、15データ全体の分散は次の式で計算できる。(mはデータ全体の平均値を表す)

  1/15*∑(x-m)^2=1/15*∑x^2-m^2=71-8^2=7
 
  関係式と分散の意味がしっかり理解できただろうか?この解き方が了解できたら、あなたは分散の統計学的な概念とこの「分散と平均の関係式」をしっかり理解したと判断していいだろう。関係式を暗記するだけでは応用ができない、基本をしっかり理解すれば、変化をつけた応用問題にも、原理原則に戻って思考し、対処できるようになる。


<∑記号を使わない分散と平均値の関係式の証明>
 ハンドルネーム・ペトロナスさんから、スマートな解説をいただいたので、本欄へアップしておきます。
=============================

Σ記号を展開して和の式で説明すれば生徒さんも理解できたのかなと思います。


データをx[1]、x[2]、・・・、x[n]、データの個数をn、データの平均をm、分散をsとする。

分散の式の定義から
s=(1/n){(x[1]-m)^(2)+(x[2]-m)^2+・・・+(x[n]-m)^(2)}
展開すると
s=(1/n){(x[1])^(2)+・・・+(x[n])^(2)}-(2/n)(x[1]+x[2]+・・+x[n])m+nm^(2)} ・・・①
m=(1/n)(x[1]+x[2]+・・・+x[n])より①は
s=(1/n){x[1])^(2)+・・・+(x[n])^(2)}-2m^(2)+
m^(2)
s=(1/n){x[1])^(2)+・・・+(x[n])^(2)}-m^(2)
したがって
(分散)=(x^(2)の平均値)-(xの平均値)^(2)

by ペトロナス (2015-04-11 11:52) 
=============================


<余談>
 ebisuは大学で統計学を習った。そのあと統計学は仕事で使った、必要があったから何冊か専門書も読んだ。大学院を卒業して産業用エレクトロニクス輸入商社に勤務した最初の年(1979年)に、経営分析と経営改善のために25項目の分析モデルを作成し、データ分析をするために統計処理が必要だった。当時のパソコンの性能はおもちゃ、とても仕事では使えなかった。マイクロ波計測器制御用のパーソナルコンピュータなら統計計算が可能だったが、これはBASICでプログラミングしなければ動かないし、日本製品はなく、HP社製のそれは値段が百万円を超えていた。だから、プログラムのできる科学技術計算用計算機のHP67とプリンタ付のHP97を使ってやった。逆ポーランド方式のプログラミング言語で計算式のプログラミングが簡単だった。値段も前者が11万円、後者が22万円だった。電卓で計算していたら、見かねて社長がすぐに(中途入社1ヵ月後)買ってくれたのである。仕事をいっぱい抱えていた(プロジェクトを5つ、実質一人、あとのメンバーは役員と課長が二人)から、時間がもったいなかった。400ページほどの英文マニュアルが2冊、それを1週間で読みきって使った。家に帰ってマニュアルを読んでプログラミングしていたら空が明るくなって慌てて寝たことが数回あった。
 400ページを超える英文マニュアルを1週間で2冊読みこなし、理数系のプログラミングや統計学の基礎的な勉強をしなければならない。それができないようなら重要な仕事は回ってこない。だから、仕事では英語も数学も必要になる、好き嫌いなど言っていられない。実社会は数学と英語の両方のできる人材を必要としている(片方では強力な武器にならないのである)。
 本社で経営管理のための経営分析モデル作りやデータ解析をやっていて、線形回帰分析や曲線回帰分析を多用した。円安や円高で業績が翻弄される会社だったが、2年で為替相場に業績が左右されず、安定的に高収益を上げられるような仕組み(コンピュータシステム)を二つ作った。業績は急激に改善され高収益会社となり財務安定性が強固になったから、店頭公開を果たしている。
 文科系でも統計学の素養は必要である。数Bの確率変数の章は学校ではやらないが、自力でそれくらいはやっておいたほうがいい。

 北海道医療大学へ進学した生徒があるとき、大学の統計学の授業がわからないので教えてほしいといってきたことがあった。使用しているテクストを見たら、東大の教養で使っている統計学の教科書だった。数式中心の説明が並んでいて、数Ⅲまでやっていないととても歯が立たない代物だった。統計学の専門書でこんなに数式を多用するものは珍しい。EXCELを使うプリント演習問題が宿題に出されていた。
 こういう頼まれごとも楽しいのである。久しぶりに統計学の勉強を生徒と一緒にした、もう4年も前になる。検索してみたら2011年8月16日のブログにアップしていた。早いものでその生徒は4月から道内で就職して働いている。臨床心理学科だったから、大学院へ進学して臨床心理士の国家資格をとってほしかった。臨床心理学なら大学院受験の英語は教えられるから、次の夏休みには来るかと思っていたが、3年生のときに進学をあきらめてしまった。どうってことはないハードルだったのだが、本人からみたら高く見えてしまったのだろう。


*#1628 夏季講習:統計学 Aug. 16, 2011 
http://nimuorojyuku.blog.so-net.ne.jp/2011-08-16



にほんブログ村 地域生活(街) 北海道ブログ 根室情報へ
にほんブログ村 



 4年前に生徒が北海道医療大学の臨床心理学科で使った教科書はこれである。数学が大好きな生徒には理解しやすい教科書だが、数学が不得手な生徒には理解超困難なテクストと化す。理系学生向けの統計学教科書と言っていいだろう。
数式を極力減らした文科系の学生向けの統計学の本もたくさんあるが、数式を多用して解説してくれたほうが、実際にはシンプルで理解しやすい。数学という壁を作らなければ、さまざまな分野の専門書を独力で読みきることができる。

 高校を卒業して地元に就職した者たちのなかに数学が大好きで数Ⅲを履修した新社会人がいたらこの本にチャレンジすることを薦めたい。基礎統計学にかんする素養があれば、さまざまな専門書を読むときに、データがどのように統計的な処理がなされて結論がだされたのか、その信頼度も判断できるようになる。いつか自分で統計データを加工する場面に出くわすことになるかもしれない、そのときに勉強したのでは間に合わないのである。
 チャンスをつかむためには勉強の幅を広げておくべきだ。不思議と読んだ専門書の専門知識や技術を使う仕事が、読み終わったころに持ち上がる。わたしは何度もそういう経験をしてきた。異質な分野の専門知識を身につけたら、その専門技術を磨く仕事は天が用意してくれるのである。ebisuの場合は無駄になった勉強は一つもない。望めばの話だが、異質な複数の専門知識や技能のある者は大企業の「本社エリート社員」として競争の中を生き抜けるよ、役員くらいにはなれるだろう。複数の専門知識のない者は結果が出せないから、化けの皮がはがれて自然に脱落していく。


統計学入門 (基礎統計学)

統計学入門 (基礎統計学)

  • 作者:
  • 出版社/メーカー: 東京大学出版会
  • 発売日: 1991/07
  • メディア: 単行本

nice!(0)  コメント(2)  トラックバック(0) 

nice! 0

コメント 2

ペトロナス

Σ記号を展開して和の式で説明すれば生徒さんも理解できたのかなと思います。

=======================================
データをx[1]、x[2]、・・・、x[n]、データの個数をn、データの平均をm、分散をsとする。

分散の式の定義から
s=(1/n){(x[1]-m)^(2)+(x[2]-m)+・・・+(x[n]-m)^(2)}
展開すると
s=(1/n){(x[1])^(2)+・・・+(x[n])^(2)}-(2/n)(x[1]+x[2]+・・+x[n])m+nm^(2)} ・・・①
m=(1/n)(x[1]+x[2]+・・・+x[n])より①は
s=(1/n){x[1])^(2)+・・・+(x[n])^(2)}-2m^(2)+
m^(2)
s=(1/n){x[1])^(2)+・・・+(x[n])^(2)}-m^(2)
したがって
(分散)=(x^(2)の平均値)-(xの平均値)^(2)

====================================


by ペトロナス (2015-04-11 11:52) 

ebisu

ペトロナスさん

∑記号を使わずに解説する方法がありましたね。しかし、これも数列の和の知識を援用しています。だけど∑記号を使うよりもハードルが下がったことは事実ですね、これならなんとかなるかな。

>s=(1/n){(x[1]-m)^(2)+(x[2]-m)+・・・+(x[n]-m)^(2)}

たぶんケアレスミスですから、高校生のために脱落している部分を付け足しておきます。

s=(1/n){(x[1]-m)^(2)+(x[2]-m)^2+・・・+(x[n]-m)^(2)}

いつもスマートな代案の提示に感謝、ペトロナスさんどうもありがとう。
本文へアップしておきます。
by ebisu (2015-04-11 12:23) 

コメントを書く

お名前:
URL:
コメント:
画像認証:
下の画像に表示されている文字を入力してください。

トラックバック 0