2013年11月 問9の解き方

あるガンの発症率は0.07であることが知られている。このガンの第1次診断法が確立されており、その性能は次のようになっている。ただし、表の値は確率を表わしている。

Bさんが勤務する会社の健康診断において、この検査を受けたところ陽性であった。このとき、Bさんがガンである確率を求める計算式として、適切なものを次の①~⑤のうちから一つ選べ。

ベイズの定理の問題ですね。私は条件付確率の問題として公式で解くのが今ひとつ理解できなくて・・・、そんな時に出会った本が「確率がわかる」でした。統計検定2級で出題される確率の問題が苦手な方は、この本がお勧めです。

さて、この「確率がわかる」ではベイズの定理の解き方を以下の様に教えてくれています。

①まず四角を描いて、右側に事前確率(○○が知られている。○○と言われている。などの確率)を書く。
②問題となる確率をそれぞれ左側に書く。
③分母は、事前確率×確率を足したもの。
④分子は、問題になる確率。
⑤計算式の出来上がり!

どうですか?簡単ではないですか?「確率がわかる」を読んでから、ベイズの定理の苦手意識がなくなり、得点できる問題に変わりましたよ。

2013年11月 問8の解き方

ある菓子店では、菓子を8個まとめて箱詰めにして売っている。菓子1個あたりの重さ(g)は正規分布N(90,9)に従い、箱のみの重さは1個あたりN(30,1)に従うことが知られている。菓子8個が詰められた状態の1箱あたりの重さ(g)はどのような分布に従うか。次の①〜⑤のうちから一つ選べ。ただし、平均μ、分散σ二乗の正規分布をN(μ、σ二乗)と表記している。

この問題を解く鍵は、「正規分布の再生性」です。

正規分布の再生性は、「統計学基礎」のP.78(3)「確率変数XとYが独立に正規分布に従うとき、X+Yも正規分布に従い・・・、これを正規分布の再生性と言われる」を参考にしてください。

従って、正規分布の再生性から、菓子8個の重さはN(720、72)に従い、箱N(30、1)を足すと、答えは⑤のN(750,73)となります。

2013年11月 問7の解き方

{1,2,3,4}の値を取る離散型確率変数Xの確率関数f(x)が、f(1)=1/8、f(2)=3/8、f(3)=1/8、f(4)=3/8であるとき、この確率変数Xの期待値はいくらか。正しい値を次の①~⑤のうちから一つ選べ。

これは、確率変数Xの期待値を求める問題ですね。この種類の問題では、期待値と併せて分散も問題になることが多いです。

さて、解き方ですが、「離散型確率変数X」と「連続型確率変数X」では解き方が異なります。離散型では確率変数*確率、連続型では∫(インテグラル)を用います。

これは離散型確率変数Xの問題なので、「確率変数*確率」で簡単に解くことができます。

公式:E[X]=ΣXf(x)

公式の日本語訳:確率変数X(X)とその確率(f(x))を掛けた値をすべて足す(Σ)

E[X]=1*1/8+2*3/8+3*1/8+4*1/8=11/4

ちなみに、確率はすべてを合計すると1(1/8+3/8+1/8+3/8)になります。

2013年11月 問6の解き方

弓道部のAさんは28m離れた的の中心部(中心から半径5cmの円の中)に矢を当てたい。Aさんの矢は平均して5回に1回、中心部に当たる。Aさんが10回射的を行った時の、中心部に当たる回数をXとする。各回の射的は独立に同一分布に従うとしたとき、以下の問いに答えよ。

この時点で、「当たる」or「当たらない」の二項分布の問題だと閃けばサービス問題です。問題文に「ベルヌーイ試行」や「回数とその確率」が書かれていれば、ほぼ二項分布の問題とみて間違いないです。私は二項分布の問題が好きなので、「二項分布の問題が来た!」って思っちゃいます。

(1)中心部に当たる回数の分布として、最も適切なものを次の①~⑤のうちから一つ選べ。

①1時間に平均して2回電話が鳴る、とか、巨大地震の発生確率とか、ごく稀にしか起こらない分布がポアソン分布です。Aさんは5回に1回当ててますので、ごく稀ではないですよね。なので×です。
②正解です。
③正規分布のベル型の中心と的の中心を引っ掛けた引っ掛けですね、×です。
④確率が一定の場合の分布が一様分布です。確かに狙っているとは書かれていませんが、常識的に後ろに射的する人はいないので、×です。
⑤1回目の成功確率が幾何分布です。とにかく1回やってみよう的な設問ですが、×です。

(2)Aさんが10回射的を行った場合に5回以上中心部に当たる確率Pr(X≥5)を求める式として、適切なものを次の①~⑤のうちから一つ選べ。

これは、コンビネーション(C)を使った二項分布の確率関数が正解なので、④が正解です。

2013年11月 問5の解き方

次の図は、ある年に発表された都道府県別の男性と女性の生涯未婚率(%)(なお、男性の生涯未婚率は45~49歳の未婚率の平均、女性の生涯未婚率は50~54歳の未婚率の平均として示されている)から作成した散布図である。東京の表示のある点は東京都の値を示す。

この問題は、散布図から相関係数を推測する問題ですね。相関係数の感覚が重要です。

(1)図から読み取れる相関係数(ピアソンの積率相関係数)の値に関する以下の説明のうち、最も適切なものを次の①~⑤のうちから選べ。

散布図で点が集中していて、且つ、広がりが大きい方向で離れた観測地を除くと相関係数は減少します。よって、東京を除いたときに相関係数が減少するのもので、適当なものは①となります。

(2)次の記述Ⅰ~Ⅲは、図から読み取れた男性の生涯未婚率と女性の生涯未婚率に関する記述である。

Ⅰは、横軸と縦軸の数値が違うことに注意すれば×と分かります。
Ⅱは、点の数を数えてみれば○と分かります。
Ⅲは、大都市がある都道府県というのは東京しか分かっていませんので、×です。

よって、正解は②となります。

<類似問題>
2015年11月問3
2015年6月問4

2013年11月 問4の解き方

2つの量的変数xとyの間の関係を見るために、相関係数(ピアソンの積率相関係)と共分散を求める。それぞれ2通りの方法を適用する。※計算式

この場合、計算された値が必ず等しくなる組み合わせがある。その組み合わせとして、正しいものを次の①~⑤のうちから一つ選べ。

この問題は、相関係数と共分散の理解度を問う問題ですね。

・一般的に、「相関係数」と「共分散」の値はことなります。相関係数は、共分散を2変数の標準偏差で除したものですからね。
・変数を標準化せずに相関係数を求めた値と、変数を標準化して相関係数を求めた値は同じになります。よって、AとCは同じになります。
・これも面白いのですが、変数を標準化した共分散と相関係数は同じ値になります。よって、CとDは同じになります。

従って、答えは⑤(AとCとD)になります。

2013年11月 問3の解き方

2013年の6月は暑かったと言われていた。6月の気温に関するこの主張を検討するために、東京の2012年の6月と2013年の6月の各日の最高気温について箱ひげ図を作成した。

この問題は、「箱ひげ図」の理解を問う問題ですね。

箱ひげ図は最小値から25%区切りで、第1四部位点、第2四部位点(中央値)、第3四部位点、最大値となります。

Ⅰ、6月各日の最高気温の最大値は2012年と2013年でほぼ同じ温度であった。

これは「最高気温の最大値」を問われているので、「範囲」ではなく最大値の「点」を比較すれば良いですね。2012年も2013年も30度くらいなので、ほぼ同じ温度なので○ですね。

Ⅱ、2013年は最高気温が30度の日が3日あったと読み取れる。

これはダメですね(笑)。30度の点に3日あることは箱ひげ図からは読み取れません。だから×です。

Ⅲ、最高気温25度以下の日数が2013年は2012年の約半分であった。

これは箱ひげ図の問題らしい問題です。
2012年の中央値(第2四分位点:Q2)と2013年の第1四部位点(Q3)が25度付近にあります。これは、2012年は25度以下の日が50%(15日間)あることを示していて、2013年はその半分の25%(7.5日)であることを示しています。よって、答えは○です。

よって、ⅠとⅢが正しいので、答えは⑤が正解となります。

「2013年の夏は暑かった」という背景に、25度以下の日が少なかった、という原因があることが分かりましたね。

2013年11月 問2の解き方

次の表は、平成22年度の都道府県別の高等学校数のデータである。

(1)上記の高等学校数の一の位を四捨五入し、そのデータについて幹葉図を作成した。

これは、幹葉図から「平均値」「中央値」「最大値」を求める問題ですね。

・平均値は、すべての値を足して都道府県数で割れば答えが出ます。
・中央値は、3)4)4)4)5)・・・(2(4(7(1(4のように、最小値と最大値を1つずつカッコで区切っていき、最後の中央部分に残ったのが中央値となります。
・最大値は、幹葉図の一番下に書かれている値です。この問題でのポイントは、左の位が「百の位」ということです。4|4は、44ではなく、440なので注意してください。

よって、答えは「Ⅱ」となります。

(2)高等学校数について表に基づくヒストグラムを作成した。最も適切なヒストグラムを次の①~⑤のうちから一つ選べ。ただし、ヒストグラムの階級は、0校以上50校以下、51校以上100校以下、101校以上150校以下、・・・のように設定した。

データから正しいヒストグラムを選択する問題ですね。

この問題は消去法で考えましょう。早い段階で2つのヒストグラムに絞り込むことができます。

・まず、最小値を比較してみましょう。幹葉図から0校以上50校以下の度数を数えると(3444555555)←10都道府県です。①④⑤は度数が異なるので消去できますね。
・次に、②と③の差が大きな部分を比較してみましょう。101校以上150校以下に差があるので、幹葉図で度数を数えてみましょう。(00011133479)←11都道府県が確認できました。

以上から、②が正解となります。

この問題のヒストグラムの高さは、微妙にずれていますよね。

2013年11月 問1の解き方

統計検定の級(1級~4級)、信号機の色、体重計で測定した体重、温度計で測定した気温について、変数の尺度として、最も適切なものを次の①~⑤のうちから一つ選べ。

この問題は「変数の分類」の理解を問う問題ですね。

変数の分類は
・名義尺度
・順序尺度
・間隔尺度
・比例尺度
の4つの分類があります。

覚え方は、それぞれの頭文字を合体させます。
・名義尺度と順序尺度を合体させて「名倉潤」→「(名)倉(順)」
・間隔尺度と比例尺度を合体させて「間寛平」→「(間)寛(比)」
 はざまかんぴー
と覚えましょう。

それぞれの例は、
名義尺度:性別、色、職業
順序尺度:成績評価(A~E、1~4級)
間隔尺度:気温、偏差値
比例尺度:身長、体重、年齢←0以上のもの
このようになります。

よって、答えは①の「級は順序尺度、色は名義尺度、体重は比例尺度、気温は間隔尺度」となります。

ヒント:この他には、好きな色は○○尺度ですか? という出題形式もあります。このような問題が出ても、名倉順と間寛比を思い出せば楽勝ですね。

この問題は、「統計学基礎」の4ページで補習してください。