1. 情報理論とは
情報理論は、情報の伝達や処理に関する理論を扱う分野であり、特に通信やデータ圧縮の分野で広く応用されています。本記事では、情報理論の中でも「最情報量の概念」と「事象の生起確率と情報量との関係」に焦点を当て、具体例と応用例を交えながら理解を深めていきます。
2. 情報量とは
情報量とは、「どれだけ驚きがあるか」「どれだけ不確かさが解消されたか」を数値で表したものです。日常生活に例えて説明しましょう。
2.1. 基本的な考え方
想像してみてください:
- 「毎日太陽が東から昇る」と聞いても驚きませんよね?(情報量:少ない)
- 「友達が宝くじで1億円当てた!」と聞くと非常に驚きます(情報量:多い)
つまり、起こりにくいことが起きたときほど情報量が大きいのです。
2.2. 数学的に表すと
情報量は次の式で計算します:
\(I(x)=−log_2(p(x))\)
ここで:
- \(I(x)\):事象xの情報量(単位:ビット)
- \(p(x)\):事象xの発生確率
- \(log_2\):底が2の対数
2.3. 事象の生起確率と情報量の関係
情報量は事象の生起確率に反比例する関係にあります。確率が小さいほど、その事象がもたらす情報量は多くなります。この関係を理解するために、以下の具体例を考えてみましょう。
例1: サイコロを1回振って、特定の目(例えば「6」)が出る確率を考えます。
- サイコロの目が「6」である確率 \( P(6) = \frac{1}{6} \)
- このときの情報量 \( I(6) \) は次のように計算されます:
\[ I(6) = -\log_2 \left(\frac{1}{6}\right) \approx 2.585 \text{ビット} \]
一方、サイコロを3回振ってすべて「6」が出る確率 \( P(6, 6, 6) \) は
\[ P(6, 6, 6) = \left(\frac{1}{6}\right)^3 = \frac{1}{216} \]
このときの情報量 \( I(6, 6, 6) \) は
\[ I(6, 6, 6) = -\log_2 \left(\frac{1}{216}\right) \approx 7.754 \text{ビット} \]
このように、確率が低い事象ほど情報量は増加します。
日常的な意味での「情報量」
- 詳細な説明や多くの事実が含まれていること
- 例:「この報告書は情報量が多く、事細かに状況が説明されている」
- 量的な側面に注目している
情報理論における「情報量」
- 事象の「意外性」や「珍しさ」を数値化したもの
- 例:宝くじが当たるという非常に確率の低い出来事は、情報理論的には「情報量が多い」
- 質的な側面(驚きの度合い)に注目している
なぜこの違いが生じるのか
この違和感は、「情報」という言葉自体の捉え方の違いから生じています。クロード・シャノン(情報理論の創始者)は、情報を「不確かさの減少」として定義しました。
つまり:
- 確実に予測できることからは新しい情報は得られない
- 予測できないことが起きたときに初めて「情報」が発生する
分かりやすい例え話
あなたの友人が次のように話したとします:
- 「今日は晴れだ」(晴れていることが明らかな日に)
- 「実は私、宝くじで1億円当たったんだ」
情報理論的には、誰でもわかる1よりも、予想外の2の方が情報量が「多い」のです。
初学者へのアドバイス
この概念を理解するコツは、「情報量」を「驚きの量」や「不確かさの解消量」と言い換えてみることです。そうすれば、「起こりにくいことほど情報量が多い」という考え方も直感的に理解しやすくなるでしょう。
この概念が重要なのは、コンピュータが情報を効率的に処理する方法を考える上で、「意外なこと」「珍しいこと」により多くのビットを割り当てる必要があるからです。
4. 応用例
情報量の概念は、実際の技術に多く応用されています。特にデータ圧縮や符号化の分野で重要な役割を果たしています。データ圧縮は情報理論の最も実用的な応用例の一つです。簡単な例を通して解説します。
4.1. ハフマン符号化:頻度に基づく圧縮
次のようなテキストを圧縮したいとします。これをそのまま圧縮しようとした場合と、情報理論を使って圧縮した場合で考えていきます。
AAAAAABBBCCCD
4.1.1. 普通の方法(固定長符号)
通常、コンピュータでは各文字に同じビット数(例:8ビット)を使います:
- A: 01000001(8ビット)
- B: 01000010(8ビット)
- C: 01000011(8ビット)
- D: 01000100(8ビット)
このテキストは13文字なので、8×13=104ビット必要です。
4.1.2. 情報理論を応用(可変長符号)
出現頻度に応じて短いコードを割り当てます:
- 頻度を数える:A(6回), B(3回), C(3回), D(1回)
- 頻度が高い文字ほど短いコードを割り当てる:
- A: 0(1ビット)
- B: 10(2ビット)
- C: 110(3ビット)
- D: 111(3ビット)
圧縮後のビット数を計算すると:
- A: 1ビット × 6文字 = 6ビット
- B: 2ビット × 3文字 = 6ビット
- C: 3ビット × 3文字 = 9ビット
- D: 3ビット × 1文字 = 3ビット
- 合計: 24ビット(元の104ビットから大幅削減!)
4.2. 日常生活での例え:モールス信号
モールス信号は実は情報理論を応用しています:
- E(最も頻繁に使われる文字):「・」(短い信号1つ)
- T(2番目に頻繁):「-」(長い信号1つ)
- A:「・-」(信号2つ)
- あまり使われない J:「・—」(信号4つ)
4.3. なぜこれが効率的なのか?
情報理論では「頻度が高い=予測しやすい=情報量が少ない」と考えます。だから:
- 頻度が高い(情報量が少ない)文字には短いコード
- 頻度が低い(情報量が多い)文字には長いコード
を割り当てることで、全体として最も効率的な表現が可能になります。
4.6. 実際のファイル圧縮
ZIP、PNG、JPEGなどの圧縮形式はこの原理を応用しています。例えば:
- テキストファイルでは「e」や「the」などの頻出パターンに短いコードを割り当てる
- 画像では「空の青い領域」など同じ色が続くパターンを効率的に表現する
この考え方を理解すれば、なぜ単調な画像(青空だけの写真など)が複雑な画像より圧縮率が高いのかも納得できるのではないでしょうか。
5. 例題
問題
ある通信システムにおいて、4つの異なる信号が送信される。各信号の発生確率は以下の通りである。
- 信号A: \(0.5\)
- 信号B: \(0.25\)
- 信号C: \(0.125\)
- 信号D: \(0.125\)
このとき、各信号の情報量を求めなさい。
各信号の情報量は、次の式で計算されます。
\( I(x) = -\log_2 P(x) \)
よって各信号の情報量は以下のとおりとなります。
- 信号Aの情報量: \(I(A) = -\log_2 0.5 = 1 \text{ビット}\)
- 信号Bの情報量: \(I(B) = -\log_2 0.25 = 2 \text{ビット}\)
- 信号Cの情報量: \(I(C) = -\log_2 0.125 = 3 \text{ビット}\)
- 信号Dの情報量: \(I(D) = -\log_2 0.125 = 3 \text{ビット}\)
6. まとめ
情報理論における最情報量の概念と、事象の生起確率と情報量との関係についての理解は、通信技術やデータ圧縮の分野で不可欠なものです。確率が低い事象ほど多くの情報をもたらすという基本的な考え方を押さえておくことで、様々な応用問題にも対応できる力が身につきます。