

公開日時: 2026年2月21日午前0時36分 (オーストラリア東部夏時間)

確率 (probability) はAI、暗号学、統計学の基盤となっています。しかし、哲学者バートランド・ラッセル (Bertrand Russell)は 次のように述べています。「確率は現代科学において最も重要な概念です。特に、その意味を誰も全く理解していないからです。」
私はエンジニアに統計学を教えているので、確率は重要ではあるものの、直感に反するものであることを知っています。
確率は、ランダム性(偶然性)を記述する数学の一分野です。科学者がランダム性を説明するとき、それはコインを投げるといった偶然の出来事であり、シマウマの格好をした人のような奇妙な出来事ではありません。科学者は奇妙な出来事を予測する方法を持っていませんが、確率は長期的な行動、つまり多くの繰り返される出来事から生じる傾向を予測します。

確率を用いたモデリング
確率は出来事 (events) に関するものなので、科学者はどの出来事を研究対象とするかを選択する必要があります。この選択によって標本空間 (sample space) が定義されます。例えば、コインを投げる場合、それがどのように出るかが出来事と定義されるかもしれません。
コインはほとんどの場合、表か裏になります。しかし、コインが横向きに落ちる可能性は、非常に低いとはいえ、あり得ます。そのため、標本空間を作成するには、表と裏、または表と裏と横向きの2つの選択肢があります。今のところは、横向きに落ちた場合を無視し、表と裏を標本空間として使用します。
次に、事象に確率を割り当てます。確率は事象の発生率を表し、0%から100%の間の値を取ります。例えば、公平なコイン投げでは、表が50%、裏が50%になる傾向があります。
しかし、確率を割り当てるには、シナリオ (scenario) を慎重に検討する必要があります。コインを投げる人がイカサマをしていた場合はどうでしょうか?コインを投げずに「揺らす」ことで結果をコントロールする巧妙なテクニックがあります。たとえイカサマを防ぐことができたとしても、実際のコイン投げでは、最初の面が表向きになる確率がわずかに高くなります。つまり、コインを表向きにして投げ始めると、表が上になる確率がわずかに高くなります。
不正行為の場合も本物のコイン投げの場合も、適切な標本空間、つまり開始面ともう一方の面が必要です。現実世界で公平にコインを投げるには、開始面をランダムに(等確率で)選び、コインを投げるという追加のステップが必要です。

これらの仮定 (assumptions) はすぐに積み重なります。公平に投げるためには、側面立ちを無視し、誰も不正行為をしていないと仮定し、開始面が均等にランダムであると仮定する必要があった。これらの仮定を組み合わせることで、ランダムな結果をもたらすコイン投げのモデルが構成されます。確率は、ランダムモデルの長期的な挙動を示します。コインモデルの場合、確率は、複数回投げたコインのうち、何枚が表になるかを表現します。
しかし、ランダムモデルを使う代わりに、物理学を用いてコイン投げを解いてみてはどうでしょうか?実際、科学者たちはまさにそれを行い、物理学はコインを投げる速度のわずかな変化が表か裏かを決定することを示しています。この敏感さによりコイン投げは予測不可能になるため、ランダムモデルが適しています。
頻度 vs. 確率
確率は頻度とは異なります。頻度 (frequency) とは、一連の出来事が起こる割合です。例えば、コインを8回投げて2回表が出た場合、頻度は25%です。長期的にはコインを投げて表が出る確率が50%であっても、短い一連の出来事はそれぞれ異なる結果になります。8回投げた場合、4回表と4回裏が出る可能性が最も高いですが、他の出来事も起こり得ます。そして、実際に起こるでしょう。
頻度と確率は、ある特別な状況、つまりデータポイントの数が無限大になる状況においては同じです。この意味で、確率は長期的な行動について教えてくれます。

AI、暗号学、統計学への応用
確率はコイン投げの結果を予測するのに役立つだけではありません。多くの現代の技術システムの基盤となっています。
例えば、大規模言語モデル(LLM)などのAIシステムは、次単語予測に基づいています。基本的に、これらのシステムはプロンプトに続く単語の確率を計算します。例えば、「New York」というプロンプトに対して、「City」や「State」が予測されるかもしれません。これは、トレーニングデータにおいてこれらの単語が最も頻繁に続くためです。
しかし、確率はランダム性を表すため、LLMの出力はランダムです。コインを投げた結果が毎回同じ結果になるとは限らないのと同じように、LLMに同じ質問をすると、異なる回答が返される傾向があります。実質的に、次々に続く単語は、新しいコイン投げのように扱われます。
ランダム性は、情報を保護する科学である暗号学においても重要な鍵となります。暗号通信(cryptographic communication)では、パスワードなどの共有秘密を用いて情報を保護します。しかし、驚くほどランダムなだけではセキュリティ対策としては不十分です。だからこそ、意外な単語を選ぶのはパスワードとして適切とは言えません。共有秘密 (shared secret) は、推測が困難である場合にのみ安全です。たとえ意外な単語であっても、文字ごとに「コイン」を投げるよりも、実際の単語の方が推測しやすいのです。
確率を用いてキーボードで文字をランダムに選択することで、はるかに強力なパスワードを作成できます。あるいは、パスワードマネージャーを使用するのが最善です。
最後に、ランダム性(偶然性)は統計において重要です。統計学者は、限られたデータを活用するために研究を設計し、分析する責任があります。この手法は、すべてのデータポイントが個人の人生を表すため、医療治療を研究する際に特に重要です。
ゴールドスタンダード (The gold standard) はランダム化比較試験です。参加者は、公平なコイン投げに基づいて、新しい治療法を受けるか、現在の標準的な治療を受けるかに割り当てられます。この割り当てをランダムに行うこと、つまりコイン投げで命に関わる決定を下すのは奇妙に思えるかもしれません。しかし、予測不可能性は重要な役割を果たします。なぜなら、年齢、性別、人種、収入、その他のいかなる要因も、治療を受ける機会に影響を与えないことを保証するからです。予測不可能性は、科学者が観察された結果が治療のみによって引き起こされ、他の要因は影響を与えないことを保証するのに役立ちます。
ということで、確率とは一体何を意味するのでしょうか?あらゆる数学と同様に、確率は単なるモデルであり、世界を完全に記述することはできません。ここで議論した例では、確率は長期的な行動を記述し、予測不可能性を利用して実用的な問題を解決するのに役立ちます。

この記事は、クリエイティブコモンズライセンス(CCL)の下で The Conversation と各著作者からの承認に基づき再発行されています。日本語訳は archive4ones の翻訳責任で行われており、The Conversationによる正式な翻訳ではありません。Web siteで、オリジナルの記事を読めます。


