「平均」は科学研究に革命をもたらしましたが、過度な依存には注意！

The average can tell you a lot about a dataset, but not everything. marekuliasz/iStock via Getty Images Plus 平均値はデータセットについて多くのことを教えてくれますが、すべてではありません。

公開日：2024年3月2日午前2時40分（NZDT）
著者：Zachary del Rosario

データセットを分析する際、多くの人が最初に行うステップの一つは平均 (average) を計算することです。自分の身長を近所の人々の平均身長と比較したり、お気に入りの野球選手の打率を自慢したりすることもあるでしょう。しかし、平均はデータセットの分析に役立ちますが、重要な限界があります。

これらの限界を無視した平均の使用は、差別 (discrimination)、傷害(injury) 、さらには命に関わる事故といった深刻な問題を引き起こしてきました。

例えば、アメリカ空軍はかつて「平均的な男性」向けに航空機を設計していましたが、パイロットが航空機を制御できない状態になったため、この手法を放棄しました。平均には多くの用途がありますが、データセット内の変動性 (variability) については何も教えてくれません。

私は専門分野の教育研究者であり、特に工学に焦点を当て、人々の学習方法を研究しています。私の研究には、エンジニアが仕事で平均をどのように活用しているかという研究も含まれています。

If each data point is a weight on a seesaw, with a position determined by its value, the average is the point where the seesaw will exactly balance. If there are multiple data points with the same value, you can imagine stacking weights at the same point. Zachary del Rosario. 各データポイントがシーソーの重りであり、その値によって位置が決まる場合、平均はシーソーがちょうどバランスをとる点です。同じ値のデータポイントが複数ある場合、同じ点に重りを積み重ねている状態を想像してみてください。ザカリー・デル・ロサリオ

平均を用いたデータの要約

平均は古くから存在し、紀元前9世紀または8世紀には既に使用されていたことが記録されています。初期の例として、ギリシャの詩人ホメーロス (Homer) は平均を取ることで船上の兵士の数を推定しました。

初期の天文学者たちは、星の将来の位置を予測しようとしました。しかし、これらの予測を行うには、まず星の現在の位置を正確に測定する必要がありました。複数の天文学者が独立して位置測定を行いましたが、得られる値はしばしば異なっていました。星の真の位置は1つしかないため、こうした不一致が問題となっていました。

1632年、ガリレオ (Galileo) は初めて、こうした測定の差異に対処するための体系的なアプローチを提唱しました。彼の分析は誤差理論 (error theory) の始まりでした。誤差理論は、科学者が測定における不確実性を低減するのに役立ちます。

誤差理論と平均

誤差理論によれば、研究者は一連の測定値が、誤差によって歪められた真の値 (true value) の周りにあると解釈します。天文学において、星は真の位置を持っていますが、初期の天文学者は手ぶれ、望遠鏡のぼやけた像、悪天候といった、すべて誤差の原因となるものがあったかもしれません。

誤差に対処するために、研究者はしばしば測定値が偏りがないと仮定します。統計学において、これは測定値が中心値の周りに均等に分布することを意味します。偏りのない測定値にも誤差はありますが、それらを組み合わせることで真の値をより正確に推定することができます。

Small numbers of measurements seem random, but a large set of unbiased measurements will distribute evenly around the average. Zachary del Rosario. 少数の測定値はランダムに見えますが、偏りのない測定値を多数集めると、平均値の周りに均等に分布します。ザカリー・デル・ロザリオ

3人の科学者がそれぞれ3つの測定値を測定したとします。個別に見ると、測定値はランダムに見えるかもしれませんが、偏りのない測定値をまとめると、中央値、つまり平均値を中心に均等に分布します。

測定値に偏りがない場合、平均値はすべての測定値の中央に位置する傾向があります。実際、平均値はあらゆる測定値に最も近いことを数学的に証明できます。そのため、平均値は測定誤差に対処するための優れたツールです。

統計的思考

誤差理論は、当時、革命的と考えられていました。他の科学者たちは天文学の精度に感銘を受け、同じアプローチを自らの分野にも取り入れようとしました。19世紀の科学者アドルフ・ケトレー (Adolphe Quetelet)は、誤差理論の考え方を人間の研究に応用し、人間の身長と体重の平均値を取るという考え方を提唱しました。

An example dataset of female and male heights. Dots are individuals, while the horizontal lines are the averages. The men are taller on average, but some of the females are taller than some of the males. The average does not tell you everything, particularly when there is real variation. Zachary del Rosario. 女性と男性の身長のデータセットの例。点は個人、水平線は平均値です。男性は平均身長が高いですが、女性の中には男性よりも身長が高い人もいます。平均値は、特に実際のばらつきがある場合、すべてを物語るものではありません。

平均値は、グループ間の比較に役立ちます。例えば、男性と女性の身長のデータセットから平均値を取ると、データセット内の男性は平均して女性よりも背が高いことがわかります。しかし、平均値だけですべてがわかるわけではありません。同じデータセットの中に、男性よりも背の高い女性がいる可能性もあるでしょう。

したがって、平均値だけを考慮することはできません。統計的に考えることで、値のばらつきも考慮する必要があります。統計的思考 (Statistical thinking) とは、変動 (variation)、つまり測定値が異なる傾向について注意深く考えることと定義されます。

例えば、異なる天文学者が同じ星を測定し、異なる位置を記録することは、変動の一例です。天文学者たちは、その変動がどこから来るのかを慎重に考えなければなりませんでした。星の真の位置は1つしかないため、変動は誤差によるものと安全に推測できました。

変動が誤差の原因から生じている場合、測定値の平均を取ることは理にかなっています。しかし、実際に変動がある場合、研究者は平均値を解釈する際に注意する必要があります。例えば身長の例では、男性の平均身長の方が高い場合でも、個々の女性は個々の男性よりも背が高い場合があります。平均値だけに焦点を当てると、変動性を無視することになり、深刻な問題を引き起こします。

ケトレーは、平均値を算出する手法を誤差理論から取り入れただけではありません。真の値は1つしかないという仮定も採用しました。彼は「平均的な男性」という理想を高め、人間の変動性は根本的に誤差、つまり理想的ではないと提唱しました。ケトレーにとって、平均的な身長でない人は何かが間違っていると考えていました。

社会規範 (social norms) を研究する研究者たちは、ケトレーの「平均的な男性: “the average man”」に関する考えが、「正常: “normal”」という言葉の現代的な意味、つまり正常な身長と正常な行動の確立に貢献したと指摘しています。

これらの考えは、初期の統計学者などによって、集団を何らかの点で優れた人々と劣った人々という2つに分けるために用いられてきました。

例えば、優生学運動 (the eugenics movement)――「劣った: “inferior”」人々が子供を産むのを阻止しようとする卑劣な試み――の思考は、「正常な: “normal”」人々についてのこうした考えに根ざしています。

ケトレーの「変異を誤りとみなす」考えは差別の慣行を助長する一方で、ケトレーのような「平均」の用法は、現代の工学技術の失敗とも直接的に関連しています。

平均の失敗

1950年代、アメリカ空軍は「平均的な人間」向けに航空機を設計しました。平均的な身長、平均的な腕の長さ、そしてその他のいくつかの主要な寸法も平均的なものを想定して設計された航空機は、ほとんどのパイロットにとって問題なく機能すると想定したのです。

この決定は、1日に17人ものパイロットが墜落する一因となりました。「平均的な人間」は航空機を完璧に操縦できましたが、実際の変異がそれを妨げました。身長の低いパイロットは視界が悪く、腕や脚の長いパイロットは無理やり体を押し込まなければなりませんでした。

空軍は、パイロットのほとんどがすべての主要な要素において平均に近いと想定していましたが、4,063人のパイロットのうち、平均的だったパイロットはゼロでした。

空軍はばらつきを考慮した設計を行うことでこの問題を解決しました。つまり、パイロット間の実際のばらつきを考慮して調整可能なシートを設計したのです。

調整可能なシートは今では当然のことのように思えるかもしれませんが、この「平均的な男性」という考え方は現在でも問題を引き起こしています。米国では、女性は自動車事故で重傷を負う確率が男性よりも約50%高くなっています。

政府監査院は、この差の原因は衝突試験の実施方法にあるとしています。女性乗員は、空軍の「平均的な男性」と同様に、男性ダミーの縮小版を使用して粗雑に表現されています。最初の女性衝突試験ダミーは2022年に導入されましたが、米国ではまだ採用されていません。

平均値は有用ですが、限界もあります。真の値を推定したり、グループ間の比較を行うには、平均値が非常に有効です。しかし、実際に変動性を示す個人にとっては、平均値はそれほど意味を持ちません。

この記事は、クリエイティブコモンズライセンス(CCL)の下で The Conversation と各著作者からの承認に基づき再発行されています。日本語訳は archive4ones の翻訳責任で行われており、The Conversationによる正式な翻訳ではありません。Web siteで、オリジナルの記事を読めます。