データ解析で、エラーバーに表示すべきは標準偏差S.D.か標準誤差S.E.M.か?

科学研究論文の図には測定データの平均値が棒グラフで表示されていてその棒には「エラーバー」がつけられています。エラーバーが短いと測定値のバラツキが少ない、エラーバーが長いと測定値がずいぶんばらついているなと思ったりします。

さてそのエラーバーが意味するところは、標準偏差standard deviation (S.D.)でしょうか、それとも標準誤差standard error of the mean (S.E.M.)?逆の立場でいうと、自分が論文を書くときに図に示すべきはS.D.でしょうかそれともS.E.M.でしょうか?

最初に答えを言ってしまうと、ケースバイケースなのでどちらであるべきと言う言い方はできません。(S.E.M.のほうが測定数nの平方根で割った値のためバーが短くなって見栄えがよいので)「S.E.M.にしとけ」などという先生や先輩がいるかもしれませんが、もしもそんな発言があったとすれば、それは統計のことを全く理解していない証拠だと思います。

  1. Standard Error of the Mean vs. Standard Deviation: What’s the Difference? investopedia.com

生データのバラツキ(母集団のばらつき)を読者に示したければS.D.を見せればよいでしょうし、平均値だけに意味があって、生データのバラツキには興味がないのであれば、得られた平均値の信頼性を示すS.E.M.を見せればよいでしょう。なぜなら、標準誤差(S.E.M.)は、「「平均値」の標準偏差」だからです。

  1. 標準誤差とは|標準偏差との違い、エクセルを活用した計算方法を解説 2023年07月14日 GMOリサーチ 標準誤差(SE:standard error)は、推定量の標準偏差で、標本から得られる推定量そのもののバラツキを指します。

平均値の標準偏差と聞いて意味がわからない人のために説明すると、「母集団から標本をn個抽出(研究者でいえば、n回同じものの測定を繰り返す)して、平均値を求めるという操作」を仮に無限回繰り返したとします。するとこの標本平均(これが一つの確率変数)はどんな分布をするのでしょうか?実は、標本抽出を何回も繰り返してえられる「標本平均」の分布の平均値は、もとの母集団の平均値に一致し、その標準偏差の値は、上で求めた標準誤差(S.E.M.)の値になります。だから、測定データセットの標準偏差母集団のデータのばらつきを示すのに対して、測定データセットの標準誤差は、測定された平均値と言うデータのばらつきを示しているのです(「n回の測定」を、多数繰り返して、多数の「平均値」を得たと仮定)。つまり標準誤差を示すことにいよって、その平均値がどれくらいもっともらしいかを示せるわけです。測定回数nを大きくすればするほど(nの平方根でわるので)標準誤差は小さくなりますが、平均値の推定の信頼性が上がるということになります。

さて結論として、S.D.かS.E.M.かですが、自分の考えですが、例えば動物の行動量のように個体差が大きくて個体差のバラツキも読者に伝えたければS.D.を示すことに意味があると思います。また、生化学実験で何かを定量した場合、本来サンプル間でばらつきは無いはずという前提なのであれば(バラツキの原因が手技のブレや、ピペッティング時の誤差などの避けられないバラツキ)、S.E.M.を示すほうが合理的でしょう。

  1. Question29 同じ実験を繰り返して得られた平均値の誤差を出すときに、標準偏差と標準誤差ではどちらを用いるのでしょうか? バイオ実験に絶対使える 統計の基本 2012年10月1日 羊土社

一番大事なことは、エラーバーがS.D.かS.E.M.かを論文に書くということです。当然S.E.M.のつもりだったので書かなかったというのは科学的な態度ではありません。