χ2乗分布とは?分布の形をいろいろ描いてみる。

χ2乗分布は、標準正規分布する確率変数を例えば3個取り出して

X = x1^2 + x2^2 + x3^3 という2乗和をつくったときにXが従う分布です。

自由度は取り出した変数の数で、今の場合3になります。さてこの手順を10000回繰り返して得られる10000個の2乗和がどんな分布を示すかヒストグラムを書いてみますと、

のようになります。なおヒストグラムはpython3で描きました。python3のコードはChatGPT-3.5に作ってもらいました。

上の図が自由度3のχ2乗分布ですが、自由度が1,2,3,4,5,‥とかわったときに分布の形はどう変わるでしょうか。試しに描いてみます。

こんな感じになります。自由度10まで描きました。縦軸はデータ数が10000個のときの度数です。データ数で除算して相対度数で表示すれば、

となります。自由度が大きくなるほどベルシェープ(正規分布)の形に近づいているように見えます。試しに自由度1000にして、サンプル数100000個のヒストグラムを描いてみます。

どうやらこれは正規分布に近い形ですね。今の場合自由度=1000ですが、それが平均値になっているようです。さらに自由度10000にしてみると(サンプル数100000個)、

これくらい自由度を大きくすると、綺麗に左右対称になりました。

自由度kが十分に大きいときカイ二乗分布XN(k,2k)に収束する

【統計学】カイ二乗分布の正規近似 自由度が無限大のときのカイ二乗統計量 2022年12月23日 ウサギさんの統計学サロン)

やっぱりそうなんですね。プログラムでいろいろ描いてやると、こういったことが簡単にわかって面白いです。プログラミングは、勉強の道具として最高だと思います。自分はプログラミングはほとんどできないのですが、ゼロからこういったコードを書ける必要がもはや全くなくなりました。生成AIの代表格であるChatGPTさまさまです。「こんなことをしてくれるコードをちょうだい。」と投げるだけで、(多くの場合)完全に動くコードを返してもらえます。凄い時代が来たものです。

今は標準正規分布から変数を取り出しましたが、「標準」でない正規分布N(μ, σ^2)の場合はどうすればよいかというと、X-μ / σ という変数を考えれば、これは標準正規分布に従うので、X-μ / σ  の2乗和がχ2乗分布に従うことになります。

 

 

 

 

肝星細胞とは?

肝星細胞(hepatic stellate cell, HSC)の呼称

日本では星細胞という名前よりも伊東細胞の方がまだ馴染みがあるのかもしれません。この細胞には、他にもfat-storing cell, lipocyte, interstitial cell, vitamin A-storing cellなど実に様々な名称で呼ばれてきた歴史があります。http://hepato.umin.jp/kouryu/kouryu05.html

肝星細胞の機能と役割

肝臓の類洞周囲腔に存在する肝臓星細胞はビタミンA貯蔵細胞であるが、ウイルス感染やアルコール摂取など様々な刺激に反応して活性化し、コラーゲンを合成・分泌するようになるため、肝線維化の責任細胞としても知られている。http://hepato.umin.jp/kouryu/kouryu15.html

Ethical, Legal, and Social Implications (ELSI) of Human Genome Research

個人のゲノムDNAを読むことは、倫理的、法的、社会的にどんな影響があるのでしょうか。

 

  1. Now I get it! ELSI and Genome Editing
  2. The 6th ELSI Congress ELSIcon2024: Reimagining the Benefits of Genomic Sciences ELSIcon2024: The 6th ELSI Congress will take place at Columbia University in New York City from June 10-12, 2024.
  3. Three decades of ethical, legal, and social implications research: Looking back to chart a path forward Cell Genomics Volume 2, Issue 7, 13 July 2022
  4. Anticipating the Ethical, Legal, and Social Implications of Human Genome Research: An Ongoing Experiment Eric T. Juengst Am J Med Genet A. 2021 Nov; 185(11): 3369–3376. Published online 2021 Jun 22. doi: 10.1002/ajmg.a.62405 PMCID: PMC8530886 NIHMSID: NIHMS1715777 PMID: 34155808
  5. Analysis of the legal and human rights requirements for genomics in and outside the EU Ref. Ares(2019)2271539 – 29/03/2019 140ページPDF
  6. Legal, Ethical, and Social Issues in Human Genome Research Henry T. Greely Annual Review of Anthropology Vol. 27 (1998), pp. 473-502 (30 pages)
  7. Review of the Ethical, Legal and Social Implications Research Program and Related Activities (1990-1995)
  8. 8 Social, Legal, and Ethical Implications of Genetic Testing Assessing Genetic Risks Implications for Health and Social Policy (1994)

実験の例数nはどう数える?細胞ディッシュ3枚(triplicate)x3回の実験をn=9としてよい?ダメ!

論文を書くときに、n=9などと書きますが、その実験の例数nはどう数えているのでしょうか?異なる分野の研究者と話をしていると、nの数え方が実は、研究分野によって独特だったりするような気がします。

nは個体数

マウス10匹を用いて、各個体におけるある遺伝子の発現量を定量しました。と言う場合は、n=10でわかりやすいでしょう。しかし、実際には、その10匹は1つがいの両親から得られた(1匹の母親から同時に得られた)同腹の10匹だったのか、何回もことなるペアを掛け合わせてえられた10匹(1匹ごとに両親が異なるかもしれないし、数匹は同腹かもしれない)だったのか、いろいろありえるでしょう。親個体が異なれば当然、遺伝子発現量の個体差(遺伝的な背景による差)が大きくなる可能性があります。極端な話、違う系統のマウスの個体を混ぜて10匹としていれば、さらに個体差(系統差)が大きくなるでしょう。通常は一つの系統を使いそのことを論文中に明示します。それが別の系統をつかうと実験結果が変わってくることもあります。マウスのように系統が確立していればまだいいですが、他のモデル生物のように純系が無い場合もあります。そうなると、異なるラボで(ことなる系統のモデル動物を使っているため)結果が再現できないということが起こりえます。雄と雌を揃えたのかどうかなども、実験結果に影響する可能性があります。また遺伝子発現が概日周期を持って変動する場合には、その個体からいつ細胞や臓器を調整したか(1日のうちの何時に)でも結果がばらつく恐れがあります。

個体に由来する細胞の調整であれば(例えば、個体を解剖して脳や肝臓やその他の臓器などから、細胞を取り出して培養する、primary culture)、3個体に関して実験を別々に行い(異なる細胞由来の細胞を混ぜたりはもちろんしない)、3つの測定値を得ることができます。これはn=3(nは個体の数)で、最も望ましい実験だと思います。

装置による物理的な測定の数?

分光光度計で吸光度を測定したりする場合には、同じサンプルに対して何度も測定値を得ることができますし、その測定値が一定しないこともありえます。測定が安定していれば、通常は一度しか測定値を得ないことが多いでしょう。というか、光源が安定して測定値が安定してから(何回測定しても同じ値にしかならなくなってから)、1回だけ測定するのが普通です。もし何回も測定した場合でも、それをnとすることはありません。測定がばらつくのなら測定を繰り返して平均を一つの測定値とすべきでしょう。

試料をtriplicateにして各々を測定した場合

同じ試料(同じ由来の細胞などの抽出液など)をわざわざ3つのチューブに分けて処理(もしくは化学反応など)して、ピペッティングなど手技のバラツキを平均するということも良く行われます。これをn=3と数えるのかどうかは、研究者によって考え方が異なるかもしれません。手技によるバラツキは本来はあってはいけないことなので、これを例数として個別にカウントするのは違うのではないかという気がします。triplicateで実験して得られた3つの測定値は平均して、一つのデータ(値)とすべきでしょう。duplicateやtriplicateで実験することの意味、目的は本来、実験手技のバラツキを補正するためだと思います。n数を稼ぐためにそうするのは、本来の趣旨から外れるでしょう。

培養Wellの数?

96孔プレートを使って細胞を培養して何かを測定するときに、同じ細胞を3つのWellに播いておいて3つの測定値を得るのもTriplicate実験であり、上のチューブ3つに分けた実験と同じことだと思います。

培養ディッシュの数?

株化した細胞を用いた実験やプライマリーカルチャーなどの実験の際に、同一の細胞をディッシュ3枚に播いておいて、それらのディッシュごとに細胞を調整して遺伝子発現をみるなり生化学実験を行うなりしてデータを3つ得るということがあります。これもtriplicate実験で、ディッシュごとのバラツキ(本来はばらつく理由がないですが、さまざまな実験手技によるバラツキ)を補正するのが目的で、これをn=3とするのは趣旨として違うように思います(しかし、実際にはこれをn=3と数えて論文化している研究者は多いと思います)。

細胞調整(細胞をおこしたり)実験の数?

凍結保存してある細胞株を融解して培養して何か生化学実験を行ってデータを得る場合に、細胞をおこすことに関して3回独立に行って、実験結果の再現性を確認するということもあると思います。これをn=3と数えて、再現性がありましたと結論するのは一般的に行われていると思います。その際、培養に用いる血清のロットが変わってしまって、結果がなかなか再現されにくくなってしまうということもあるでしょう。そもそも培養液に添加する血清のロットが変わったくらいで実験結果が変わってしまうのであれば、そんな実験結果を報告することに意味はないと思います。なぜなら、他の研究室では再現できない結果だというわけですから。

さて、何をもってnとするかについて考えてきましたが、これら異なる階層を混ぜてよいか?という問題があります。3個体から別々に肝臓を取り出して肝細胞を調整して、実験する段階では1個体からの肝細胞については3枚のディッシュで別々に培養して(つまりtriplicate実験)サイトカインの定量を行ったときに、これはn=3(nは個体数)と考えるのか、n=3×3=9(nは実験数)とするかという問題です。標本抽出は、同一の母集団からランダムに行うという統計学の常識から考えれば、n=9とするのは無理があるように思います。しかし個体が異なっても、細胞の調整が異なっても、本来それらはバラツキがないはずだという理想的なことを考えれば、n=9が間違いとも言い難いものがあります。ただ現実問題として生物学的には様々な要因でバラツキが生じるものなので、現実的に考えれば、異なる階層のものをまぜこぜにするのは実験結果の解釈を困難にするだけで科学研究のやり方として筋が良いこととは言えません。

上の例では個体数3xtriplicateの3でしたが、細胞株の実験で、細胞を起こしてからの実験が3回、最終段階の培養で3ウェルにtriplicateということもあるでしょう。これをn=9としていいかどうかも、研究者本人の考え方次第といえそうです。正しいか間違いかという議論は意味をなさず、そのやり方をしていて現実的に再現性が高い報告といえるのか、真理にどれだけ近づける研究態度なのかという問題だと思います。ちょっと違った見方をすれば、実験が現実的に成り立つやり方なのかどうか(つまり論文化可能なのかどうか)ともいえます。

自分と同じ疑問がフォーラムに投稿されていました。

ある実験でA vs Bの2群で比較するとき、 A(n=3) vs B(n=3)を3回繰り返し評価するとき、 n=9にするのか、1回毎の平均をとって、n=3にするのか どちらを選択されておられますか? 論文を拝見すると両方あるような気がいたします。(実験の取り扱いについて No.11166-TOPIC – 2023/02/02 (木) 05:15:36 – s Bio Technicalフォーラム)

  1. Error bars in experimental biology Geoff Cumming, Fiona Fidler, David L. Vaux Crossmark: Check for Updates Author and Article Information J Cell Biol (2007) 177 (1): 7–11. April 09 2007  Replicates or independent samples—what is n?

このJCBの論説では、replicate(実験手技のバラツキを補正するためのtriplicateなど)は、nにカウントしてはいけないと明言しています。

  • Similarly, a number of replicate cell cultures can be made by pipetting the same volume of cells from the same stock culture into adjacent wells of a tissue culture plate, and subsequently treating them identically. Although it would be possible to assay the plate and determine the means and errors of the replicate wells, the errors would reflect the accuracy of pipetting, not the reproduciblity of the differences between the experimental cells and the control cells.
  • If an experiment involves triplicate cultures, and is repeated four independent times, then n = 4, not 3 or 12.
  • For n to be greater than 1, the experiment would have to be performed using separate stock cultures, or separate cell clones of the same type.

Error bars in experimental biology Geoff Cumming, Fiona Fidler, David L. Vaux Crossmark: Check for Updates Author and Article Information J Cell Biol (2007) 177 (1): 7–11. April 09 2007  Replicates or independent samples—what is n?

もっともな指摘ですが、実際そうしている人ばかりでないことは明らかです。ですので、注意を喚起しています。たしかに、バラツキが大きくて当然の実験じゃないの?という場合でも、驚くほど小さなエラーバーがついた棒グラフを見かけることがあります。

Whenever you see a figure with very small error bars, you should ask yourself whether the very small variation implied by the error bars is due to analysis of replicates rather than independent samples.

Error bars in experimental biology  J Cell Biol (2007) 177 (1): 7–11.

動物個体やヒトの試料を扱う研究であれば、n=個体数 で何も悩まないでしょう。一番問題になるのは、細胞株を用いた実験だと思います。普通は、一つのラボで一つの細胞株のストックを維持しているはずですので、同一の細胞株だとn=1にしかならないの?と考えるのは現実的ではありません。細胞株Aを用いた実験結果はこうなりましたと論文報告する場合には、ラボにストックされているその単一の細胞株(たいてい凍結して保存)を用いて独立に行った実験(凍結されたストックを融解して細胞を生き返らせるところからスタート)の数がnになると思います。ただし、世の中に多数見られる驚くほど短いエラーバーから察するに、triplicate実験をn=3と数えている研究者がかなりの割合いるのではないかと推察されます(望ましいことではない)。

  1. 実験に必要なサンプル数の考え方【n=3とは?】 実験の「なぜ?どうして?」事典  Triplicate 1回の実験は “n=3” ではなく “n=1”です.

実際の論文の例

みんながどうしているのか?どんな雑誌に掲載されたどんな実験結果ではどうnを数えているのかを見てみます。

replicateをnとしてカウントしている論文の例

メジャーなジャーナルにもtriplicateをn=3回分と数えたデータ分析をしていて、論文が受理(アクセプト)されています。正しい作法だとは言えませんが、これが現実。指導する側の立場にいる研究者は、これで良しとはしないほうがよいと思います。最低限の倫理として、どういうデータ分析をした結果が図に表現されているのかを図のレジェンドに明記するということが大事だと思います。そういう意味においては、以下紹介する論文は道を外してはいません。

Figure 1e. For the MGMT mRNA means with s.d. of triplicates are displayed.

Figure 2. Luciferase activities are expressed as mean±s.d. of triplicate in one representative experiment (each experiment was repeated two to three times).

Nature Communications https://www.nature.com/articles/ncomms9904

上の論文は、triplicateで測定する実験を2~3回行っていますが、図として見せているのはtriplicateの平均および標準偏差だと説明されています。

 

Figure 2. The quantified results are expressed as mean ± SEM of three separate experiments, each performed in triplicate (n = 9).

Scientific Reports https://www.nature.com/articles/s41598-017-00997-w

上の論文は、triplicateをn=3として数えて、実験数をかけてn=9としています。

 

  • Figure 4. Data are expressed as the mean ± SEM; *, P < 0.01. Each bar represents data from three experiments performed in triplicate (n = 9).
  • All incubations were performed in triplicate, and each experiment was repeated three times using different cell preparations.
  • Figure 6. Shown are the mean ± SEM of triplicate determinations of four different experiments.

Endocrinology https://academic.oup.com/endo/article/141/3/1228/2988496

上の例はtriplicateを3回分に数えているようです。

 

  • Experiment 1. Samples were analyzed in triplicate and each experiment was repeated three times.
  • Figure FIG. 3. Values represent the mean (± SEM) for data from three independent studies, with each treatment performed in triplicate (n = 9 per observation).
  • Figure FIG. 4. Values represent the mean (± SEM) from three independent studies, with each treatment performed in triplicate (n = 9 per observation).

Journal of Bone and Mineral Research (JBMR) https://asbmr.onlinelibrary.wiley.com/doi/full/10.1359/jbmr.2001.16.4.615

上のこの論文もnの数え方が明示されていて、triplicateを3回分に数えています。

 

HUVECs cultures were plated triplicate on different Ti surfaces and plastic cell culture plate. Data are presented by the relative amount of mRNA with the formula 2urn:x-wiley:15493296:media:JBM32539:tex2gif-sup-7 taken plastic plate as a control, statistical analysis (N = 9, three groups repeated three times) was performed by ANOVA with Tukey’s multiple comparison test.

Journal of Biomedical Materials Research https://onlinelibrary.wiley.com/doi/full/10.1002/jbm.a.32539

上の論文もtriplicateを3回と数えていることがわかります。

 

望ましいnの数え方をした論文の例

Figure 2 The results represent the mean of triplicate measurements with PBMC from one healthy donor.

Figure 4 Luciferase activity is expressed as fold increase over control determined as the mean (± SD) of three independent experiments measured in triplicates.

Immunology https://onlinelibrary.wiley.com/doi/full/10.1111/j.1365-2567.2004.01874.x

上のImmunology掲載の論文は、先のJCBが指摘した厳格なnの数え方を踏襲したものになっていました。triplicateはn=3とは数えておらず、図2の棒グラフにはエラーバーを付けていません。図4の実験はtriplicateで行われていますが平均値やSDの計算に用いられたのは3回の独立した実験の結果であることが明記されています。

Figure 3. Results are mean values from experimental triplicates.

Experimental Hematology https://www.sciencedirect.com/science/article/pii/S0301472X0800180X

上の論文も、triplicateからえら得た平均値を示していますがエラーバーは付けていませんので、作法としては正しいと思います。

正しいデータプレゼンテーションができている論文は信頼度が高いと考えてよいでしょう。ちゃんとサイエンスをわかっている人が研究した成果の報告だからです。

 

データ解析で、エラーバーに表示すべきは標準偏差S.D.か標準誤差S.E.M.か?

科学研究論文の図には測定データの平均値が棒グラフで表示されていてその棒には「エラーバー」がつけられています。エラーバーが短いと測定値のバラツキが少ない、エラーバーが長いと測定値がずいぶんばらついているなと思ったりします。

さてそのエラーバーが意味するところは、標準偏差standard deviation (S.D.)でしょうか、それとも標準誤差standard error of the mean (S.E.M.)?逆の立場でいうと、自分が論文を書くときに図に示すべきはS.D.でしょうかそれともS.E.M.でしょうか?

最初に答えを言ってしまうと、ケースバイケースなのでどちらであるべきと言う言い方はできません。(S.E.M.のほうが測定数nの平方根で割った値のためバーが短くなって見栄えがよいので)「S.E.M.にしとけ」などという先生や先輩がいるかもしれませんが、もしもそんな発言があったとすれば、それは統計のことを全く理解していない証拠だと思います。

  1. Standard Error of the Mean vs. Standard Deviation: What’s the Difference? investopedia.com

生データのバラツキ(母集団のばらつき)を読者に示したければS.D.を見せればよいでしょうし、平均値だけに意味があって、生データのバラツキには興味がないのであれば、得られた平均値の信頼性を示すS.E.M.を見せればよいでしょう。なぜなら、標準誤差(S.E.M.)は、「「平均値」の標準偏差」だからです。

  1. 標準誤差とは|標準偏差との違い、エクセルを活用した計算方法を解説 2023年07月14日 GMOリサーチ 標準誤差(SE:standard error)は、推定量の標準偏差で、標本から得られる推定量そのもののバラツキを指します。

平均値の標準偏差と聞いて意味がわからない人のために説明すると、「母集団から標本をn個抽出(研究者でいえば、n回同じものの測定を繰り返す)して、平均値を求めるという操作」を仮に無限回繰り返したとします。するとこの標本平均(これが一つの確率変数)はどんな分布をするのでしょうか?実は、標本抽出を何回も繰り返してえられる「標本平均」の分布の平均値は、もとの母集団の平均値に一致し、その標準偏差の値は、上で求めた標準誤差(S.E.M.)の値になります。だから、測定データセットの標準偏差母集団のデータのばらつきを示すのに対して、測定データセットの標準誤差は、測定された平均値と言うデータのばらつきを示しているのです(「n回の測定」を、多数繰り返して、多数の「平均値」を得たと仮定)。つまり標準誤差を示すことにいよって、その平均値がどれくらいもっともらしいかを示せるわけです。測定回数nを大きくすればするほど(nの平方根でわるので)標準誤差は小さくなりますが、平均値の推定の信頼性が上がるということになります。

さて結論として、S.D.かS.E.M.かですが、自分の考えですが、例えば動物の行動量のように個体差が大きくて個体差のバラツキも読者に伝えたければS.D.を示すことに意味があると思います。また、生化学実験で何かを定量した場合、本来サンプル間でばらつきは無いはずという前提なのであれば(バラツキの原因が手技のブレや、ピペッティング時の誤差などの避けられないバラツキ)、S.E.M.を示すほうが合理的でしょう。

  1. Question29 同じ実験を繰り返して得られた平均値の誤差を出すときに、標準偏差と標準誤差ではどちらを用いるのでしょうか? バイオ実験に絶対使える 統計の基本 2012年10月1日 羊土社

一番大事なことは、エラーバーがS.D.かS.E.M.かを論文に書くということです。当然S.E.M.のつもりだったので書かなかったというのは科学的な態度ではありません。

産学連携を英語でいうと?university-industry collaboration

産学連携を英語ではなんというのでしょうか?辞書をみると(アルク)、

academic-industrial alliance academic-industrial partnerships business-academia collaboration collaboration with industries and universities an industry-academia partnership industry-university cooperation university-industry relation

さまざまな言い方が紹介されていますが、全部が一般的だとは思えません。どれが一番一般的に使われている単語なのでしょうか。

Collaboration

university-industry collaboration

PUBMED検索により論文タイトルで最も使われている語句を調べたところ、university-industry collaborationが最も多いことがわかりました。学術誌を検索したので「産」「学」の順でなく「学」「産」の順が好まれているのでしょう。日本の政府機関やメジャーな大学もこの用語を使っている例を見かけます。

  1. “university-industry collaboration” [title] PUBMED検索 11件
  2. “university-industry collaboration” グーグルスカラー検索 23900件
  3. University-Industry Collaboration & Intellectual Property information 大阪大学 https://www.osaka-u.ac.jp/en/research/sangaku
  4. Industry-Academia Collaboration 東京医科歯科大学 https://www.tmu.ac.jp/english/research/collaboration.html
  5. RIETI Report October 2006 University-Industry Collaboration Impacting Innovation and Economic Growth The Japanese government’s series of sangaku renkei (university-industry collaboration) reforms, begun in the mid 1990s, sought to increase the contribution to national economic growth from Japan’s universities. 経済産業研究所 https://www.rieti.go.jp/en/rieti_report/075.html
  6. Best Practices for Industry-University Collaboration https://sloanreview.mit.edu/article/best-practices-for-industry-university-collaboration/
  7. University-industry collaboration: A glossary of terms As for our role in academia-industry collaboration, IN-PART operates online matchmaking platforms that simplify the initial connection between teams in academia and industry based on the alignment of research interests and priorities. https://in-part.com/blog/university-industry-collaboration-a-glossary-of-terms/
  8. COI management, research universities, and university-industry collaboration 筑波大学 https://coi-sec.tsukuba.ac.jp/en/management/collaboration/
  9. What is University-Industry Collaboration https://www.igi-global.com/dictionary/knowledge-management-in-university-software-industry-collaboration/48150
  10. A guide to university-industry collaboration for early career researchers October 23, 2020 https://ecrcommunity.plos.org/2020/10/23/a-guide-to-university-industry-collaboration-for-early-career-researchers/
  11. Barriers and facilitators of university-industry collaboration for research, development and innovation: a systematic review Published: 26 April 2023 (2023) https://link.springer.com/article/10.1007/s11301-023-00349-1
  12. Establishing successful university–industry collaborations: barriers and enablers deconstructed Open access Published: 30 March 2022 volume 48, pages900–931 (2023) https://link.springer.com/article/10.1007/s10961-022-09932-2
  13. In “Why two heads are better than one: the power of university-industry collaborations(opens in new tab/window),” a recent episode of the Research 2030 podcast, Dr. Tony Boccanfuso(opens in new tab/window), President of UIDP(opens in new tab/window) (University-Industry Demonstration Partnership), notes that, in the United States, the government’s role has been relatively hands-off, but that trend is changing globally. https://www.elsevier.com/academic-and-government/university-industry-collaboration
  14. Scandinavian Journal of Management Volume 31, Issue 3, September 2015, Pages 387-408 Scandinavian Journal of Management Universities–industry collaboration: A systematic review Author links open overlay panelSamuel Ankrah a, Omar AL-Tabbaa b https://www.sciencedirect.com/science/article/abs/pii/S0956522115000238
  15. https://www.oecd.org/innovation/university-industry-collaboration-e9c1e648-en.htm
  16. What makes industry–university collaboration succeed? A systematic review of the literature. Industry–university collaborations (IUCs) have received increased attention in management practice and research.https://link.springer.com/article/10.1007/s11573-018-0916-6
  17. How can university-industry collaboration foster innovation and entrepreneurship? https://www.linkedin.com/advice/1/how-can-university-industry-collaboration
  18. The Power of University–Industry Collaborations: Collaborating with Universities Makes Products More Attractive to Consumers 7.25.2023 Lukas Maier, Martin Schreier, Christian V. Baccarella and Kai-Ingo Voigt https://www.ama.org/2023/07/25/the-power-of-university-industry-collaborations-collaborating-with-universities-makes-products-more-attractive-to-consumers/
  19. University-Industry Collaboration in Teaching and Learning Review https://www.education.gov.au/higher-education-reviews-and-consultations/university-industry-collaboration-teaching-learning-review
  20. A framework to improve university–industry collaboration Richa Awasthy, Shayne Flint, Ramesh Sankarnarayana, Richard L. Jones Journal of Industry – University Collaboration ISSN: 2631-357X Open Access. Article publication date: 25 February 2020 Issue publication date: 8 April 2020 https://www.emerald.com/insight/content/doi/10.1108/JIUC-09-2019-0016/full/html
  21. Factors impacting university–industry collaboration in European countries Bojan Ćudić, Peter Alešnik & David Hazemali Journal of Innovation and Entrepreneurship volume 11, Article number: 33 (2022) https://innovation-entrepreneurship.springeropen.com/articles/10.1186/s13731-022-00226-3

industry-academia collaboration

産学連携の直訳としては、industry-academia collaborationではないかと思います。日本の政府系のウェブサイト(AMEDなど)を見てもこの単語が使われているように思います。

  1. “industry-academia collaboration” [title] PUBMED検索 6件
  2. “industry-academia collaboration” グーグルスカラー検索 5500件
  3. The Gibco™ CTS™ Rotea™ system story-a case study of industry-academia collaboration https://pubmed.ncbi.nlm.nih.gov/34108630/
  4. The purpose of this initiative is to conduct a wide range of industry-academia collaborations in non-competitive areas over multiple years against the area that are difficult for single academia or company to address (Areas where basic research and drug discovery technologies have not produced sufficient results due to the limited number of patients or the necessity for collaboration among different industries etc.), and to implement research and development for innovative pharmaceuticals, medical devices, healthcare, etc. that cannot be created through conventional schemes. https://www.amed.go.jp/en/program/list/18/03/002.html
  5. Hopefully we will see this very wonderful industry, academia collaboration happening between a global university, like Oxford University, and a company in India. https://www.elsevier.com/academic-and-government/university-industry-collaboration
  6.  The study highlights a number of considerations and concerns that need to be addressed in future industry-academia collaborations that draw on trace data or usage telemetry. https://pubmed.ncbi.nlm.nih.gov/37251306/
  7. We additionally report feedback from the technology developers to demonstrate impact of industry-academia collaboration. https://pubmed.ncbi.nlm.nih.gov/36937251/
  8. Co-designing the model based on previous knowledge demonstrates a viable approach to industry-academia collaboration and provides a practical solution that can support practitioners in making informed decisions based on a holistic analysis of business, organisation and technical factors. https://pubmed.ncbi.nlm.nih.gov/36875006/
  9. This study shows the role of digital transformation in amplifying the effects of TMT diversity on green innovation and the crucial role of industry-academia-research collaboration as a mediator. https://pubmed.ncbi.nlm.nih.gov/37954178/
  10. How Grenoble has mastered industry-academia science collaborations https://pubmed.ncbi.nlm.nih.gov/36658353/

academia industry collaboration

  1. As for our role in academia-industry collaboration, IN-PART operates online matchmaking platforms that simplify the initial connection between teams in academia and industry based on the alignment of research interests and priorities. https://in-part.com/blog/university-industry-collaboration-a-glossary-of-terms/

business-academia collaboration

  1. “business-academia collaboration” グーグルスカラー検索 261件
  2. Another example of this business-academia collaboration is our work on building acoustics.  https://hbr.org/2016/05/industry-academic-partnerships-can-solve-bigger-problems

Partnership

industry-academia partnership

  1. “industry-academia partnership” グーグルスカラー検索 1780件
  2. We expect that such a model of industry-academia partnership could well be a fountainhead for creating the sustainable buildings that hot and humid climates will need in the future. https://hbr.org/2016/05/industry-academic-partnerships-can-solve-bigger-problems
  3. The Industry-Academia Partnership (IAP) is association founded in 2013 that brings together industry and university experts to pursue research in Web 2.0 and 3.0 applications and infrastructure, including AI and machine learning, hardware acceleration, networking, security, and storage. https://www.industry-academia.org/

academic-industry partnership

  1. “academic-industry partnership” グーグルスカラー検索 1080件
  2. The discovery of a novel antibiotic for the treatment of Clostridium difficile infections: a story of an effective academic-industrial partnership https://pubmed.ncbi.nlm.nih.gov/26949507/

University-industry partnership

  1. Why University-Industry Partnerships Matter ANTHONY M. BOCCANFUSOAuthors Info & Affiliations SCIENCE TRANSLATIONAL MEDICINE 29 Sep 2010 Vol 2, Issue 51 p. 51cm25 DOI: 10.1126/scitranslmed.3001066 https://www.science.org/doi/10.1126/scitranslmed.3001066

Alliance

academia industry alliance

  1. “academia industry alliance” グーグルスカラー検索47件
  2. The Academia Industry Alliance aims to connect entrepreneurs, scientists, technology workers and businesses. https://www.cuanschutz.edu/services/academia-industry-alliance

Cooperation

  1. University-Industry Research Cooperation 日本学術振興会 https://www.jsps.go.jp/english/e-soc/

産学官連携についても見てみます。

  1. Outlook on Industry-Academia-Government Collaborations Impacting Medical Device Innovation https://pubmed.ncbi.nlm.nih.gov/37860788/
  2. Industry-government-academia collaboration takes many forms, typical examples at Kyoto University being: 京都大学 https://www.kyoto-u.ac.jp/en/global/global-partners/industry
  3. We are an organization at Hokkaido University that establishes the Policy on Government-Industry-Academia Collaborations and crystallizes the integration of research findings into society. 北海道大学 https://www.mcip.hokudai.ac.jp/en/service/collaboration/

日本語の論文を英文論文で引用するときの書法は?

英語で論文を書くときに、日本語で和雑誌に発表された論文を引用したい場合がありますが、そのときはどのように引用すればよいのでしょうか。著者氏名や論文タイトルを日本語で書くのは明らかに不適切です。最近は日本語論文であっても、概要とタイトルだけは英語も付いている例が多いですが、そうでない場合には自分で英訳してしまってよいものなのでしょうか?

英語で論文を書く際に日本語の文献を引用した場合において、
①文献名の表記方法について、参考になる資料はないか。
②引用部分を翻訳して記載することに問題はないか。

レファレンス協同データベース

自分が抱いた疑問と全く同じ質問がすでにネット上にありました。回答を読むと、自分で翻訳して引用するのはOKのようです。また、原著が日本語であることを注釈としてつけることもしてよいようです。

95%信頼区間とは?やっと理解できた一番わかりやすい説明

統計学の教科書を読んでいて、今までどうも腑に落ちなかったというか、しっくりこなかったことの一つが、「95%信頼区間」です。

区間推定とは真の母数の値θが、ある区間(L,U)に入る確率を1-α以上になるように保証する方法であり、‥

具体的に数値として計算した現実の信頼区間に対して、”1-αの確率でθを含む”ということはない

統計学入門 東京大学教養学部統計学教室編 1991年 東京大学出版会 225ページ

教科書を読んでいて、さっき言ったことと逆のこと言ってない??みたいな説明に惑わされている人は自分以外にもたくさんいるのではないでしょうか・

95%信頼区間とは、何か知りたい値(真の値と呼びましょう)があったとします。血圧の値でもいいし、ある遺伝子の発現量でもいいでしょう。それを知るために「観察」あるいは「観測」をして値を得ます(観測値と呼びましょう)。観測値には誤差がつきものなので、観測は複数回行ってその平均値を求めておくことが多いです。そして、統計学的な計算によって、95%信頼区間を求めます。95%信頼区間は、

(8.3 ~ 11.5)

などとなるわけです(数字はテキトーです)。今問題にしたいのはこの解釈です。

統計学の教科書やネット解説記事で良く見かける注意として、「真の値は95%の確率でこの区間内にある」と解釈するのは間違いですというものがあります。

そうではなく、「真の値が含まれる範囲がこの区間である確率が95%」と解釈するのが正しいのです。

  • 「真の値は95%の確率でこの区間内にある」
  • 「真の値が含まれる範囲がこの区間である確率が95%」

この2つの解釈は日本語の字面だけを見ていると、何が違うの?日本語の意味同じだよね?と思って、いつも混乱させられてきました。今日は、この問題に決着をつけたいと思います。

真の値は未知なのですが、あるきまった値です。信頼区間が(8.3 ~ 11.5) だからといって、真の値(もしくは母平均)が9だったり、10だったり11だったり(観察するたびごとに)変化する可能性はないのです。未知なだけで、もしそれが10なら10です。真の値というものは、観察を繰り返しても絶対に変化しない値です。

因果関係で言えば、真の値は「原因」であり、観測値(信頼区間)は「結果」です。「原因」は最初から決まっているので、原因が変動するという解釈は許されないのです。

それに対して、95%信頼区間は観察ごとに(観測値ごとに)変わり得るものです。観測値は毎回異なるものですし、その観測値に基づいて信頼区間を算出するのですから、信頼区間が毎回観察ごとに変わるのは当たり前です。ただし研究者は通常、観察は一回(測定は複数しても、それら全体を一つの観察と考えた場合)しかしませんので、現実的には、信頼区間は一つしか求めません。信頼区間が多数ありえるというのは、あくまで、観察を仮に何回も繰り返したらという仮定の話です。信頼区間を正しく解釈するためには、この仮定が重要なのです。

ある観察では信頼区間が(8.3 ~ 11.5)と計算されたとしても、もう一度観察をすると観測値が少し変わるでしょうから、得られる平均値も変わり、信頼区間は今度は (7.9 ~ 10.3) と計算されるかもしれません。観察を何回も繰り返すと、真の値はホントウは10なのにも関わらず、95%信頼区間として(6.1 ~ 8.9) などという結果を得るかもしれません。つまり95%信頼区間はあくまで95%信頼できる区間であって、100回観察して信頼区間が100通り得られた場合に、95回くらいは正しいが、残り5回くらいの結果は間違っている可能性があるというわけなのです。(6.1 ~ 8.9) を得てしまった場合は、その間違いの5%のくじを引いてしまったようなものです。

真の値=10.000だったとして、ある観察により95%信頼区間が(6.1 ~ 0.8) だと結論したとします。観測値は毎回ブレるので、このように真の値が実は観測値に基づいて算出した信頼区間に入っていない!なんてことも起こりえるのです。このケースの場合、真の値がこの区間(つまり、6.1から0.8の間)にある確率が95%という解釈が間違いだということを納得して頂けるのではないでしょうか。[6.1 ~ 0.8]という区間はたまたま得られた観測値に基づいた値に過ぎず、その区間自体に大した意味はないので、その区間を基準に真の値がどこにあるかを議論することは意味をなしません。

「真の値が含まれる範囲がこの区間である確率が95%」ということだけのことで、実際は5%の確率で間違っちゃうのですから、ある観察により(ホントウは真の値=10.000であるのにも関わらず)、 (6.1 ~ 0.8)という95%信頼区間を得たとしても、なんら不思議ではないのです。

真の値は未知ではあるがどこかある値で固定されたものなのに対して、95%信頼区間は、観察ごとに得られる数値であって、観察するたびに(観測値ごとに)毎回変わるということが、理解のために必須の大事なポイントですね。

じゃあ、ある観察に基づいて95%信頼区間が与えられました。その区間内に真の値が存在する確率は?と聞かれたら95%という答えになりそうです。さっきと何も違わないじゃないか?ということで、堂々巡りです。

本質的な違いは一体何なのでしょうか???

真の値は、ある区間がひとつ与えられたときにその区間に沿って(もしくはその区間の内外を)動くわけではない、動きながらこの辺である確率はこうみたいなことにはならないというのが論点なのでしょう。(観察のたびに)動くのは区間の方なのです。

結局何が間違いなのかというと、区間が与えられてそれが固定した状態で「真の値」が動く、つまり確率的にいろいろな値を取ると考えたり解釈するとしたらそれは間違いですよということだと思います。

これで決着がついたのかというと、そうでもありません。決着をつける準備が整ったのです。既に定まっていることの確率を考えるのはおかしいというのが、ここまでの議論でした。ところが、世の中にはベイズの定理というものに基づいた「事後確率」という概念が存在します。複数の原因があったときに、今得られた結果から、原因が何だったのかを推定しましょうというものです。ベイズの考え方では、既に起きてしまっていること(原因)をあたかも確率変数のように捉えて、事後で得られた情報をもとに原因を推定することをよしとしています。これこそまさに、95%信頼区間の「誤まった解釈」そのものでしょう。真の値はすでに決まっているとはいえ、現実問題としてその値を知らないわけだから、それを確率変数(すなわちいろいろな値を取りえるもの)とて考えて何が悪い!というわけですね。

伝統的頻度論での真値は点であり、信頼区間は「範囲内に真の値を含む確率」として理解されるが、ベイズ統計学では真値は確率分布し信用区間は「真の値が存在する確率範囲」として理解される。 頻度主義統計学でしばしば間違いであると指摘される、「□□の値が a から b の間に入る確率は○%である」との言い方は、ベイズ統計学においては正しい。(信用区間 ウィキペディア)

  1. 信頼区間を正しく理解してますか?確信区間との違いって何ですか? 2017年08月13日 @katsu1110 Qiita
  2. ベイズ信用区間(Credible Interval)とは何ですか? 2020.04.28/2020.05.08 猫薬プロジェクト3rd〜ある薬剤師の備忘録〜

さきほどこの記事の上のほうで、

因果関係で言えば、真の値は「原因」であり、観測値(信頼区間)は「結果」です。「原因」は最初から決まっているので、原因が変動するという解釈は許されないのです。

と書きましたが、ベイズ流の考えかたでは、まさにこの「原因」が確率的に決まると考えるわけですね。だからこそ、ベイズ流の考え方は異端としてなかなか受け入れられなかったのです。当然、従来の統計学の考え方に則れば、受け入れられません。

現在、IT やリスクマネジメント、経済学、意志決定理論の各分野で非常に 重要な役割を果たしているベイズ統計。しかし、その250 年あまりの歴史の ほとんどにおいて、統計学界では異端視され、冷遇されてきた。 それはなぜなのか? またそれにもかかわらず、死に絶えることなく生き残り、 現在、広く利用されているのはなぜなのか? 今まで語られることのなかったベイズ統計の数奇な遍歴。

異端の統計学 ベイズ 単行本 – 2013/10/23 シャロン・バーチュ マグレイン (著), Sharon Bertsch McGrayne 書籍紹介ページより

結局、ベイズ的な立場でものを話すか、そうでないかで変わるということのようです。基本的に多くの研究論文で使われる統計学(とくに臨床系の論文)は、ベイズ統計の考えではなく従来の統計学の考え方でデータ処理をしているのが普通だと思います。なので、真の値を確率変数と考えるという考え方は、間違いと言わざるを得ないんでしょう。立場が違うと、正しいか間違いかの議論すらできなくなるのですね。95%信頼区間の解釈をなぜ多くの人が”間違う”のかというと、普通の人にはベイズ的な考えかたが意識せずとも普通に受け入れられているからなのだと思います。

もうこうなると何が間違いで何が間違いでないのかがわかりにくくなりますが、態度を先に決めないといけないのです。科学的態度は唯一無二だという前提があるから、議論がかみ合わないのでしょう。

 

統計学の教科書にどんな説明があるか見てみます。

区間推定とは真の母数の値θが、ある区間(L,U)に入る確率を1-α(αはθが区間に入らない確率)以上になるように保証する方法であり、

P(L≦θ≦U)≥1-α

となる確率変数L,Uを求めるものである。

同一の母集団から抽出した標本でも、標本ごとに信頼区間の推定値は変化する。θは未知ではあるが決まった定数である。したがって、一つの標本から信頼区間を具体的な数値として推定してやれば、これは信頼区間に含まれる含まれないかのいずれかしかない。すなわち、具体的に数値として計算した現実の信頼区間に対して、”1-αの確率でθを含む”ということはない。信頼区間の意味は、繰り返し多くの異なった標本について信頼区間をここで述べた方法によって何回も計算した場合、θを区間内に含むものの割合が1-αとなるということである。

(統計学入門 東京大学教養学部統計学教室編 1991年 東京大学出版会 255ページ)

上の説明を読むと自分の解釈ですが、母集団の定数はあるきまった値(例えば平均値)であって、それを確率変数であるかのように捉えて議論してはいけないということなのかなと思います。

母集団の定数が固定された状態で、95%信頼区間の上限と下限が動くのであって、それを逆にして、信頼区間の上限と下限を固定して母集団の定数を確率変数のように捉える考え方は違いますよということでしょう。

こうした区間の設定はX平均をたとえば100回観測し、そのつど上述の区間を作った場合に95回程度は母数μの真の値を覆うという信頼度をもっていることになる。

(統計入門 中村隆英 ほか 1984年 東京大学出版会 195ページ)

コインをN枚投げてx枚が表になった場合、

このxとμ=N/2、σ=√N /2 から、z=x-μ /σ と計算したzが、

不等式-1.96≦z≦+1.96を満たす確率は0.95です。

つまり、xを観測し、そのxからzを計算してNを棄却していく作業をした場合、本当の正しい枚数Nが生き残る確率は、おのおのの観測値xに対して、どれも0.95にとなるわけです。したがってどのような観測値xが出た場合でもこの方法でNを推定していく手続きを繰り返すなら、そのうち95パーセントの推定結果は当たっているというのが正しい解釈なのです。

95パーセントというのは、「区間13≦N≦30に、本当のNとしてありうるものの95パーセントが入る」という見積ではなく、「区間推定という手続きを実行し続けるなら、観測値に対応してさまざまな区間が求まるが、その100回のうち95回は本当のNが求めた区間に入る」そういう見積もりになる、そういうパーセントなのです。

(小島寛之 完全独習 統計学入門 ダイヤモンド社 103ページ)

上の『完全独習 統計学入門』の説明が一番詳細で突っ込んだ表現のように思います。「確率」というと混乱しますが、”Nとしてありうるものの95パーセント”ではないと説明されていますので、これはまさにNは確率変数ではないということでしょう。このことはこの本の前のページ(102ページ)にも説明がありました。

「表の枚数が10枚と観測されたとき、母数Nが95パーセントの確率でこの13≦N≦30の範囲に入っている」という意味ではないのです。

そもそもNは、「不確実にこれから決まるもの」ではなく、「すでに確定しているのだが、知らないもの」なのです。「Nが異なれば母集団は異なる」わけです。

私たちの扱っている不確実現象とは、「固定された母集団からどのデータが観測されるか」というものでした。このとき決まった一定の仕組みで確率的に数値が出るのは、母数Nではなく、あくまで観測される数値のほうなのです。

(小島寛之 完全独習 統計学入門 2006年 ダイヤモンド社 102ページ)

母数Nが95パーセントの確率で13≦N≦30の範囲に入ると解釈することが間違いだといった場合、その意味するところは、母数Nが確率変数でありその(いろいろな値を取り得る確率変数Nのうちの)95パーセントが13≦N≦30の範囲に入っていると解釈するのであればその解釈は間違いだということのようです。

すでに確定しているけど未知のものを確率の対象として考えること自体は、一般的に別に問題ないのだと思います。だからこそ自分は何年も混乱したままだったのでした。問題視されているのは、「区間を決めてから母数の真の値を確率変数として取り扱うこと」およびそういう態度から出てきた発言なのでしょう。

区間推定はある確率(信頼度1-α)をもって、推定を区間で示す方法である。

(基礎医学統計学改訂第6版 2011年 南江堂 83ページ)

上の説明の意味は、「95%の確率でその推定が正しい」ということです。「95%の確率でその区間内に問題としている母数が存在する(つまり、その前提として、母数は区間内外のいろいろな値を取り得る確率変数である。つまり、その確率変数(さまざまな値がありえる)はその区間内に95%存在し、その区間外に5%存在する)」という意味にとってはいけないということが、今ならわかります。母数は、一つしかないので区間内に存在するか、しないかでしかないわけですね。確率的に決まる、さまざまな値を取り得る変数だという扱いをしてはいけないわけです。

結局、混乱を引き起こしていた元凶は日本語の意味するところの曖昧さ、多義性なのだと思います。

「母数が95%の確率で区間内に存在する」という日本語には2つの解釈があり得て、

(1)(母数は一つしか存在しない値だが)そういう推定が正しい確率が95%(母集団をまず決め、観測を行い、推定を行った)

(2)(母数は確率変数であり)区間内で見つかる確率が95%(区間をまず決め、母数を変数であるかのように扱おうとしている)

という解釈の(2)は間違いで(1)は間違いではないということなのでしょう。

また、それ以前の話として、原因となるもの、真の値、母集団の統計値を確率変数のように考えて事後確率を計算する立場に身を置いているか、そうでないかが根本的な違いとして存在していました。

 

95%信頼区間の説明が腑に落ちるまで、一体何年(何十年?)かかったんだろう、自分。。わかりやすい説明(=そう説明してもらえれば自分でも理解できるという説明(『完全独習 統計学入門』))に出会うのに何十年もかかってしまった。もしくは、真剣に考える時間をとろうと決心するのに、それだけの時間がかかってしまっただけなのかもしれません。

区間推定とは真の母数の値θが、ある区間(L,U)に入る確率を1-α以上になるように保証する方法であり、‥

なお、同一の母集団から抽出した標本でも、標本ごとに信頼区間の推定値は変化する。θは未知ではあるが決まった定数である。したがって、一つの標本から信頼区間を具体的な数値として推定してやれば、これは信頼区間に含まれるか含まれないかのいずれかしかない。すなわち、具体的に数値として計算した現実の信頼区間に対して、”1-αの確率でθを含む”ということはない。信頼区間の意味は、繰り返し多くの異なった標本について信頼区間をここで述べた方法によって何回も計算した場合θを区間内に含むものの割合が1-αとなるということである。

統計学入門 東京大学教養学部統計学教室編 1991年 東京大学出版会 225ページ

あらためて統計学の教科書を読み直すと、なんだ、ちゃんと書いてあるじゃんと思えました。

きちんと書かれた教科書(しかしどの教科書がそうかは、勉強中の人間には判断がつかない!)をじっくり読み込み、読み返すことも大事ですが、もっとわかりやすい説明をしてくれる教科書を他で探すのもまた良い戦略です。

参考

95パーセント信頼区間とは、さまざまな観測値から同じ方法で区間推定をすると、そのうちの95パーセントは正しい母数を含んでいる、そういう区間のことである。

小島寛之 『完全独習 統計学』ダイヤモンド社 106ページ

『完全独習 統計学』は、今までの統計のモヤモヤを解消してくれる素晴らしい本だと思いました。下の説明は、自分にはあまりわかりやすくありません。”95%の試験結果が収まる”って何?って思いました。どんな説明が一番わかりやすいと思えるかは、人それぞれです。自分にとってのベストの説明を探すしかありません。もしくは自分で考え抜いて、腑に落ちるところまで妥協しないか。

。「95%信頼区間」は、同じ試験を繰り返したときの結果の範囲のうち、95%の試験結果が収まる範囲のことである(区間推定)。

医療情報をわかりやすく発信するプロジェクト理解しにくい医学研究用語有意差、95%信頼区間

確率変数XをaX+bに変換したときの平均値と標準偏差、および、いわゆる偏差値の計算方法

確率変数X(あるいは標本値X)をaX+bに変換したときの平均値と標準偏差は、平均はbを足したものとなり、標準偏差はa倍になります。

この事実を利用すると、標本値から標本平均を引いた場合の平均は、平均―平均=0となり、標本値から標本平均を引いたものを標準偏差で割ったものをあらたな変数と考えると、標準偏差に標準偏差分の1をかけることになるので(定数項は関与しない)、変数変換した場合の標準偏差が1になります。つまりZ=(Xーμ)/σ という変数変換を行うとZは、標準偏差が1で、平均が0になるわけですね。

  1. 小島寛之『完全独習統計学入門』(ダイヤモンド社)49ページ 加工されたデータの平均値と標準偏差

今まで、この変数変換の話がどの統計の教科書を読んでもしっくりこなかったのですが、小島寛之『完全独習統計学入門』の説明を読んで、この変数変換のご利益がなんて素晴らしい!と思いました。

この考え方がわかると、偏差値も簡単に理解できます。

偏差値とは

ある人のテストの点数Xとして、そのテストの平均点がμ、標準偏差がσだったとすると、

Z=(X-μ)/σ と変数変換したときに、Zの平均は0,標準偏差は1になります。ある人の点数がx点だったとすると、それを変数変換してz点とし、標準偏差を単位として表そうというわけです。

z=(x-μ)/σ

これをいわゆる偏差値にするには、これに10をかけて(つまり標準偏差1ユニットを10とする)、さらに50をたします(つまり平均を50とする)。

z点を取った人の偏差値は、

偏差値=zx10+50 = ((x-μ)/σ) x 10 +50

です。この考えかたのミソは、点数を「標準偏差」を単位として表すというところです。テストの点数は2SDでしたというのもなんなので、2x10+50=70 偏差値は70でしたというわけです。偏差値60は、1SDです。偏差値80は3SDですね。偏差値が40~60の間に全体の68%が入る(正規分布に従うとして)というわけです。偏差値70の人は2SDのところにいるので、上位2.5%にはいっています。

  1. 小島寛之『完全独習統計学入門』(ダイヤモンド社)53ページ

偏差値というのは、標準偏差を単位にしたスコアというのが核心ですね。今日からは、「あの人は偏差値が80だって!スゲー!」というかわりに、「あの人は3SDの成績だって!スゲー!」といったほうが、凄さが伝わるような気がします。

標準偏差の意味

小島寛之『完全独習統計学入門』(ダイヤモンド社)に標準偏差の考え方として面白い例が紹介されていました。模擬テスト10回分の成績が平均60点、標準偏差10点のA君と、平均50点、標準偏差30点のB君とでは、どちらが難関大学に合格できるチャンスがあるでしょう?というお話です。A君の成績は安定していますが、合格ラインが80点の大学には届かないでしょう。それに対して、B君は標準偏差30点つまり、ムラッ気があるためにトンデモなく悪い点を取ることもあればかなり良い点も取ることがあるわけで、80点をとる可能性もあるということがわかります。なので、平均点が低いB君のほうが、ワンチャンが期待できるということです。

  1. 小島寛之『完全独習統計学入門』(ダイヤモンド社)48ページ 複数のデータセットの比較

この本、面白いですね。自分が今まで考えたことがなかったような統計の見方を教えてくれます。