論文を書くときに、n=9などと書きますが、その実験の例数nはどう数えているのでしょうか?異なる分野の研究者と話をしていると、nの数え方が実は、研究分野によって独特だったりするような気がします。
nは個体数
マウス10匹を用いて、各個体におけるある遺伝子の発現量を定量しました。と言う場合は、n=10でわかりやすいでしょう。しかし、実際には、その10匹は1つがいの両親から得られた(1匹の母親から同時に得られた)同腹の10匹だったのか、何回もことなるペアを掛け合わせてえられた10匹(1匹ごとに両親が異なるかもしれないし、数匹は同腹かもしれない)だったのか、いろいろありえるでしょう。親個体が異なれば当然、遺伝子発現量の個体差(遺伝的な背景による差)が大きくなる可能性があります。極端な話、違う系統のマウスの個体を混ぜて10匹としていれば、さらに個体差(系統差)が大きくなるでしょう。通常は一つの系統を使いそのことを論文中に明示します。それが別の系統をつかうと実験結果が変わってくることもあります。マウスのように系統が確立していればまだいいですが、他のモデル生物のように純系が無い場合もあります。そうなると、異なるラボで(ことなる系統のモデル動物を使っているため)結果が再現できないということが起こりえます。雄と雌を揃えたのかどうかなども、実験結果に影響する可能性があります。また遺伝子発現が概日周期を持って変動する場合には、その個体からいつ細胞や臓器を調整したか(1日のうちの何時に)でも結果がばらつく恐れがあります。
個体に由来する細胞の調整であれば(例えば、個体を解剖して脳や肝臓やその他の臓器などから、細胞を取り出して培養する、primary culture)、3個体に関して実験を別々に行い(異なる細胞由来の細胞を混ぜたりはもちろんしない)、3つの測定値を得ることができます。これはn=3(nは個体の数)で、最も望ましい実験だと思います。
装置による物理的な測定の数?
分光光度計で吸光度を測定したりする場合には、同じサンプルに対して何度も測定値を得ることができますし、その測定値が一定しないこともありえます。測定が安定していれば、通常は一度しか測定値を得ないことが多いでしょう。というか、光源が安定して測定値が安定してから(何回測定しても同じ値にしかならなくなってから)、1回だけ測定するのが普通です。もし何回も測定した場合でも、それをnとすることはありません。測定がばらつくのなら測定を繰り返して平均を一つの測定値とすべきでしょう。
試料をtriplicateにして各々を測定した場合
同じ試料(同じ由来の細胞などの抽出液など)をわざわざ3つのチューブに分けて処理(もしくは化学反応など)して、ピペッティングなど手技のバラツキを平均するということも良く行われます。これをn=3と数えるのかどうかは、研究者によって考え方が異なるかもしれません。手技によるバラツキは本来はあってはいけないことなので、これを例数として個別にカウントするのは違うのではないかという気がします。triplicateで実験して得られた3つの測定値は平均して、一つのデータ(値)とすべきでしょう。duplicateやtriplicateで実験することの意味、目的は本来、実験手技のバラツキを補正するためだと思います。n数を稼ぐためにそうするのは、本来の趣旨から外れるでしょう。
培養Wellの数?
96孔プレートを使って細胞を培養して何かを測定するときに、同じ細胞を3つのWellに播いておいて3つの測定値を得るのもTriplicate実験であり、上のチューブ3つに分けた実験と同じことだと思います。
培養ディッシュの数?
株化した細胞を用いた実験やプライマリーカルチャーなどの実験の際に、同一の細胞をディッシュ3枚に播いておいて、それらのディッシュごとに細胞を調整して遺伝子発現をみるなり生化学実験を行うなりしてデータを3つ得るということがあります。これもtriplicate実験で、ディッシュごとのバラツキ(本来はばらつく理由がないですが、さまざまな実験手技によるバラツキ)を補正するのが目的で、これをn=3とするのは趣旨として違うように思います(しかし、実際にはこれをn=3と数えて論文化している研究者は多いと思います)。
細胞調整(細胞をおこしたり)実験の数?
凍結保存してある細胞株を融解して培養して何か生化学実験を行ってデータを得る場合に、細胞をおこすことに関して3回独立に行って、実験結果の再現性を確認するということもあると思います。これをn=3と数えて、再現性がありましたと結論するのは一般的に行われていると思います。その際、培養に用いる血清のロットが変わってしまって、結果がなかなか再現されにくくなってしまうということもあるでしょう。そもそも培養液に添加する血清のロットが変わったくらいで実験結果が変わってしまうのであれば、そんな実験結果を報告することに意味はないと思います。なぜなら、他の研究室では再現できない結果だというわけですから。
さて、何をもってnとするかについて考えてきましたが、これら異なる階層を混ぜてよいか?という問題があります。3個体から別々に肝臓を取り出して肝細胞を調整して、実験する段階では1個体からの肝細胞については3枚のディッシュで別々に培養して(つまりtriplicate実験)サイトカインの定量を行ったときに、これはn=3(nは個体数)と考えるのか、n=3×3=9(nは実験数)とするかという問題です。標本抽出は、同一の母集団からランダムに行うという統計学の常識から考えれば、n=9とするのは無理があるように思います。しかし個体が異なっても、細胞の調整が異なっても、本来それらはバラツキがないはずだという理想的なことを考えれば、n=9が間違いとも言い難いものがあります。ただ現実問題として生物学的には様々な要因でバラツキが生じるものなので、現実的に考えれば、異なる階層のものをまぜこぜにするのは実験結果の解釈を困難にするだけで科学研究のやり方として筋が良いこととは言えません。
上の例では個体数3xtriplicateの3でしたが、細胞株の実験で、細胞を起こしてからの実験が3回、最終段階の培養で3ウェルにtriplicateということもあるでしょう。これをn=9としていいかどうかも、研究者本人の考え方次第といえそうです。正しいか間違いかという議論は意味をなさず、そのやり方をしていて現実的に再現性が高い報告といえるのか、真理にどれだけ近づける研究態度なのかという問題だと思います。ちょっと違った見方をすれば、実験が現実的に成り立つやり方なのかどうか(つまり論文化可能なのかどうか)ともいえます。
自分と同じ疑問がフォーラムに投稿されていました。
ある実験でA vs Bの2群で比較するとき、 A(n=3) vs B(n=3)を3回繰り返し評価するとき、 n=9にするのか、1回毎の平均をとって、n=3にするのか どちらを選択されておられますか? 論文を拝見すると両方あるような気がいたします。(実験の取り扱いについて No.11166-TOPIC – 2023/02/02 (木) 05:15:36 – s Bio Technicalフォーラム)
- Error bars in experimental biology Geoff Cumming, Fiona Fidler, David L. Vaux Crossmark: Check for Updates Author and Article Information J Cell Biol (2007) 177 (1): 7–11. April 09 2007 Replicates or independent samples—what is n?
このJCBの論説では、replicate(実験手技のバラツキを補正するためのtriplicateなど)は、nにカウントしてはいけないと明言しています。
- Similarly, a number of replicate cell cultures can be made by pipetting the same volume of cells from the same stock culture into adjacent wells of a tissue culture plate, and subsequently treating them identically. Although it would be possible to assay the plate and determine the means and errors of the replicate wells, the errors would reflect the accuracy of pipetting, not the reproduciblity of the differences between the experimental cells and the control cells.
- If an experiment involves triplicate cultures, and is repeated four independent times, then n = 4, not 3 or 12.
- For n to be greater than 1, the experiment would have to be performed using separate stock cultures, or separate cell clones of the same type.
Error bars in experimental biology Geoff Cumming, Fiona Fidler, David L. Vaux Crossmark: Check for Updates Author and Article Information J Cell Biol (2007) 177 (1): 7–11. April 09 2007 Replicates or independent samples—what is n?
もっともな指摘ですが、実際そうしている人ばかりでないことは明らかです。ですので、注意を喚起しています。たしかに、バラツキが大きくて当然の実験じゃないの?という場合でも、驚くほど小さなエラーバーがついた棒グラフを見かけることがあります。
Whenever you see a figure with very small error bars, you should ask yourself whether the very small variation implied by the error bars is due to analysis of replicates rather than independent samples.
Error bars in experimental biology J Cell Biol (2007) 177 (1): 7–11.
動物個体やヒトの試料を扱う研究であれば、n=個体数 で何も悩まないでしょう。一番問題になるのは、細胞株を用いた実験だと思います。普通は、一つのラボで一つの細胞株のストックを維持しているはずですので、同一の細胞株だとn=1にしかならないの?と考えるのは現実的ではありません。細胞株Aを用いた実験結果はこうなりましたと論文報告する場合には、ラボにストックされているその単一の細胞株(たいてい凍結して保存)を用いて独立に行った実験(凍結されたストックを融解して細胞を生き返らせるところからスタート)の数がnになると思います。ただし、世の中に多数見られる驚くほど短いエラーバーから察するに、triplicate実験をn=3と数えている研究者がかなりの割合いるのではないかと推察されます(望ましいことではない)。
- 実験に必要なサンプル数の考え方【n=3とは?】 実験の「なぜ?どうして?」事典 Triplicate 1回の実験は “n=3” ではなく “n=1”です.
実際の論文の例
みんながどうしているのか?どんな雑誌に掲載されたどんな実験結果ではどうnを数えているのかを見てみます。
replicateをnとしてカウントしている論文の例
メジャーなジャーナルにもtriplicateをn=3回分と数えたデータ分析をしていて、論文が受理(アクセプト)されています。正しい作法だとは言えませんが、これが現実。指導する側の立場にいる研究者は、これで良しとはしないほうがよいと思います。最低限の倫理として、どういうデータ分析をした結果が図に表現されているのかを図のレジェンドに明記するということが大事だと思います。そういう意味においては、以下紹介する論文は道を外してはいません。
Figure 1e. For the MGMT mRNA means with s.d. of triplicates are displayed.
Figure 2. Luciferase activities are expressed as mean±s.d. of triplicate in one representative experiment (each experiment was repeated two to three times).
Nature Communications https://www.nature.com/articles/ncomms9904
上の論文は、triplicateで測定する実験を2~3回行っていますが、図として見せているのはtriplicateの平均および標準偏差だと説明されています。
Figure 2. The quantified results are expressed as mean ± SEM of three separate experiments, each performed in triplicate (n = 9).
Scientific Reports https://www.nature.com/articles/s41598-017-00997-w
上の論文は、triplicateをn=3として数えて、実験数をかけてn=9としています。
- Figure 4. Data are expressed as the mean ± SEM; *, P < 0.01. Each bar represents data from three experiments performed in triplicate (n = 9).
- All incubations were performed in triplicate, and each experiment was repeated three times using different cell preparations.
- Figure 6. Shown are the mean ± SEM of triplicate determinations of four different experiments.
Endocrinology https://academic.oup.com/endo/article/141/3/1228/2988496
上の例はtriplicateを3回分に数えているようです。
- Experiment 1. Samples were analyzed in triplicate and each experiment was repeated three times.
- Figure FIG. 3. Values represent the mean (± SEM) for data from three independent studies, with each treatment performed in triplicate (n = 9 per observation).
- Figure FIG. 4. Values represent the mean (± SEM) from three independent studies, with each treatment performed in triplicate (n = 9 per observation).
Journal of Bone and Mineral Research (JBMR) https://asbmr.onlinelibrary.wiley.com/doi/full/10.1359/jbmr.2001.16.4.615
上のこの論文もnの数え方が明示されていて、triplicateを3回分に数えています。
HUVECs cultures were plated triplicate on different Ti surfaces and plastic cell culture plate. Data are presented by the relative amount of mRNA with the formula 2 taken plastic plate as a control, statistical analysis (N = 9, three groups repeated three times) was performed by ANOVA with Tukey’s multiple comparison test.
Journal of Biomedical Materials Research https://onlinelibrary.wiley.com/doi/full/10.1002/jbm.a.32539
上の論文もtriplicateを3回と数えていることがわかります。
望ましいnの数え方をした論文の例
Figure 2 The results represent the mean of triplicate measurements with PBMC from one healthy donor.
Figure 4 Luciferase activity is expressed as fold increase over control determined as the mean (± SD) of three independent experiments measured in triplicates.
Immunology https://onlinelibrary.wiley.com/doi/full/10.1111/j.1365-2567.2004.01874.x
上のImmunology掲載の論文は、先のJCBが指摘した厳格なnの数え方を踏襲したものになっていました。triplicateはn=3とは数えておらず、図2の棒グラフにはエラーバーを付けていません。図4の実験はtriplicateで行われていますが平均値やSDの計算に用いられたのは3回の独立した実験の結果であることが明記されています。
Figure 3. Results are mean values from experimental triplicates.
Experimental Hematology https://www.sciencedirect.com/science/article/pii/S0301472X0800180X
上の論文も、triplicateからえら得た平均値を示していますがエラーバーは付けていませんので、作法としては正しいと思います。
正しいデータプレゼンテーションができている論文は信頼度が高いと考えてよいでしょう。ちゃんとサイエンスをわかっている人が研究した成果の報告だからです。