再現性なんてないさ(?)
※この投稿は「今年読んだ一番好きな論文2016」 Advent calendarの12月21日の記事です。
(わざわざ手描きにしたのに結局著作権が危うい絵を描いている)
どうもこんにちは、博士論文(仮)を提出したばかりのぴちぴちのD3、@calicolicaliです。学生最後ということで、院生しか登録できないAdvent calendarに登録させていただきました! ʕ◔ϖ◔ʔ
「統計について」という事前コメントをしましたが、 私の専門はアルゴリズム寄りのComputational Biologyで、これまではRNA二次構造予測ソフトウェアParasoRの開発や、配列アラインメントソフトウェアLASTの開発に関わらせていただいたりしてきました。(ご興味あればぜひ!)しかしこの分野では「網羅的な遺伝子データや配列情報を扱うためには統計や機械学習が必要!」ということで、日々これらの分野の勉強をしております。
そんな私が紹介する、今年読んだ一番好きな論文はこちら(`・ω・´)つ
去年の8月にサイエンス誌に投稿された論文ながら、Google scholarではすでに652本のサイテーションがなされています。
この論文は発表後様々な研究者によって正当性を検証するコメントや論文がでており、そして、最近Natureなど大手の雑誌でも心理学に加えて生物学など様々な分野でのReproducibilityに関する記事が書かれ注目が集まっています。この論文はその流れを大きく加速させたといっても過言ではないと思います。
ググったところ日本語でのブログでも既にいくつか紹介されていますし、ご存知の方もいらっしゃるかと思いますが、発表から1年経って、その後の分野全体の反応なども含めてまとめようと思います。
元の論文で有意だったp-valueと、Reproducibility project of Psychological Sciences (RP:P)によって検証実験を行った結果のp-valueの比較プロットです。 p-valueに普段なじみのない方は、ランダムだったときに起こる確率=p値と思ってください。そこからどれだけ現実に起こりえないかを基準に、見つけた傾向がランダムでないという仮説の正当性を示しています。 散布図なので密度はわかりませんが、ほぼほぼ0-1の間をランダムに分布しているように見えるわけです。元の論文では皆 p-value<0.06だったのにも関わらず、です。
って率直に思いませんか?そしてこんなおおがかりな検証どうやってやったんだろう、と気になりますよね?
本論文の著者にはOpen Science Collaborationの名前が入っています。このプロジェクトについて、こちらのwikiに載っている歴史を少し紹介しますと、2011年に心理学や社会政策の人々がボードのトップを連ねるCenter for Open scienceによってコンダクトされ、2014年にデータ収集が終了、2015年から報告論文を出しているプロジェクトです。そして研究自体はCOSが運営しているOSFというオープンサイエンスのためのフレームワーク上で進められました。(↓見た目はこんな感じ)
このフレームワークはgithubやdropbox, AWSなどのサイエンスのために必要なリソースを統合して、contributerが自由に追加や編集を加えていくことでサイエンスのプロジェクトを進めていくためのサービスです。すでに進んでいるプロジェクトはやはり心理学の分野などが多いですが、調べると患者さんに対する調査・統計処理が必要なBiomedicalの分野などでもプロジェクトが作成されています。 また授業で使っている先生もいるようで、私もぜひ試してみたいと思っています。このようなオープンサイエンスの特性から本論文のオーサーには様々な所属の人たちが入っており、例えばサイエンス論文に一番に名前が載っている方はGoogle scholarなどでの肩書はなんとcitizen scientist、コメントへの反論論文ではコーネル大学の政治や政策の分野の教授が1stに入っています。
(著者数は270ぐらいだそうです)
3ジャーナルから2008年に出たすべての論文からサンプリングを行い、contributerの経験・専門分野・希望する内容に応じて振り分け、再現実験を行った(このとき特殊な集団に対するものや、特別な機器を必要とするものは除く)。そこからオリジナルと再現実験で様々な特徴量を得た。
これらを利用して、
などについて解析を行った。
ちなみに相関係数はFisher's transform (arctanh(ρ))によって真の相関係数とサンプルサイズに依存した正規分布状に変換できるので、それによって信頼区間を計算しているはず。多分。そうすると95/100回の実験においては母平均がその範囲に入るはずなので、オリジナルのeffect sizeがその範囲に入っていれば推定の妥当性という意味では成功していると考えられる。 その結果
このような傾向は、元の論文では有意な結果がでた場合にしか報告されないというバイアスが存在するからではないか、と考えられる。
また再現の成功と関連する指標を調べた結果、
その後は様々な反響があり、まずサイエンス誌に反論のテクニカルコメントが寄せられました。再現された実験はオリジナルに忠実に沿っていないものも見られるという点や、著者らが得たp値による有意性の棄却は、偶然得られる程度の数であるという指摘がなされました。
著者らはその後の返答で以下のような反論を示し、テクニカルコメントでの解析は統計的な仮定をおかなければ得られないもので、「悲観的にも楽観的にもみることができる」と主張を下方修正しています。個人的な解釈では”経験的に得られた結果が真に正しいかどうかはまた別”であり、それは”オリジナル・レプリケイト両者の結論に対して言える”ことなのだということが一貫して示したかったのではないかと思います(これらの流れについてはこのニュースがわかりやすいです)
それから解析手法に対するコメントのビデオや、BMC psychologyでも記事が寄せられました。後者では(さすが哲学という感じの難しい言葉使いでいろいろとボロクソに言ってるのが面白いのと)心理学の分野でデータの再解析(特に取得)の難しさをあげており、データのシェアを喜んでしてくれるかどうか、が統計的な結果のクオリティと相関があるという恐ろしい論文も過去に発表されています。
Willingness to Share Research Data Is Related to the Strength of the Evidence and the Quality of Reporting of Statistical Results
141のペーパーの著者に(実人数は多少減るけども量がすごい)データをシェアしてほしいとお願いしたところ「42.9%が共有、26.5%が無反応、6.1%が拒否(紛失や時間がないなど)24.5%が約束はしてくれたがまだ共有されていない(これはフォローアップしていく)」という結果だったらしく、そこからp値の計算の正確性などを評価している。これがまとめられているのがすごい()。私だったら学会に行くのが怖くなりそう。
(わざわざ手描きにしたのに結局著作権が危うい絵を描いている)
どうもこんにちは、博士論文(仮)を提出したばかりのぴちぴちのD3、@calicolicaliです。学生最後ということで、院生しか登録できないAdvent calendarに登録させていただきました! ʕ◔ϖ◔ʔ
「統計について」という事前コメントをしましたが、 私の専門はアルゴリズム寄りのComputational Biologyで、これまではRNA二次構造予測ソフトウェアParasoRの開発や、配列アラインメントソフトウェアLASTの開発に関わらせていただいたりしてきました。(ご興味あればぜひ!)しかしこの分野では「網羅的な遺伝子データや配列情報を扱うためには統計や機械学習が必要!」ということで、日々これらの分野の勉強をしております。
そんな私が紹介する、今年読んだ一番好きな論文はこちら(`・ω・´)つ
"Estimating the reproducibility of phychological science"
Open Science Collaboration. Science 349.6251 (2015): aac4716.
ざっくり解説
この論文は心理学の分野の3つのジャーナルに2008年に出た約100の実験的な相関解析に対して再実験を行い、どのような実験・結果であれば再現性が得られるのかということを調べた論文です。元論文の97%で有意なp値が得られていたものに対して、再現実験では有意とされたものは37%、95%信頼区間に入ったものが47%、元論文のデータと組み合わせても最終的に68%までしか有意性を確かめられなかった、という報告がなされました。この論文は発表後様々な研究者によって正当性を検証するコメントや論文がでており、そして、最近Natureなど大手の雑誌でも心理学に加えて生物学など様々な分野でのReproducibilityに関する記事が書かれ注目が集まっています。この論文はその流れを大きく加速させたといっても過言ではないと思います。
ググったところ日本語でのブログでも既にいくつか紹介されていますし、ご存知の方もいらっしゃるかと思いますが、発表から1年経って、その後の分野全体の反応なども含めてまとめようと思います。
きっかけ
最近の私の興味が「再現性ってなんだろう」「再現性を高めるにはどうすればよいのか」そして「どんな再現性があれば生物学的に意味があるのか」という点で、それらに関係する話を追っていました。
ただ、この論文自体は去年発表された論文なのですが分野外かつ勉強不足で読んでおらず。。私がこの論文を知ることになったきっかけは、最近みかけた驚異(脅威)的なこのツイートでした。
Here are the p-vals of the (significant) original findings vs. their RP:P replication p-vals with proper (identical) scales. Pretty scary. pic.twitter.com/I83sOprHx2— JP de Ruiter (@JPdeRuiter) November 5, 2016
元の論文で有意だったp-valueと、Reproducibility project of Psychological Sciences (RP:P)によって検証実験を行った結果のp-valueの比較プロットです。 p-valueに普段なじみのない方は、ランダムだったときに起こる確率=p値と思ってください。そこからどれだけ現実に起こりえないかを基準に、見つけた傾向がランダムでないという仮説の正当性を示しています。 散布図なので密度はわかりませんが、ほぼほぼ0-1の間をランダムに分布しているように見えるわけです。元の論文では皆 p-value<0.06だったのにも関わらず、です。
えっやばくね???:(;゙゚'ω゚'):
って率直に思いませんか?そしてこんなおおがかりな検証どうやってやったんだろう、と気になりますよね?
どうやって始まったか
このフレームワークはgithubやdropbox, AWSなどのサイエンスのために必要なリソースを統合して、contributerが自由に追加や編集を加えていくことでサイエンスのプロジェクトを進めていくためのサービスです。すでに進んでいるプロジェクトはやはり心理学の分野などが多いですが、調べると患者さんに対する調査・統計処理が必要なBiomedicalの分野などでもプロジェクトが作成されています。 また授業で使っている先生もいるようで、私もぜひ試してみたいと思っています。このようなオープンサイエンスの特性から本論文のオーサーには様々な所属の人たちが入っており、例えばサイエンス論文に一番に名前が載っている方はGoogle scholarなどでの肩書はなんとcitizen scientist、コメントへの反論論文ではコーネル大学の政治や政策の分野の教授が1stに入っています。
(著者数は270ぐらいだそうです)
ちなみにCOSのスポンサーには大手企業の他にbarbarplotsキャンペーンで集められたお金も含まれています。若手研究者がこういうことを楽しんでしているのはとてもよいと思います。
(↓棒グラフにこだわるのはやめようという愉快なキャンペーンビデオ)
(↓棒グラフにこだわるのはやめようという愉快なキャンペーンビデオ)
ちょっと詳しい内容
3ジャーナルから2008年に出たすべての論文からサンプリングを行い、contributerの経験・専門分野・希望する内容に応じて振り分け、再現実験を行った(このとき特殊な集団に対するものや、特別な機器を必要とするものは除く)。そこからオリジナルと再現実験で様々な特徴量を得た。
- p値
- effect size=相関係数(すべてのeffect sizeは可能な限り相関係数に変換した)
- 再現できたか否か(多変数の相関など複雑な場合もあるため実験者からの回答を利用)
- 結論の意外性(実験者がプロトコルに従って評価)
- インパクトファクター(サイテーション数など)
- 実験者の専門度合いなど
これらを利用して、
- p値の分布の中心性
- レプリケイトの95%信頼区間に入っているか
- effect sizeの大きさの違い
- どのような要素が再現性と関連があるか
などについて解析を行った。
ちなみに相関係数はFisher's transform (arctanh(ρ))によって真の相関係数とサンプルサイズに依存した正規分布状に変換できるので、それによって信頼区間を計算しているはず。多分。そうすると95/100回の実験においては母平均がその範囲に入るはずなので、オリジナルのeffect sizeがその範囲に入っていれば推定の妥当性という意味では成功していると考えられる。 その結果
- 有意に同じ方向(符号)のeffect sizeを示した。
- しかしp値で有意と判定されたものは35(36.1%) 件のみであった。(期待値は89/97。ユニフォームな分布ではなく0の方に偏った分布ではあった)
- 相関係数の標準偏差が計算できるもので41%(期待値は78.5%)、F検定とχ二乗検定で68%、全体で47.4%が95%信頼区間にオリジナルのeffect sizeが含まれていた。
- オリジナルのeffect sizeは再現よりも有意に正に偏っており、両者には正の相関があった。
- オリジナルとレプリケイトを組み合わせ、fixed-effectモデル(分散の逆数をウェイトとしてかけ、サンプル数が多いものをより評価する)を用いた解析では、68%は95%信頼区間に0を含まず有意であると判定された。
このような傾向は、元の論文では有意な結果がでた場合にしか報告されないというバイアスが存在するからではないか、と考えられる。
また再現の成功と関連する指標を調べた結果、
その後
その後は様々な反響があり、まずサイエンス誌に反論のテクニカルコメントが寄せられました。再現された実験はオリジナルに忠実に沿っていないものも見られるという点や、著者らが得たp値による有意性の棄却は、偶然得られる程度の数であるという指摘がなされました。
- サンプリング エラーのみを想定しており、失敗率の期待値が極端に低い
- データ収集のメソドロジーが大きく異なり(例えばアメリカでのヒスパニックに対する差別意識をイタリア人で実験しているなど)、元論文の著者がプロトコル作成に関わっている時には再現率が高い。
- 偶然失敗する割合をNosek(コレスポ)の前の論文(MLP)で、一部をオリジナル・残りをレプリケイトとしてOSCのガイドラインに沿って検証すると65.5%しか再現に成功しなかった。
- OSCでは一度しかレプリケイトをとっていないが、30回近くレプリケイトをとったMLPでは成功率があがっている
著者らはその後の返答で以下のような反論を示し、テクニカルコメントでの解析は統計的な仮定をおかなければ得られないもので、「悲観的にも楽観的にもみることができる」と主張を下方修正しています。個人的な解釈では”経験的に得られた結果が真に正しいかどうかはまた別”であり、それは”オリジナル・レプリケイト両者の結論に対して言える”ことなのだということが一貫して示したかったのではないかと思います(これらの流れについてはこのニュースがわかりやすいです)
- サンプリングエラーレイトは正確に計算すると期待値78.5%で、それに対しても47.4%と低い値だった
- MLPをペアワイズ比較したものはレプリケイトのeffect sizeが大きいものが半数近くあったが、OSCではレプリケイトのeffect sizeがオリジナルのものを超えたのは5%だけだった
- 元論文ではeffect sizeは出版バイアスから大きいものが多いが、レプリケイトでは83%がより小さなeffect sizeを示し、この傾向は変わらないと考えられる
- MLPのデータセットは小さな&ad hocなデータセットで、今回はよりインパクトファクターの高い雑誌からのサンプリングである(しかもコメントのオーサーたちの検証ではMLPではなくもっと数の少ない別のデータセットを使っているようだ )
- 例として挙げられた異なるメソドロジーの半分(3/6件)は元の著者も関わった上で条件の変更にポジティブであり、その内1件が再現に成功している
- 著者の参加は再現者の自信と相関があるため、本論文の著者がもっと参加してブラッシュアップされたプロトコルでやったらもっとよいね!
それから解析手法に対するコメントのビデオや、BMC psychologyでも記事が寄せられました。後者では
参考
141のペーパーの著者に(実人数は多少減るけども量がすごい)データをシェアしてほしいとお願いしたところ「42.9%が共有、26.5%が無反応、6.1%が拒否(紛失や時間がないなど)24.5%が約束はしてくれたがまだ共有されていない(これはフォローアップしていく)」という結果だったらしく、そこからp値の計算の正確性などを評価している。これがまとめられているのがすごい()。
論文誌でも特集がなされるようになり、はじめにあげたNatureのニュース特集や、BMC Biologyでも再現性やデータの可視化に関する様々な問題点を提起するトピックが更新されています。おすすめは、様々な分野に「再現できましたか」というアンケートを行った記事と、バイオロジカルレプリケイトの話が簡潔かつわかりやすくてよかったです。米国統計学会がp値の使用に対する6原則を提唱したことも話題になりました(PDFはこちら)。
しかし「再現性」というものを考えたときに、どこまで繰り返せば正しいと証明できるのかという問いには答えは存在しません。繰り返すためには時間・コストが必要ですし、動物実験であれば実験の試行回数はできる限り少なくするべきです。その点を考えると、遠く離れたラボと姉妹ラボ提携をして再現を試みることをpublishの条件に課せば、多様な条件のレプリケイトを用意できるため望ましいのではないかと本論文を読んだときにアイディアとして浮かびました。 また「原因となる遺伝子などの候補を絞ればよい」NGS解析と、統計の結果から結論を導く心理学の分野では、必要とされるクオリティーも異なるはずです。現在OSFで同様にCancer Biologyの分野での再現性プロジェクトも進行中で、NSCなど引用数の多い論文からサンプリングされた50本のガン論文に関して再実験を行っているようです。予算などの問題もありオミクス解析については省略しているようですが、こちらの結果は随時eLifeにあがるそうなので楽しみですねフフフ...(..◜ᴗ◝..)
しかし「再現性」というものを考えたときに、どこまで繰り返せば正しいと証明できるのかという問いには答えは存在しません。繰り返すためには時間・コストが必要ですし、動物実験であれば実験の試行回数はできる限り少なくするべきです。その点を考えると、遠く離れたラボと姉妹ラボ提携をして再現を試みることをpublishの条件に課せば、多様な条件のレプリケイトを用意できるため望ましいのではないかと本論文を読んだときにアイディアとして浮かびました。 また「原因となる遺伝子などの候補を絞ればよい」NGS解析と、統計の結果から結論を導く心理学の分野では、必要とされるクオリティーも異なるはずです。現在OSFで同様にCancer Biologyの分野での再現性プロジェクトも進行中で、NSCなど引用数の多い論文からサンプリングされた50本のガン論文に関して再実験を行っているようです。予算などの問題もありオミクス解析については省略しているようですが、こちらの結果は随時eLifeにあがるそうなので楽しみですねフフフ...(..◜ᴗ◝..)
まとめ
心理学の分野での再現性を検証する論文で、検証実験のうち1/3~1/2程度しか再現性が得られなかったという結果が報告されました。この結果についてはまだまだ議論の余地はあるようですが、そもそも実験をするという上で「どのようなプロセスでデータをとり」「そのデータをどう処理し」「どう保管して検証実験のためにシェアするか」ということは、多くの分野において間違い無く重要な問題であると考えられます。
最後に、本論文のディスカッションの終わりがシビれるので紹介します。
"The claim that "we already know this" belies the uncertainty of scientific evidence.
Innovation points out paths that are possible; replication points out paths that are likely; progress relies on both. "
「それはもうわかっている」と断言してしまうことは、科学的な物証の不確かさの存在をねじまげて伝えてしまうものだ。イノベーションは可能な道を指し示し、レプリケーションはもっともらしい道を指し示す。そして進歩とは、その両者に依るものなのである。
とりあえず私とオープンサイエンスコラボレーションしましょう!!!゚゚・✿ヾ╲(。◕‿◕。)╱✿・゚:✲:
最後に、本論文のディスカッションの終わりがシビれるので紹介します。
"The claim that "we already know this" belies the uncertainty of scientific evidence.
Innovation points out paths that are possible; replication points out paths that are likely; progress relies on both. "
「それはもうわかっている」と断言してしまうことは、科学的な物証の不確かさの存在をねじまげて伝えてしまうものだ。イノベーションは可能な道を指し示し、レプリケーションはもっともらしい道を指し示す。そして進歩とは、その両者に依るものなのである。
とりあえず私とオープンサイエンスコラボレーションしましょう!!!゚゚・✿ヾ╲(。◕‿◕。)╱✿・゚:✲:
コメント
コメントを投稿