2012年7月26日木曜日

Complete Genomicsの新技術: 高精度全ゲノムシーケンシングとハプロタイピング

 以前のGOクラブで、「ヒト全ゲノムシーケンシングの受託解析企業であるComplete Genomicsは、IlluminaやIon Torrent (Life Tech)などどの競争が激化し、苦戦が続くであろう」と考察した。その後も、業績は上向かず、今年6月5日には従業員約20%にあたる55人の解雇を発表した。Complete Genomicsは、7月12日に「10~20細胞からの高精度ヒト全ゲノムシーケンシングとハプロタイピングの論文がNature誌に掲載されたこと」をプレスリリースした。この発表が注目を集め、株価も約50%上昇した。今回のGOクラブでは、Complete GenomicsがNature誌で公開した「Long Fragment Read(LFR)技術」を紹介するとともに、Complete Genomicsの今後の展開の可能性について考察してみたい。


Long Fragment Read(LFR)技術の源流

 LFR技術の源流は、Complete GenomicsのCo-FounderであるDr. Radoje Drmanacの発明にさかのぼる。Dr. DrmanacがCallida Genomics, Inc.にいたときに開発した技術は、名称“Nucleic acid analysis by random mixtures of non-overlapping fragments”の特許(United States Patent 7,901,891)として成立しており、2006年にComplete Genomicsにライセンスされている。ヒトゲノム配列決定を例として、この技術のエッセンスについて述べると、ゲノム由来の断片をマイクロウェルなどに分注したときに、希釈していくと、重複するゲノム領域がなくなる。そのような状態で各ウェルのDNAをシーケンシングし、アセンブルすると、ハプロイドの配列が得られる。

LFR技術の原理

  LFR技術の詳細については、タイトル“Accurate whole-genome sequencing and haplotyping from 10 to 20 human cells”の論文が、Nature 487, 190–195 (2012)に発表されているので、その論文を参照されたい。以下に、LFR技術の要点をまとめる。

(1) ヒト・ディプロイド・ゲノム由来の大きなDNA断片を384-wellsのマイクロタイタープレートに分注する。濃度は、1 wellあたり0. 1 genome(=300 Mb)とする。この濃度条件では、同じ染色体領域が同一のwellに存在する確率は約10%であり、さらに同じ親由来の領域が重複する確率は約50%なので、全く同一の断片が重複する確率は約5%となる。1 well あたり、ハプロイドゲノムの10~20%のDNAを含んでおり、384-well全体では、両親(父方、母方の両方)由来のゲノムについて、19~38倍の冗長度でカバーできる計算になる。

(2) phi29 DNAポリメラーゼによるMDA(Multiple Displacement Amplification)法を用いて染色体DNAを約10,000倍増幅する。増幅後のDNAは、独自開発の“CoRE Fragmentation法”を用いて次のような仕組みで断片化する。まず、MDAによる複製時に一定頻度でUracilを取り込ませた増幅DNAを調製し、続いてuracil DNA glycosylaseとendonuclease IVにより1 bpギャップを生成させる。次に、各ギャップからDNA polymerase Iによる伸長反応を行うことにより、平滑末端を持つDNA断片(大きさ:300~1,500 bp)が得られる。

(3) 生成したDNA断片に対して、各wellを識別する10 bpのバーコードアダプターとPCR増幅用の共有プライマーDNAを連結する。

(4) 384-wellのDNA混合物を1つにまとめた後、共通プライマーを用いてPCR法によりDNA断片を増幅した後に、Complete Genomicsが開発した“cPALシーケンシング法”により、各断片の配列を35 bp×2のモードで配列決定を行う。

LFR技術のスペック(性能)

 合計10種類のヒトゲノムについてライブラリー作製とシーケンシングが行われた。平均10~20細胞から約100 pgの染色体DNAを得て、ライブラリーを作製している。 MDA法による増幅はGCバイアスやキメラDNAの生成が問題となるが、最終的な解析結果を見ると、この問題は解決されている。

得られた各ハプロタイプ由来の配列をアセンブルすることにより、97%のSNP(Single Nucleotide Polymorphism)がハプロタイプ特異的コンティグにアセンブルできることがわかった。このようにハプロタイプ別にアセンブルしてSNPを選別することにより、配列エラーを100万分の1(百万塩基に1個のエラー)に減少させることに成功している。非常に良い精度である。しかも、100 pgという極微量DNAを出発材料としてヒト全ゲノム高精度配列データを得ることができる点で驚くべきものがある。なお、このアセンブル法によって得られたコンティングの長さは中央値としては60 kbであった。

考察

 Complete Genomicsが開発したLFR技術は、「シーケンシング精度が非常に良い」、「必要サンプルは10細胞と非常に少なくて済む」、そして「SNPのハプロタイピングも可能」という3点で、魅力がある。ただし、この技術は「Complete Genomicsによる受託解析」という形態でしか利用できない。他のシーケンサーによる解析価格が大きく下がる中、Complete Genomicsの解析価格も気になるところであるが、シーケンシングの前工程としてのLFR工程は、通常のライブラリー合成プロセスに付け加えることができ、コストも100ドルで済むらしい。

 LFR技術は、他のシーケンシング法のためのライブラリー調製にも使えると思うので、利用者の立場からは、キット提供なども行ってほしい。ただし、熟練した分子生物学的実験技術とオートメーション化を必要とするはずなので、他の研究機関がトレースするのは困難と思われる。

 以前も考察したが、Complete Genomicsは自社シーケンシング技術のみにこだわり、受託解析という形態を取っているがゆえに、シーケンシングコストも高止まりし、多額の赤字続きである。ナノポアシーケンサーの登場などにより競争も激化する中、リストラも行った上、ファイナンシャル・アドバイザーであるJefferies & Co.と契約を結んだ。合併、会社売却、増資なども視野に入れて検討を進めると発表しているが、利用者にとっても、他社との融合により、より良いサービスや製品が出てくることを期待したい。