2015年12月11日金曜日

Dovetail Genomics、ショートリードシーケンサーのデータから超ロングリード配列を再現

 ショートリードシーケンサーは、置換変異や小さな欠失・挿入変異を高精度に同定することを可能にしたが、ゲノムの大きな構造変化の検出や長いゲノム配列の取得には不向きである。これらの問題を解決する多数の技術の開発が進んでいるが、今回のGOクラブでは、Dovetail Genomics LLC (Dovetail Genomics) が開発した技術を紹介する。


ショートリードシーケンサーの短所を克服する技術

  ショートリードシーケンサーの短所である「ゲノムの大きな構造変化の検出や長いゲノム配列の取得」を克服する技術としては、まず、前々回のGOクラブでも紹介したPacBioシーケンサーやOxford Nanoporeシステムなどのロングリードシーケンサーが挙げられる。
 古くは、ショートリードシーケンサーのフラグメント・ライブラリーのシーケンシングデータに加えて、メイトペア・ライブラリー(Mate-Pair Library)のシーケンシングデータを用いて、ショートリード配列のアセンブリーにより生成するコンティグ配列を連結する方法もよく用いられてきた。
 また、長いDNAの所々に何らかの方法でマークを付与して、それらマークをもとに構造の違いを検出方法についても、OpGen、BioNano Genomics、Nabsysなどが技術を開発しており、これら技術の概要は以前のGOクラブでも紹介した。なお、Nabsysは今年9月14日付の記事で倒産が報じられている。
 これらの技術に加えて、ショートリードシーケンサーの配列データを用いて、長いDNA配列を再現する“Synthetic Long Read(合成ロングリード)”と呼ばれる手法も複数登場した。合成ロングリード法としては、Moleculoが最初に実用化したが、IlluminaがMoleculoを買収し、サービスとキット製品を提供している。10X Genomicsが今年2月に新しい手法を発表したことはすでにGOクラブで紹介したが、その後今年6月30日から合成ロングリード用機器であるGemCode Instrumentの市販を開始した。そして、Dovetail Genomicsが開発した合成ロングリード技術である“Chicago Method”が、受託サービスの形態で利用できるようになることが今年10月20日に発表された。Chicago Methodを用いると、高等動物のゲノム配列決定の場合、平均10 Mb程度の一つながりのDNA配列(超ロングリード配列)が得られることが明らかにされた。なお、Chicago Methodについては、今年の3月11日付のOmics! Omics!(Keith Robinson氏のブログ)で、詳しい紹介がなされている。

Chicago Methodの内容

  Dovetail Genomicsが開発したChicago Methodとは、「精製したDNA分子にヒストンたんぱく質などを加えることにより人工的にクロマチン構造を形成させると、概ね5 kb以内の遠く離れたDNA領域同士が接近する。それらの領域を連結させて、その連結部位の配列を決定すれば、遠く離れたDNA領域同士の位置関係情報が得られる」という原理に基づく。すなわちメイトペア・ライブラリーを用いたシーケンシング法に近い手法である。
 より詳しくは、次に示す(a)~(e)までの5つの工程からなるシーケンシング方法である。(a) 細胞から抽出したDNAを150 kb程度の長い断片に分断した後、(b) これら断片をIn vitroでクロマチン構造を形成させ、さらにフォルムアミドを用いた固定化処理を施す。(c) MboIやMluCIなどの4塩基認識制限酵素で消化することにより生じた末端をビオチン化核酸塩基とSH基を持つ核酸塩基を用いて平坦末端にした後、(d) 互いに近傍にあるDNA末端同士を連結する。(e) 脱タンパク質処理を施した後、ビオチン化されたDNA断片だけを濃縮し、シーケンシング用ライブラリーを作製し、ショートリードシーケンサーで配列決定を行う。
 続いて、次のようにして超ロングリード配列を得ることができる。Chicago Methodを用いて構築したDNAライブラリーのシーケンシングに加えて、通常の方法により作製したDNAライブラリーを用いてショートリードシーケンサーを用いて配列決定を行う。後者のデータを用いてアセンブリーを行い、コンティグ配列(短い配列を連結して得られる長い配列)を得る、そして、Chicago MethodのデータをもとにソフトウェアHiRiseを用いて、コンティグ配列をつなげることにより超ロングリード配列を得ることができる。
 社名Dovetail Genomicsの"Dovetail"は、「鳩の尾」または「蟻継ぎ(木材の結合法)」の意味を持つ。社名は、おそらくChicago法の過程で生成するDNA断片の末端が「鳩の尾」に似ていて、2つの末端の結合法が「蟻継ぎ」を連想させることから由来していると思われる。

Chicago Method - HiRiseのスペック

  Chicago Methodでシーケンシングを行い、ソフトウェアHiRiseを用いてアセンブルすることにより、N50値が10 Mbを超えるスペックが得られている。アメリカアリゲーターの新規ゲノム解析では、N50値=10 Mbが得られている。N50値は、アセンブリーによる得られるコンティグ配列を長い順番に並べたときに、上から順番に各コンティグ配列の長さを足し合わせた合計の長さがコンティグ配列の長さの総和の50%になったときのコンティグ配列の長さを意味している。ヒトゲノム解析では、N50値=26 Mbの成績も得られている。最近6か月間でもアカデミアおよび企業からの依頼で50以上のアセンブリーを行い、優れた結果が得られていることを発表している
 アセンブリーのエラー率は正解のゲノム配列がないので、正しい率を計算できないものの、10%未満と推定される。アセンブリーでなく、ヒトゲノムのハプロタイプ・フェージング(Haplotype Phasing;子供のゲノム配列について、父親または母親由来の領域を同定すること)を行ったときの精度については、すでにハプロタイプの配列がわかっているヒトゲノムNA12878配列では、同定精度は99.83%であった。
 なお、解析対象については、Moleculoの技術と10X Genomicsの技術と同じく、微生物から高等生物に至るまで、すべての生物のゲノムが対象となる。

Dovetail Genomicsのビジネス

  Dovetail GenomicsのChicago Method - HiRise技術を使ったアプリケーションは、新規ゲノム解析だけでなく、ハプロタイプ・フェージングとゲノムの大きな構造変化の検出が可能である。Dovetail Genomicsは今年10月20日に本技術を使った受託解析サービスを開始することを発表した。解析対象は主に新規ゲノム解析であり、ユーザーがショットガンライブラリーを用意したようなケースであれば、料金は10,000ドル程度まで抑えられるという。Dovetail Genomicsは、ユーザーが自身の一般的なラボ設備でChicago Methodによるライブラリーを構築できるキットの販売を将来的に計画していること、さらにメタゲノム解析への展開も検討していることを公表している。

競合技術との比較

 Dovetail Genomicsと競合する技術は、Moleculoの技術と10X Genomicsの技術である。まず、Moleculoの場合、5~10 kbのDNA断片のロングリード配列を得る技術なので、Dovetail Genomicsの技術(150 kbのDNA断片のロングリード配列)と比べると見劣りがする。10X Genomicsの技術については、N50値が5 Mbを超えているので、Dovetail Genomicsの技術と同等と言えるが、公表されているデータを吟味すると、新規ゲノム配列決定の場合には、Dovetail Genomicsの技術の方が若干優れている印象を受ける。10X Genomicsの技術の場合にはサンプル量が1 ngでも解析可能であるが、Dovetail Genomicsの技術を使った場合、5μg程度のDNAサンプルが必要となり、大きく劣っている。この点、新規ゲノム解析では多くの場合十分なDNA量を取得できるが、がん組織のゲノム解析など微量のDNAしか調製できない場合には、Dovetail Genomicsの技術の利用は困難、あるいは不可能である。
 また、10X Genomicsの技術は最初に機器を購入する必要があるが、Dovetail Genomicsの技術を使う場合、通常のバイオ系のラボに設置されている機器だけで実験を行えるので、初期費用は安価になる利点がある。しかし、高等動物の新規ゲノム解析を委託した場合、シーケンシングなども含めると総コストは40,000ドルほどとなり、解析コストは安価とはいえないので、さらなるコストダウンを期待したい。