Illuminaシーケンシング試薬TruSeqの現行v2キットと新v3キットとの比較
上表に、Paired-End LibraryをHiSeq2000シーケンサーでシーケンシングを行った場合の現行v2キットと新v3キットの性能の比較をまとめた。上表からわかるように、新キットはリード数が3倍になり、その他のパフォーマンスはほとんど変わっていない。なお、v3キットでは、GC領域でのカバレッジも大きく向上していることが示されている。Illuminaの発表によると、v2キットと比べて、v3キットが大幅に改善された理由は下記の通りである。 (1) クラスターキットの改良1(クラスターの高密度化): 425K/mm2から750~850K/mm2に増加 (2) クラスターキットの改良2(GCとATリッチなクラスターの補正): 高密度でもGCリッチなクラスターを大きくかつ明るくすることで検出可能にした。 (3) SBSキット(シーケンシング反応キット)の改良: 新しいポリメラーゼにより高密度クラスターでも塩基取り込み効率が改善され、また1塩基伸長時のノイズ低減とシグナル衰退が改善された。 (4) ソフトウェアの改良: 新しいソウトウェアバージョン(HCS、RTA)と組み合わせて高密度でもパスフィルターのクラスターが向上した。 Illuminaの宣伝では、1ラン600 Gbと記載されているが、これは2つのフローセルの合計の出力量に当たる。2つのフローセルを同時にランする場合には、ラン日数も増えることに留意する必要がある。配列決定精度は、80%以上のリードがQ30以上と記載されており、かなり精度が高いという印象を与えるが、この数値の意味については、次に議論したい。 |
Illuminaシーケンサーの配列データ精度について
次世代シーケンサーの性能も向上し、ヒト全ゲノム配列を試薬コストレベルで50万円以下でデータが得られるようになった。また、Pacific BiosciencesのRSシーケンサーやIon Torrent PGMシーケンサーなど、スピーディーなシーケンシングが行える機種も利用できるようになった。ヒトゲノムなどゲノムサイズが大きい生物のゲノム解析における課題の一つとして配列決定精度の問題が残っている。上表のIlluminaシーケンサーのスペックは、精度が悪いクラスターをフィルタリングした後の数値であるが、得られるリードの10~20%にはかなりのエラーが入っている。これがアセンブルやマッピング後のSNP同定に悪影響を及ぼすことが問題になる。個人ゲノムの配列を決めても、SNPとエラーの高精度判別もできないので、意味ある結果がなかなか得られない。さらに、用いるソフトウェアや解析条件でも結果が大きく異なることも問題である。 ジナリスでは、独自開発のトリミング&フィルタリング技術により各リードを精査し、配列データ精度を大幅に向上させる手法を確立している。この手法を用いると、精度は向上するが、配列量は約20~30%減少する。したがって、HiSeq2000とTruSeq v3を用いてヒト全ゲノム配列を決定する場合、1フローセルあたり2ゲノムの解析が妥当と思われる。精度向上の具体例については、こちらを参照されたい。これらアセンブルやマッピングの精度に関しては、用いるソフトウェアごと、および解析条件により大きく変わることがわかっているが、使用ソフトウェア/解析条件とフィルタリング技術の組み合わせにより、実用的に利用できるデータを得ている。詳しくは、第9回国際ゲノム会議のテクノロジープレゼンテーション(7月12日)で、この問題とその解決法を紹介するので、そのプレゼンテーションを聞いていただきたい。 |
今後の課題
上述のように、Illumina HiSeqシーケンサー/キットの性能も大きく向上し、ヒト全ゲノム配列もリーズナブルな価格で決定できるようになった。しかしながら、「配列決定エラー」、そして「アセンブルやマッピングの精度などソフトウェアに依存して発生するエラー」により、SNPと目的フェノタイプの連関を発見するには、まだまだ課題が多い。精度高い配列を得るには、上述の解決法以外に、2つ以上の異なるシーケンシング原理に基づくシーケンサーのデータを合わせる方が望ましい。さらに、精度高いデータが得られたとしても、膨大なSNPのデータが出力されるので、有用データのマイニングも今後解決すべき大きな課題である。ジナリスでは、この課題解決のために、ゲノム解析サーバGiGSの変異解析オプション、およびクラウドサービスGiNeSのMオプション(変異解析オプション)を開発し、ユーザに提供している。 |