Omics Club（オミックス・クラブ）: Illumina シーケンシングキットv3発売

　Illuminaは、今年5月に、HiSeq2000などのIllumina次世代シーケンサー用のシーケンシング試薬TruSeq v3キットの発売を正式に発表した。本キットをHiSeq2000シーケンサーで用いると、1ランあたり最大600 Gbの塩基配列データが得られる。出力の点では、対抗馬であるSOLiDシーケンサーを大きく引き離すことになる。当社は、Beckman Coulter Genomicsと提携して、HiSeq2000シーケンサーを用いたシーケンシングサービスを提供しているが、このHiSeq2000を用いると、1ランで計算上5、6人分のヒト全ゲノム配列（1人あたり30倍の冗長度のゲノム配列を決定した場合）が得られることになる。今回は、この格段と性能が向上したシーケンシング試薬TruSeq v3キットについて紹介する。

Illuminaシーケンシング試薬TruSeqの現行v2キットと新v3キットとの比較

HiSeq2000かつPaired- End Library の場合(2×100 bp)	TruSeq v2 (現行キット)	TruSeq v3 (新キット)
リード数(1フローセルのみ)	(最大)10億	(最大)30億
リード数(2フローセル同時ラン)	(最大)20億	(最大)60億
出力塩基量(1フローセルのみ)	(最大)100 Gb	(最大)300 Gb
出力塩基量(2フローセル同時ラン)	(最大)200 Gb	(最大)600 Gb
ラン日数(1フローセルのみ)	8.5日	8.5日
ラン日数(2フローセル同時ラン)	(11日)	11日
配列決定精度	80%以上のリードがQ30以上	80%以上のリードがQ30以上

　上表に、Paired-End LibraryをHiSeq2000シーケンサーでシーケンシングを行った場合の現行v2キットと新v3キットの性能の比較をまとめた。上表からわかるように、新キットはリード数が3倍になり、その他のパフォーマンスはほとんど変わっていない。なお、v3キットでは、GC領域でのカバレッジも大きく向上していることが示されている。Illuminaの発表によると、v2キットと比べて、v3キットが大幅に改善された理由は下記の通りである。
(1) クラスターキットの改良1（クラスターの高密度化）： 425K/mm²から750～850K/mm²に増加
(2) クラスターキットの改良2（GCとATリッチなクラスターの補正）：　高密度でもGCリッチなクラスターを大きくかつ明るくすることで検出可能にした。
(3) SBSキット（シーケンシング反応キット）の改良：　新しいポリメラーゼにより高密度クラスターでも塩基取り込み効率が改善され、また1塩基伸長時のノイズ低減とシグナル衰退が改善された。
(4) ソフトウェアの改良：　新しいソウトウェアバージョン（HCS、RTA）と組み合わせて高密度でもパスフィルターのクラスターが向上した。

　Illuminaの宣伝では、1ラン600 Gbと記載されているが、これは2つのフローセルの合計の出力量に当たる。2つのフローセルを同時にランする場合には、ラン日数も増えることに留意する必要がある。配列決定精度は、80%以上のリードがQ30以上と記載されており、かなり精度が高いという印象を与えるが、この数値の意味については、次に議論したい。

Illuminaシーケンサーの配列データ精度について

次世代シーケンサーの性能も向上し、ヒト全ゲノム配列を試薬コストレベルで50万円以下でデータが得られるようになった。また、Pacific BiosciencesのRSシーケンサーやIon Torrent PGMシーケンサーなど、スピーディーなシーケンシングが行える機種も利用できるようになった。ヒトゲノムなどゲノムサイズが大きい生物のゲノム解析における課題の一つとして配列決定精度の問題が残っている。上表のIlluminaシーケンサーのスペックは、精度が悪いクラスターをフィルタリングした後の数値であるが、得られるリードの10～20%にはかなりのエラーが入っている。これがアセンブルやマッピング後のSNP同定に悪影響を及ぼすことが問題になる。個人ゲノムの配列を決めても、SNPとエラーの高精度判別もできないので、意味ある結果がなかなか得られない。さらに、用いるソフトウェアや解析条件でも結果が大きく異なることも問題である。
　ジナリスでは、独自開発のトリミング＆フィルタリング技術により各リードを精査し、配列データ精度を大幅に向上させる手法を確立している。この手法を用いると、精度は向上するが、配列量は約20～30%減少する。したがって、HiSeq2000とTruSeq v3を用いてヒト全ゲノム配列を決定する場合、1フローセルあたり2ゲノムの解析が妥当と思われる。精度向上の具体例については、こちらを参照されたい。これらアセンブルやマッピングの精度に関しては、用いるソフトウェアごと、および解析条件により大きく変わることがわかっているが、使用ソフトウェア／解析条件とフィルタリング技術の組み合わせにより、実用的に利用できるデータを得ている。詳しくは、第9回国際ゲノム会議のテクノロジープレゼンテーション（7月12日）で、この問題とその解決法を紹介するので、そのプレゼンテーションを聞いていただきたい。

今後の課題

上述のように、Illumina HiSeqシーケンサー／キットの性能も大きく向上し、ヒト全ゲノム配列もリーズナブルな価格で決定できるようになった。しかしながら、「配列決定エラー」、そして「アセンブルやマッピングの精度などソフトウェアに依存して発生するエラー」により、SNPと目的フェノタイプの連関を発見するには、まだまだ課題が多い。精度高い配列を得るには、上述の解決法以外に、2つ以上の異なるシーケンシング原理に基づくシーケンサーのデータを合わせる方が望ましい。さらに、精度高いデータが得られたとしても、膨大なSNPのデータが出力されるので、有用データのマイニングも今後解決すべき大きな課題である。ジナリスでは、この課題解決のために、ゲノム解析サーバGiGSの変異解析オプション、およびクラウドサービスGiNeSのMオプション（変異解析オプション）を開発し、ユーザに提供している。

Omics Club（オミックス・クラブ）

2011年6月10日金曜日

Illumina シーケンシングキットv3発売 - 1ランで600 Gbを達成

Illuminaシーケンシング試薬TruSeqの現行v2キットと新v3キットとの比較

Illuminaシーケンサーの配列データ精度について

今後の課題