2011年8月9日火曜日

Pac Bio RSシーケンサーの優位性が大腸菌O104のゲノム解析で証明される

 Pacific Biosciences (以下、PacBioと略す) は、今年4月27日に、1分子リアルタイムシーケンサーであるPacBio RSシーケンサーの正式発売を発表した。第2四半期はEarly Access Customersへのアップグレードを含めて、計16ユーザーに対してRSシーケンサーが出荷された。これまでは、生データレベルでの精度が低く、かつリード長も1,000 bpを越える程度であったが、最近精度やリード長も改善された新しいChemistry C2が開発された。また、そのChemistry C2を利用して、ドイツなどで感染が流行した腸管出血性大腸菌O104 (C227-11株) のゲノム配列を決定した論文が、7月27日付けのNew England J. of Medicineに発表された。Chemistry C2は第4四半期に発売される予定であるが、この論文で開示されたデータをもとに、PacBio RSシーケンサーとChemistry C2の性能を紹介したい。


PacBio RSシーケンサーの最新スペック

C227-11株を含む7株の大腸菌O104と5株の腸管出血性大腸菌のゲノム配列がRSシーケンサーとChemistry C2を用いて決定された結果が、NEJMの論文に掲載されている。実験方法は下記の通りである。
大腸菌を培養した後、標準DNA単離法またはQiagen DNEasy Blood and Tissue Kitを用いてDNAを単離している。単離したDNAをもとに、Hydroshear Plus Shearing system (Digilab社)を用いて8~10 kbのDNAライブラリーを調製し、またCovaris S200 sonicatorを用いて~700 bpのDNAライブラリーを調製した後、剪断されたDNAはAmpure XP Solid Phase Reversible Immobilization (Beckman Coulter社) により精製・サイズ分画・濃縮された。長鎖DNA (8~10 kb)、短鎖DNA (~700 bp)、ともにPacBioの市販のキットを用いてSMRTBellライブラリーが作製され、PacBio RSシーケンサーによってシーケンシングが行われた。ポリメラーゼ反応時間は75~90分であり、各DNA分子につき、約15 kbの長さのDNAが複製される時間であった。

そのシーケンシング結果に基づくと、RSシーケンサーの性能向上の主な点は、「生データリード精度の向上」と「リード長の向上」である。シーケンシング 法は、長鎖DNAを鋳型にし、「単純に長く読むモード」と「環状短鎖DNAを何度も読むモード」の2種類があり、それぞれCLR (Continuous Long Read)、CCS (CircularConsensus Sequencing)と呼ぶ。
CLR法の平均リード長は2,550 bpで、5%のリードの長さは5,100 bpを越えて、平均6.7 kbの長さの配列が得られているので、驚異的である。今までで最も長いリード配列が得られたことになる。各リードの平均精度は、平均84.4%であった。
一方、CCS法では同じ鋳型を約5回読むことにより、コンセンサス配列を得て、リード精度を稼いでいる。CCS法の精度は97.8%であった。リード長が長くなった結果、1つのSMRTセルを用いた1ランの配列出力は従来の約2倍の90 Mbとなった。

RSシーケンサーの解析時間は短いと言っても、1回の出力量は(現時点では)多くないので、大腸菌C227-11株のゲノムをシーケンシングするのに、 CLRで48時間、CCSで56時間を要した。このシーケンシングに使われたSMRTcellは合計56個であり、かなりの経費がかかったと思われる。

de novo Assemblyが可能になった

Chemistry C2の利用により、リード精度が向上し、かつリード長が長くなったことは大きな進歩であるが、もう1つの進歩は、細菌ゲノムレベルであれば、RSシーケンサーだけでde novo assemblyが可能になったことである。NEJMの論文では、RSシーケンサーのみで、腸管出血性大腸菌O104 (C227-11株) のゲノム配列決定とde novo assemblyを実施できたことが発表された。de novo assemblyはAMOS assembly software package13、Pacific Biosciences assembler ALLORAおよびBLASRを用いて実施されたが、その方法の概要は次の通りである。
CLRデータ (冗長度190倍) に対してCCSデータ (冗長度はコンセンサス配列として35倍) をマッピングしてCLRデータのエラーを修正する。続いて、エラー修正後のCLRを用いて長いコンティグ形成を行っている。C227-11株の場合には、最終的には、37個のコンティグが得られ、C227-11株ゲノムの99.7%がカバーされていた。

他のシーケンサーとの比較

de novo assemblyの性能に関しては、Roche-454 FLXシーケンサーを用いた方法と同程度である。Illuminaシーケンサーと比べると優れているが、当社ではIlluminaシーケンサーのデータの質が悪い部分を削除する方法により、Roche-454 FLXシーケンサーを用いた方法と同程度のassembly性能を実現しているので、これら3つの方法はほぼ同じスペックになる。

C227-11株のゲノム配列決定は、上述の(A) PacBio RSシーケンサー以外に、(B) Illuminaシーケンサー+Ion Torrent PGMシーケンサ、(C) Ion Torrent PGMシーケンサ単独、そして(D) Roche-454 FLXシーケンサー+Illuminaシーケンサーを用いた結果が発表されている。NEJMの論文には、(B)のデータに対する(A)、(C)、(D)のデータのSNP解析の結果が掲載されており、(C)以外は、かなり高い精度の配列データが得られていることが伺える。なお、PacBio RSシーケンサーの場合、2種類のDNAライブラリーを用いて、シングルパス・レベルで350~400倍の冗長度で読んでアセンブリーした結果である。

PacBio RSシーケンサーの用途

Ontario Institute of Cancer Researchでは最近、RSシーケンサーを用いたtargeted sequencingでガン遺伝子の検出が行えることを発表している。上述のMEJMの論文から、細菌ゲノムレベルであれば、新規ゲノム配列決定を行えることが実証された。その他の用途としては、transcriptome解析に用いられている。PacBioのRSシーケンサーの特性を考えると、Roche-454 FLXシーケンサーの用途と重複する用途に用いられていくと予想される。