NGSデータ解析の流れ
NGSデータ解析は、「次世代シーケンサーによって産生された生データを配列データに変換する1次解析(=工程1)」、「配列データをアセンブルまたは参照配列にマッピングする2次解析(=工程2)」、続いて「変異(SNP)解析、転写物解析、メチル化部位解析を行う3次解析(=工程3)」に分けることができる。de novoシーケンシング(新規ゲノム配列決定)では、3次解析として「遺伝子同定や遺伝子機能予測などのアノテーション解析」を行う。 多くの場合で、「3次解析で得られたSNPデータや転写物データをもとに、複数サンプル間の比較解析などの高次なデータマイニング(=工程4)」も必要となる。また、この工程4の高次解析では「パスウェイ解析」や「遺伝子発現ネットワーク解析」を行うこともある。さらに、これらのNGSデータ、アノテーションデータおよび解析結果をデータベース化することにより、「ビックデータに対する各種のデータベース検索(=工程4)」を行えることをしばしば求められる。 大規模にシーケンシングを行う機関では、得られたNGSデータや解析結果が膨大かつ多岐にわたるので、最近では、「データストレージ・システム(=工程5)」のニーズも高まってきている。 工程1については、次世代シーケンサーによって産生された生データは、シーケンサーに付属のソフトウェア(Base Callerと呼ぶ)により塩基配列データに変換される。また、多くのシーケンサーにはコンピューターが付属しており、シーケンシング反応やNGSデータの初期管理を行うことができる。 本稿では、工程1を除く工程2~5の作業を扱う主な商用ソフトウェアやシステムを分類分けし、その概要を紹介したいと思う。なお、UCSC BrowserやIntegrative Genomics Viewer (IGV) のようなNGSデータをもとにした無償ゲノムビューワーも開発・リリースされているが、ここではゲノムビューワーについては商用システムを含めて割愛させていただく。 |
新規ゲノム配列データの解析と再配列決定データの解析の違い
NGSデータを分類すると、過去に参照ゲノム配列が解読されていない「新規ゲノム配列データ」とすでに参照ゲノム配列が解読済みである「リシーケンシング(再配列決定)データ」に分けられる。 新規ゲノム配列データについては、工程2のアセンブリー工程までは共通のソフトウェアで解析を行うことができるが、得られたコンティグデータに対する遺伝子同定以降の作業は生物種によって異なるとともに、作業が煩雑になるので、遺伝子同定/アノテーション解析の解析一式を汎用化したソフトウェアやシステムはほとんど市販されていない。株式会社ジナリス(Genaris, Inc.)が、原核生物ゲノム配列に対して工程3と工程4の一部の作業を自動化した解析システム(Genaris Annotation System;GAS)を開発し、一時期市販したが、現在は受託解析のみで工程3の作業を請け負っている。その他、真核生物ゲノムに対するアノテーション解析も多岐に渡っているので、商用サービスとしては受託解析によって行われる。 |
NGSデータ用解析ソフトウェア・システムの分類-(A)デスクトップ型/スタンドアローン型
再配列決定データをもとに工程2~5の作業を行うNGSデータ用解析ソフトウェア・システムについては、解析ソフトウェア・システムの形態別に、「(A)デスクトップ型/スタンドアローン型」、「(B)クラウド型」および「(C)クライアント/サーバ(C/S)型」の3つに分けると、多くの場合に利用目的と整合性があるので、以下にこれらの体系に従って分類する。 まず、(A)デスクトップ型/スタンドアローン型のタイプのソフトウェアは、Microsoft Officeのように、主にWindowsコンピューター(商品によっては、MacOSやLINUXに対応)にユーザがインストールして利用し、機能や作業は定型化されている。したがって、一般的に個人利用が前提となっており、1サンプルのゲノム由来のマッピングデータに関する詳細解析に向いている。価格も多くは安価であり、解析機能も豊富であり、かつ各自のパソコンにユーザ自身でインストールできるので、総じて手軽に扱えるソフトウェアといえよう。 このタイプに属するソフトウェアとしては、NextGENe(SoftGenetics, LLC)、CLC bio Genomics Workbench(CLCbio)、Partek Flow/Partek Genomics Suite(Partek Incorporated.)、Genomatix Mining Station/Genomatix Genome Analyzer(Genomatix Software GmbH)、knoSYS100(Knome Inc.)、Avadis NGS(Strand Scientific Intelligence, Inc.)が挙げられる。 工程2のアセンブリーやマッピングについてはフリーのソフトウェアも多く、またシーケンサー付属のコンピューターにより実行できる場合が多いので、工程2単独の商用ソフトウェアは皆無といってよい。“Avadis NGS”は工程3と工程4の一部を実施できるが、"Avadis NGS"以外のソフトウェアは、この工程2と工程3の作業を行うことができ、さらに工程4のパスウェイ解析や遺伝子発現ネットワーク解析を行えるものもある。なお、Partekのソフトウェアの場合、工程2の作業を行う“Partek Flow”と工程3の作業を行う“Partek Genomics Suite”が分離している。Genomatixの解析システムの場合は、2種類のソフトウェアをインストールしたコンピューター機器を合わせることにより、工程2と3と4の一部の作業が行える。 このGenomatixの解析システムに加えて、“knoSYS100”もソフトウェアがインストールされたコンピューター機器である。“knoSYS100”は「ヒトゲノム解析専用」、「多数のゲノムデータの解析」、「高機能コンピューター」という特徴を有する。いずれもLANを介して複数ユーザがアクセスできる高機能コンピューター機器であるが、ユーザ自身では設置できないので、高価な解析システムとなる。これら以外にも、上記の“CLC bio Genomics Workbench”のサーバ型システムである“CLC bio Genomic Server”などのように、LANを介して複数ユーザが利用できるシステムも発売されている。 その他、インシリコバイオロジー株式会社が発売している“Genome Traveler”がこのタイプに属するが、このソフトウェアは独自のアンセンブルツールによりアセンブリー作業を行うことができる。ただし、マッピング工程はBLASTを利用して実施するという点で特殊である。なお、変異解析や遺伝子発現解析の機能は一部だけ実装されており、まだ開発途上である。 |
(B)クラウド型
次世代シーケンサーを導入した後、研究が進展するにつれて、膨大なデータや解析結果が蓄積する。ゲノム情報と解析結果は貴重な情報なので多くの場合で消去できない。このようなビッグデータの保管については、クラウドサービスというソリューションがある。ただし、クラウドは簡単にデータ保管できるという点で便利であるが、データ量が増えてくると、経費も結構高くなる。 ・DNAnexus NGSデータ解析システムとして、インターネットを経由してクライアントパソコンからNGSデータをアップロードして工程2と工程3の作業を行うシステムとしては、DNAnexus, Inc.のシステムが知られている。GenomeQuest, Inc. も同様のゲノム解析クラウドサービスを行っていたが、現在は中止しているようである。クラウド型システムはユーザ自身でメインテナンスが必要なく、データ登録も楽であるので魅力的であるが、NGSデータサイズが巨大なために、データのアップロードに時間がかかる点が最大の解決課題である。したがって、大規模データを解析するには現時点では向いていない。 ・ジナリスのGiNeS ジナリスが、工程2と3ならびに工程4の複数サンプル間比較の作業を行うクラウド型システムである“GiNeS(Genaris integrated Next-Generation Sequencing Data Analysis Platform)”を開発し、利用可能になっている。“GiNeS”は、インターネットを介したデータアップロードに時間がかかる点とセキュリティーの観点から、ユーザのNGSデータをジナリス社内LANを介して“GiNeS”クラウドにアップロードするタイプのシステムである。“GiNeS”の特徴は、多数のサンプル間の比較解析ができることに加えて、インターネットを介してセキュアな環境の下、同じプロジェクトに携わっている異なるグループの研究者が同じプラットフォーム上で解析し、データと解析結果を共有できることである。したがって、現バージョンの“GiNeS”はクラウド型というより、次に述べる「(C)C/S型統合解析システム」に分類した方がよいであろう。 |
(C)C/S型統合解析システム
このタイプのシステムは、複数のユーザがLANまたはインターネットを介して解析を行うとともに、データと解析結果を共有する目的で利用され、ユーザ個別にニーズが異なる場合が多いことから、ほとんどの場合、受託開発型すなわちオーダーメイド・システムとなる。日本のバイオインフォマティクス企業においては、(A)に属する製品を開発・販売している企業は少なく、多くはこの(C)の開発を請け負うITベンダーである。個別受託開発となる上、ネットワーク設定を含めた初期設定や設置後の保守も必要となることから、価格は高価なものになる。ただし、多人数で利用する場合には、ユーザ1人あたりのコストは低減できる。一般に、工程2と3に加えて、多くはデータベースシステムとなるので、工程4のデータベース検索機能は充実しているほか、LIMS(Laboratory Informatioin Management System)の機能を有する。 また、上述にように、NGSデータ保管とそのコストの問題は、次世代シーケンサーを用いた研究において大きな解決課題である。ローカルサイトでストレージ設備を増強してNGSデータと解析結果を保存・管理した場合には、オンラインでデータ保管を行うので、電力の供給とそのコストも問題となる。このストレージ問題を解決できるシステムとしては、以下に紹介する、拡張性があるオンライン・ストレージ機能に加えてNGSデータのオフライン保管機能を持つC/S型解析システムである“GenaGenomeManager”が挙げられる。 ・ジナリスのGenaGenomeManager ジナリスが今年3月に発売する予定の“GenaGenomeManager”(NGSデータ蓄積・管理システム)は、このタイプ(C)に属する解析システムとストレージシステムが組み込まれたイージーオーダー型サーバコンピューターであり、基本システムをもとにユーザに合った仕様に仕上げることにより、価格の低下を目指している。また、工程3と4の作業を行えるほか、日本語製品名の「NGSデータ蓄積・管理システム」のごとく、次世代シーケンサーのヘビーユーザ向けに、工程5のデータストレージ機能を強化している。“GenaGenomeManager”には、データストレージの拡張性以外に、オンラインでデータ保管を行うと、機器代・電力代も嵩むので、オフライン・データ保管を支援する独自の機能も組み込まれている。また、100人以上のヒトゲノムデータ・解析結果を同時解析できるような、パワフルな多数サンプル間解析機能が特徴的である。 ・PerkinElmer, Inc.のGeneSifter そのほか、製品化されているものとしては、PerkinElmer, Inc.の“GeneSifter”が知られているが、これもイージーオーダー・システムのような受託開発製品と思われる。 ・ジナリスのGiGS ジナリスの“GiGS”は、NGSデータをもとに一連の3次解析を終えたデータをシステム内にインポートして、主に工程4の解析を行うためのC/S型統合解析システムが組み込まれたイージーオーダー型サーバコンピューターである。“GiGS”は、研究機関内でデータや解析結果を共有する目的で利用するほか、一連の解析を終えたゲノムデータを一般に公開する目的でも利用できる。たとえば、酒類総合研究所がジナリスの支援のもとで開発した麹菌総合ゲノムデータベースシステム“CFGD”は公開目的で開発されたC/S型統合解析システムである。 |
その他の解析システム
・Accelrys, Inc.のPipeline Pilot NGS Collection 次世代シーケンサーを用いてゲノム研究を行っている組織では、上述のような商用ソフトウェアを利用するよりも、フリーツールを用いてマッピング解析を行った後、目的の解析を実施するためにフリーツールと自作ツールを組み合わせて開発したパイプラインを利用することもよく行われる。解析結果の多くはテキストファイルとして出力される。このパイプライン化を支援するシステムとして、 Accelrys, Inc.の“Pipeline Pilot NGS Collection”が知られている。 ・GeneData AGの解析システム GeneData AGは、NGSデータ解析システムとして、“GeneData Expressionist”、“GeneData Phylosopher”、“GeneData Selector”など、創薬領域のターゲット遺伝子探索やバイオ燃料生産微生物の育種の用途など、研究目的別のシステムを開発し、販売している。 |