【0からのNGSデータ解析】バイオインフォ初心者のためのMacで遺伝子解析【準備編】

AI/データ解析
SEIKO SUGIMORI
せい

こんにちは。せいです。未経験ながら遺伝子検査会社でNGSのデータ解析をしています。

NGSのデータ解析って難しそうだけど、初心者でもできるかな?

SEIKO SUGIMORI
せい

初心者の私がNGSデータ解析をするために、調べたことをまとめていきますね!

NGSデータ解析未経験の私が、遺伝子検査会社でNGSのデータ解析ができるようになるまでの道のり(解析に必要なツールやそのツールのインストール方法、データの解析方法)を紹介していきます。

今回の投稿では、【NGSのデータを使った遺伝子解析】の準備編として、解析に必要なソフトのインストール方法がわかります。

ご自身が解析したいテーマに応じてソフトをインストールしてください。

余談:NGSのデータは容量が大きいので外付けHDDを準備しました。ターミナルで外付けHDDへディレクトリを移動するには

と打ち込めばできます。

インストールしたソフト

今回インストールした解析ツールは、

  • samtools
  • bcftools
  • vcftools
  • vcflib

です。

samtoolsでできること

samtoolsを使うことによって、SAM/BAM/CRAM形式のファイルの読み取りや書き込み、編集、フォーマットの変換、インデックス作成ができるようになります。また、バリアントコールもできます。

bcftoolsでできること

bcftoolsを使うことによって 、BCF2/VCF/gVCFファイルの読みとりや書き込み、さらにSNPや短いINDEL配列のバリアントの呼び出しやフィルタリングができるようになります。

vcftoolsでできること

vcftoolsを使うことによって、vcf(バリアントコールフォーマット)のファイルを結合、ソート、フィルタリングなどのvcfファイルの操作ができるようになります。

vcflibでできること

vcflibの様々なライブラリを使用することでvcfファイルのデータの操作や解釈が簡便に行うことができます。

遺伝子解析に必要なソフトのインストール方法

samtools/bcftoolsのインストール

2020.3.24現在の最新バージョン(1.10)をダウンロードするにはこちらのサイトからアクセスできます。

で、1.10バージョンをダウンロードし、圧縮ファイルを解凍します。

解凍したフォルダに移動し、samtoolsの最新バージョンをインストールします。

でインストールできたか確認できます。

samtools-1.10がインストールできました。

同様にして、bcftoolsもインストールします。

なぜかうまくインストールできなかったので、make installを

にすると解決しました。ご自身のPCのパスワードが必要になります。

bcftoolsがインストールできたかを確認します。

bcftools-1.10.2がインストールできていることが確認できました。

samtoolsやbcftoolsを使いこなすことによって、NGSに関連するデータのファイルの拡張子の変換やデータの修飾ができるようになります。

vcftoolsのインストール

2020.3.24現在の最新バージョンはこちらのサイトからダウンロードできます。

サイトによると

でvcftoolsのインストールができそうですが、私の場合、./autogen.shと打ち込むと

というエラーが出ました。調べてみると、aclocalはautomakeパッケージ内に含まれているということで、automakeパッケージをhomebrewからインストールします。

これで、上記のエラーは解決できました。

vcftoolsもbcftoolsと同様にmake installではうまくいかなかったので、sudo make installでインストールをしました。

でインストールができているかを確認すると

と表示され、vcftoolsのバージョン0.1.17がインストールされていることが確認できました。

vcflibのインストール

vcflibはこちらのサイトからインストールができます。

これで、vcflibのインストールが完了です。

vcflibのライブラリの一つのvcffilterを使えば特定の条件にあったSNPのみの抽出ができます。

vcffilterへパスを通すには

とすれば、”vcffilter”と入力するだけでvcffilterが使えるようになります。

実際の活用事例は、【0から始めるNGSデータ解析】vcfファイルから特定の染色体上の条件に合ったSNPを抽出する【日本人データの活用】をご確認ください。

これらのツールとNGSのデータを用いて様々な遺伝子解析を行なっていきます。

 

コメント