こんにちは。せいです。未経験ながら遺伝子検査会社でNGSのデータ解析をしています。
NGSのデータ解析って難しそうだけど、初心者でもできるかな?
初心者の私がNGSデータ解析をするために、調べたことをまとめていきますね!
NGSデータ解析未経験の私が、遺伝子検査会社でNGSのデータ解析ができるようになるまでの道のり(解析に必要なツールやそのツールのインストール方法、データの解析方法)を紹介していきます。
今回の投稿では、【NGSのデータを使った遺伝子解析】の準備編として、解析に必要なソフトのインストール方法がわかります。
ご自身が解析したいテーマに応じてソフトをインストールしてください。
余談:NGSのデータは容量が大きいので外付けHDDを準備しました。ターミナルで外付けHDDへディレクトリを移動するには
1 |
cd /Volumes/HDD名/ |
と打ち込めばできます。
インストールしたソフト
今回インストールした解析ツールは、
- samtools
- bcftools
- vcftools
- vcflib
です。
samtoolsでできること
samtoolsを使うことによって、SAM/BAM/CRAM形式のファイルの読み取りや書き込み、編集、フォーマットの変換、インデックス作成ができるようになります。また、バリアントコールもできます。
bcftoolsでできること
vcftoolsでできること
vcftoolsを使うことによって、vcf(バリアントコールフォーマット)のファイルを結合、ソート、フィルタリングなどのvcfファイルの操作ができるようになります。
vcflibでできること
vcflibの様々なライブラリを使用することでvcfファイルのデータの操作や解釈が簡便に行うことができます。
遺伝子解析に必要なソフトのインストール方法
samtools/bcftoolsのインストール
2020.3.24現在の最新バージョン(1.10)をダウンロードするにはこちらのサイトからアクセスできます。
1 2 |
wget https://github.com/samtools/samtools/releases/download/1.10/samtools-1.10.tar.bz2 tar xf samtools-1.10.tar.bz2 |
で、1.10バージョンをダウンロードし、圧縮ファイルを解凍します。
1 2 3 4 |
cd samtools-1.10 ./configure --prefix=/usr/local/ make make install |
解凍したフォルダに移動し、samtoolsの最新バージョンをインストールします。
1 |
samtools |
でインストールできたか確認できます。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 |
Program: samtools (Tools for alignments in the SAM format) Version: 1.10 (using htslib 1.10) Usage: samtools <command> [options] Commands: -- Indexing dict create a sequence dictionary file faidx index/extract FASTA fqidx index/extract FASTQ index index alignment -- Editing calmd recalculate MD/NM tags and '=' bases fixmate fix mate information reheader replace BAM header targetcut cut fosmid regions (for fosmid pool only) addreplacerg adds or replaces RG tags markdup mark duplicates -- File operations collate shuffle and group alignments by name cat concatenate BAMs merge merge sorted alignments mpileup multi-way pileup sort sort alignment file split splits a file by read group quickcheck quickly check if SAM/BAM/CRAM file appears intact fastq converts a BAM to a FASTQ fasta converts a BAM to a FASTA -- Statistics bedcov read depth per BED region coverage alignment depth and percent coverage depth compute the depth flagstat simple stats idxstats BAM index stats phase phase heterozygotes stats generate stats (former bamcheck) -- Viewing flags explain BAM flags tview text alignment viewer view SAM<->BAM<->CRAM conversion depad convert padded BAM to unpadded BAM |
samtools-1.10がインストールできました。
同様にして、bcftoolsもインストールします。
1 2 3 4 5 6 |
wget https://github.com/samtools/bcftools/releases/download/1.10.2/bcftools-1.10.2.tar.bz2 tar xf bcftools-1.10.2.tar.bz2 cd bcftools-1.10.2 ./configure --prefix=/usr/local/ make make install |
なぜかうまくインストールできなかったので、make installを
1 |
sudo make install |
にすると解決しました。ご自身のPCのパスワードが必要になります。
bcftoolsがインストールできたかを確認します。
1 |
bcftools |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 |
Program: bcftools (Tools for variant calling and manipulating VCFs and BCFs) Version: 1.10.2 (using htslib 1.10.2) Usage: bcftools [--version|--version-only] [--help] <command> <argument> Commands: -- Indexing index index VCF/BCF files -- VCF/BCF manipulation annotate annotate and edit VCF/BCF files concat concatenate VCF/BCF files from the same set of samples convert convert VCF/BCF files to different formats and back isec intersections of VCF/BCF files merge merge VCF/BCF files files from non-overlapping sample sets norm left-align and normalize indels plugin user-defined plugins query transform VCF/BCF into user-defined formats reheader modify VCF/BCF header, change sample names sort sort VCF/BCF file view VCF/BCF conversion, view, subset and filter VCF/BCF files -- VCF/BCF analysis call SNP/indel calling consensus create consensus sequence by applying VCF variants cnv HMM CNV calling csq call variation consequences filter filter VCF/BCF files using fixed thresholds gtcheck check sample concordance, detect sample swaps and contamination mpileup multi-way pileup producing genotype likelihoods roh identify runs of autozygosity (HMM) stats produce VCF/BCF stats Most commands accept VCF, bgzipped VCF, and BCF with the file type detected automatically even when streaming from a pipe. Indexed VCF and BCF will work in all situations. Un-indexed VCF and BCF and streams will work in most but not all situations. |
bcftools-1.10.2がインストールできていることが確認できました。
samtoolsやbcftoolsを使いこなすことによって、NGSに関連するデータのファイルの拡張子の変換やデータの修飾ができるようになります。
vcftoolsのインストール
2020.3.24現在の最新バージョンはこちらのサイトからダウンロードできます。
サイトによると
1 2 3 4 5 6 |
git clone https://github.com/vcftools/vcftools.git cd vcftools ./autogen.sh ./configure make make install |
でvcftoolsのインストールができそうですが、私の場合、./autogen.shと打ち込むと
1 |
Can’t exec “aclocal”: No such file or directory |
というエラーが出ました。調べてみると、aclocalはautomakeパッケージ内に含まれているということで、automakeパッケージをhomebrewからインストールします。
1 |
brew install automake |
これで、上記のエラーは解決できました。
vcftoolsもbcftoolsと同様にmake installではうまくいかなかったので、sudo make installでインストールをしました。
1 |
vcftools |
でインストールができているかを確認すると
1 2 3 4 5 6 7 8 9 10 11 12 13 |
VCFtools (0.1.17) © Adam Auton and Anthony Marcketta 2009 Process Variant Call Format files For a list of options, please go to: https://vcftools.github.io/man_latest.html Alternatively, a man page is available, type: man vcftools Questions, comments, and suggestions should be emailed to: vcftools-help@lists.sourceforge.net |
と表示され、vcftoolsのバージョン0.1.17がインストールされていることが確認できました。
vcflibのインストール
vcflibはこちらのサイトからインストールができます。
1 2 3 4 |
git clone --recursive https://github.com/vcflib/vcflib.git brew install cmake cd vcflib make -j |
これで、vcflibのインストールが完了です。
vcflibのライブラリの一つのvcffilterを使えば特定の条件にあったSNPのみの抽出ができます。
vcffilterへパスを通すには
1 |
echo "alias vcffilter=/Users/(ユーザー名)/vcflib/bin/vcffilter" >> ~/.bash_profile && source ~/.bash_profile |
とすれば、”vcffilter”と入力するだけでvcffilterが使えるようになります。
実際の活用事例は、【0から始めるNGSデータ解析】vcfファイルから特定の染色体上の条件に合ったSNPを抽出する【日本人データの活用】をご確認ください。
これらのツールとNGSのデータを用いて様々な遺伝子解析を行なっていきます。
コメント