Title: NCBIからゲノムデータを取得する方法
Date: 2019-02-22
Category: Bioinfo
Tags: Bioinfo, 生物情報, NCBI
Slug: how_to_get_genome_data_from_ncbi
Authors: Naoto Yamaguchi
Summary: ゲノムデータ取得
<注意> 要修正の記事です
NCBI からゲノムデータを取ってきたい時どうすれば良いかわからなかった。�ftp を知らなかったけど、ダウンロードできました!
サムネイル画像はこちらより引用
NCBI にどういうデータがどういう風に �� あるかよくわかっていませんが、とりあえず自分がやった範囲では、ftp パスを用いて、圧縮された fna ファイルを � ダウンロードし、解凍しました。(解凍せずに中身を見ようとして、文字コードエラーが出たので注意!) 解凍せずに扱おうとしたところ、
UnicodeDecodeError: 'utf-8' codec can't decode byte 0x8b in position 1
というエラーになりました。
zip ファイルの解凍は、
$ gunzip
でできました。
流れとしては、例えば、~/data�/に GCF_000010525.1.fna.gz というファイル名でダウンロードする場合、
$ wget -O ~/data/GCF_000010525.1.fna.gz ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/010/525/GCF_000010525.1_ASM1052v1/GCF_000010525.1_ASM1052v1_cds_from_genomic.fna.gz
$ gunzip
これで GCF_000010525.1.fna ファイルを見たり読み込ませたりして解析に用いることができます!
自分はこれしかやったことがないので、他にも試してみて、追記したいと思います。
