データの読み取り

Google Cloud Storage に保存されている遺伝子データにアクセスするには、Global Alliance for Genomics and Health が定める htsget プロトコルの Google による実装を使用できます。

Google の htsget 実装により、大きなファイルを Compute Engine 仮想マシンとの間で相互にコピーすることなく、自分のクラウド プロジェクトに格納されたデータへのアクセスと共有を簡単に行うことができます。

また、htsget サーバーを使用して、Google 内の 1000 Genomes Project のミラーなどで公開されているデータにアクセスすることもできます。

一般公開データで試してみるには、Cloud shell で次のコマンドを実行します。

docker network create test
docker run -d --network=test --name=htsget gcr.io/genomics-tools/htsget

このコマンドにより、htsget サーバーの実行が開始され、それが 'test'という名前のローカル Docker コンテナ ネットワークに接続されます。サーバーが起動したら、GA4GH htsget プロトコルに対応している任意のソフトウェアからアクセスできるようになります。

例として、以下のコマンドは samtools を使用して、公開ゲノムの 11 番染色体上の小さな範囲に関する統計を表示します。

docker run --network=test gcr.io/genomics-tools/samtools flagstat "http://htsget/reads/genomics-public-data/platinum-genomes/bam/NA12892_S1.bam?referenceName=chr11&end=1000"

samtools が、Google Cloud Storage に保存されている BAM ファイルからストリーミングされた 1500 件を超えるリードをわずか数秒で処理できたことがわかります。

1532 + 0 in total (QC-passed reads + QC-failed reads)
0 + 0 secondary
0 + 0 supplementary
5 + 0 duplicates
1526 + 0 mapped (99.61% : N/A)
1532 + 0 paired in sequencing
784 + 0 read1
748 + 0 read2
1510 + 0 properly paired (98.56% : N/A)
1520 + 0 with itself and mate mapped
6 + 0 singletons (0.39% : N/A)
10 + 0 with mate mapped to a different chr
1 + 0 with mate mapped to a different chr (mapQ>=5)

プライベート データへのアクセスや、データへのアクセス制限に関する情報など、htsget サーバーについて詳しくは、htsget の README をご覧ください。

このページは役立ちましたか?評価をお願いいたします。

フィードバックを送信...