カンナビス ゲノム 1,000 組プロジェクト

BigQuery を使用して一般公開データセットをクエリする方法

BigQuery は、フルマネージドのデータ ウェアハウスおよび分析プラットフォームです。SQL クエリを使用して分析できる一般公開データセットが用意されています。BigQuery の一般公開データセットにアクセスするには、ウェブ UIコマンドライン ツールを使用します。また、Java.NETPython など、さまざまなクライアント ライブラリを使用して BigQuery REST API を呼び出してアクセスすることもできます。

現在、BigQuery の一般公開データセットは US マルチリージョン ロケーションに格納されています。一般公開データセットをクエリする場合は、コマンドラインで --location=US フラグを指定するか、BigQuery ウェブ UI で処理ロケーションとして US を選択するか、または API でジョブリソースjobReference セクションの location プロパティを指定します。一般公開データセットは米国内に格納されているため、一般公開データのクエリ結果を別のリージョンにあるテーブルに書き込むことはできず、一般公開データセットのテーブルを別のリージョンにあるテーブルと結合することもできません。

BigQuery の一般公開データセットの使用を開始するには、プロジェクトを作成または選択します。毎月、最初の 1 テラバイトのデータの処理については課金されないため、課金を有効にせずに一般公開データセットのクエリを開始できます。無料枠を超える可能性がある場合は、課金を有効にする必要があります。

  1. Google アカウントにログインします。

    Google アカウントをまだお持ちでない場合は、新しいアカウントを登録します。

  2. GCP プロジェクトを選択または作成します。

    [リソースの管理] ページに移動

  3. プロジェクトに対して課金が有効になっていることを確認します。

    課金を有効にする方法について

  4. 新しいプロジェクトでは、BigQuery が自動的に有効になります。既存のプロジェクトで BigQuery を有効にする手順は以下のとおりです。 BigQuery API を有効にする。

    Enable the API

データセットの概要

Phylos Bioscience は 2016 年 10 月に、Open Cannabis Project を通じて、約 850 株のカンナビス(Cannabis)のゲノムオープン データセットを発表しました。Courtagen Life Sciences、ミシガン州立大学、NCBI、Sunrise Medicinal、カルガリー大学、トロント大学、および Yunnan Academy of Agricultural Sciences から入手可能な他のゲノミクス データセットと組み合わせると、公開データの総量は、ほぼ同数の固有株から採取された 1,000 サンプルを上回っています。

これらのデータは、National Institute of Biotechnology Information の Sequence Read Archive(NCBI SRA)から取得され、BWA アライナおよび FreeBayes バリアント コーラーを使用して処理され、Google Genomics API でインデックス付けが行われ、分析のために BigQuery にエクスポートされました。

このデータを探索してみましょう。

このデータは、Google Genomics API を通じてデータセット ID 918853309083001239 として入手することもできます。トランスクリプトーム データのみを含む追加の複製サブセットは、データセット ID 94241232795910911 として入手できます。

データセットのコンテンツ

カンナビス ゲノム プロジェクト データセットのすべてのテーブルには、_201703 のような接頭辞が付加されています。接尾辞は、以下の説明では [BUILD_DATE] と記述しています。データセットは、新しいリリースが公開されるたびに、頻繁に更新されます。

以下のテーブルは、カンナビス ゲノム プロジェクト データセットに含まれています。

  • Sample_info には、SRA サンプル ID やサンプルの種類を示すその他のデータなど、SRA サンプルごとに抽出されたフィールドが含まれています。サンプルの種類は、株、ライブラリ調製法、シークエンシング技術などです。上流のサンプルデータの例については、SRP008673 を参照してください。SRP008673 は、カンナビス サティバ(Cannabis Sativa)亜種パープル クッシュ(Purple Kush)のトロント大学の配列決定です。

  • MNPR01_reference_[BUILD_DATE] には、Phylos Bioscience が生産するカンナビス サティバ亜種カンナトニック(Cannatonic)のドラフト アセンブリの参照配列名および長さが含まれます。このテーブルには、コンティグ識別子とその長さが含まれています。

  • MNPR01_[BUILD_DATE] には、MNPR01_reference_[BUILD_DATE] テーブルに含まれるすべてのサンプルと種類(ゲノム、転写)のバリアント コールが格納されています。サンプルは sample_info テーブルにあります。MNPR01_[BUILD_DATE] テーブルは、Google Genomics BigQuery バリアント スキーマを使用してエクスポートされます。このテーブルは、カンナビス ゲノムの一般的な分析に役立ちます。

  • MNPR01_transcriptome_[BUILD_DATE]MNPR01_[BUILD_DATE] テーブルと類似していますが、サブセットの転写サンプルのみが含まれています。このテーブルは、カンナビス ゲノムの転写される遺伝子レベルの解析に役立ちます。

サンプルクエリ

BigQuery を使用してこのデータで実行できる SQL クエリの例をいくつか示します。

このサンプルでは、BigQuery の標準 SQL サポートを使用します。#standardSQL タグを使用して、標準 SQL を使用することを BigQuery に認識させる必要があります。#standardSQL 接頭辞の詳細については、クエリ接頭辞の設定をご覧ください。

バリアント テーブルに含まれているカンナビス サンプルは?

このクエリは、バリアント テーブル MNPR01_[BUILD_DATE] に含まれるカンナビス サンプルの数を判別します。

ウェブ UI

ウェブ UI で次のクエリを開きます。

#standardSQL
SELECT
  call.call_set_name
FROM
  `bigquery-public-data.genomics_cannabis.MNPR01_201703` v,
  v.call
GROUP BY
  call.call_set_name

コマンドライン

bq query --use_legacy_sql=false '
SELECT
  call.call_set_name
FROM
  `bigquery-public-data.genomics_cannabis.MNPR01_201703` v,
  v.call
GROUP BY
  call.call_set_name'

結果を以下に示します。

+------------------------+
| call_set_name          |
+------------------------+
| SRS1757953             |
| SRS1758390             |
| SRS1758527             |
| SRS1759434             |
| SRS1758481             |
| SRS1757957             |
| SRS1758274             |
| SRS266829              |
| SRS1758072             |
| SRS1758111             |
| ...                    |
+------------------------+

MNPR01_reference_[BUILD_DATE] テーブルで最もバリアント密度が高いコンティグは?

このクエリは、variant_density の値が最も高いコンティグを表示します。結果は、特に注目度の高い人為淘汰の領域(農業用途のための遺伝的領域)を示す可能性があります。さらに、DNA 配列決定が困難で高品質のデータを生成できない領域を示す場合もあります。

ウェブ UI

ウェブ UI で次のクエリを開きます。

#standardSQL
SELECT
  *
FROM (
  SELECT
    reference_name,
    COUNT(reference_name) / r.length AS variant_density,
    COUNT(reference_name) AS variant_count,
    r.length AS reference_length
  FROM
    `bigquery-public-data.genomics_cannabis.MNPR01_201703` v,
    `bigquery-public-data.genomics_cannabis.MNPR01_reference_201703` r
  WHERE
    v.reference_name = r.name
    AND EXISTS (
    SELECT
      1
    FROM
      UNNEST(v.call) AS call
    WHERE
      EXISTS (
      SELECT
        1
      FROM
        UNNEST(call.genotype) AS gt
      WHERE
        gt > 0))
  GROUP BY
    reference_name,
    r.length ) AS d
ORDER BY
  variant_density DESC

コマンドライン

bq query --use_legacy_sql=false '
SELECT
  *
FROM (
  SELECT
    reference_name,
    COUNT(reference_name) / r.length AS variant_density,
    COUNT(reference_name) AS variant_count,
    r.length AS reference_length
  FROM
    `bigquery-public-data.genomics_cannabis.MNPR01_201703` v,
    `bigquery-public-data.genomics_cannabis.MNPR01_reference_201703` r
  WHERE
    v.reference_name = r.name
    AND EXISTS (
    SELECT
      1
    FROM
      UNNEST(v.call) AS call
    WHERE
      EXISTS (
      SELECT
        1
      FROM
        UNNEST(call.genotype) AS gt
      WHERE
        gt > 0))
  GROUP BY
    reference_name,
    r.length ) AS d
ORDER BY
  variant_density DESC'

結果を以下に示します。

+----------------------------------+---------------------+----------------+----------------+
| reference_name                   | variant_density     | variant_count  | variant_length |
+----------------------------------+---------------------+----------------+----------------+
| gi|1098480201|gb|MNPR01009187.1| | 0.675239755884917   | 2228           | 6882           |
| gi|1098476186|gb|MNPR01010508.1| | 0.62694838933148    | 1810           | 2887           |
| gi|1098480371|gb|MNPR01009127.1| | 0.417397454031117   | 2951           | 7070           |
| gi|1098475344|gb|MNPR01010796.1| | 0.3986960882647943  | 795            | 1994           |
| gi|1098483659|gb|MNPR01007984.1| | 0.393582490957989   | 4244           | 10783          |
| gi|1098476754|gb|MNPR01010320.1| | 0.379833858493268   | 1326           | 3491           |
| gi|1098475239|gb|MNPR01010833.1| | 0.3713974986405655  | 683            | 1839           |
| gi|1098480751|gb|MNPR01008988.1| | 0.361954206602768   | 2719           | 7512           |
| gi|1098475142|gb|MNPR01010866.1| | 0.3583381419503750  | 621            | 1733           |
| gi|1098489468|gb|MNPR01005118.1| | 0.35504343342191    | 8951           | 25211          |
| ...                                                                                      |
+----------------------------------+---------------------+----------------+----------------+

各サンプルに含まれている THC シンターゼ遺伝子座(THCA1)のバリアントの数は?

カンナビス サティバは、THCA シンターゼ遺伝子の 2 つのコピーを持ちます。配列の 1 つは、Gene duplication and divergence affecting drug content in Cannabis sativa(2015)において KJ469378 として GenBank に提出されました。この配列を MNPR01 カンナビス サティバ亜種カンナトニック参照ゲノムに対して BLAT した場合、THCA1 はコンティグ gi|1098492959|gb|MNPR01002882.1| 上の 12889-14527 に配置されます。

このクエリは、THCA1 の位置を使用して、トランスクリプトーム データセット内の他の株由来のカンナトニックがどれほど相違するかを判別します。

ウェブ UI

ウェブ UI で次のクエリを開きます。

#standardSQL
SELECT
  i.Sample_Name_s AS sample_name,
  call.call_set_name AS call_set_name,
  COUNT(call.call_set_name) AS call_count_for_call_set
FROM
  `bigquery-public-data.genomics_cannabis.sample_info_201703` i,
  `bigquery-public-data.genomics_cannabis.MNPR01_201703` v,
  v.call
WHERE
  call.call_set_name = i.SRA_Sample_s
  AND reference_name = 'gi|1098492959|gb|MNPR01002882.1|'
  AND EXISTS (
  SELECT
    1
  FROM
    UNNEST(v.alternate_bases) AS alt
  WHERE
    alt NOT IN ("",
      "<*>"))
  AND v.dp >= 10
  AND v.start >= 12800
  AND v.end <= 14600
GROUP BY
  call_set_name,
  Sample_Name_s
ORDER BY
  call_set_name

コマンドライン

bq query --use_legacy_sql=false '
SELECT
  i.Sample_Name_s AS sample_name,
  call.call_set_name AS call_set_name,
  COUNT(call.call_set_name) AS call_count_for_call_set
FROM
  `bigquery-public-data.genomics_cannabis.sample_info_201703` i,
  `bigquery-public-data.genomics_cannabis.MNPR01_201703` v,
  v.call
WHERE
  call.call_set_name = i.SRA_Sample_s
  AND reference_name = 'gi|1098492959|gb|MNPR01002882.1|'
  AND EXISTS (
  SELECT
    1
  FROM
    UNNEST(v.alternate_bases) AS alt
  WHERE
    alt NOT IN ("<NON_REF>",
      "<*>"))
  AND v.dp >= 10
  AND v.start >= 12800
  AND v.`end` <= 14600
GROUP BY
  call_set_name,
  Sample_Name_s
ORDER BY
  call_set_name'

結果を以下に示します。

+---------------------+-----------------+--------------------------+
| sample_name         | call_set_name   | call_count_for_call_set  |
+---------------------+-----------------+--------------------------+
| Chemdog91           | SRS1098403      | 52                       |
| SourTsunami         | SRS1098404      | 4                        |
| BlueBerryEssence    | SRS1098405      | 82                       |
| Black84             | SRS1098406      | 4                        |
| BlueDream           | SRS1098407      | 80                       |
| WZ_CBD              | SRS1098430      | 4                        |
| WiFi                | SRS1098431      | 4                        |
| AlaskanIce-2130     | SRS1099975      | 4                        |
| Black84-2130        | SRS1099976      | 6                        |
| WiFi-2130           | SRS1099977      | 2                        |
| ...                                                              |
+---------------------+-----------------+--------------------------+

データについて

データセット ソース: Open Cannabis Project

カテゴリ: ゲノミクス

使用: このデータセットは、データセット ソース(https://www.ncbi.nlm.nih.gov/home/about/policies.shtml)によって規定されている条件の下ですべてのユーザーに公開されています。Google はこのデータセットを「現状のまま」提供し、明示または黙示を問わず、いかなる保証も行いません。Google は、このデータセットの使用で、直接または間接の損害が発生したとしても一切の責任を負いません。

更新頻度: 追加データが GenBank にリリースされると更新されます。

BigQuery で表示: カンナビス ゲノム 1,000 組プロジェクト データに移動

このページは役立ちましたか?評価をお願いいたします。

フィードバックを送信...

ご不明な点がありましたら、Google のサポートページをご覧ください。