BigQuery Studio にデータを読み込んでクエリを実行する

BigQuery を使用する手始めとして、BigQuery Studio を使用してデータセットを作成し、テーブルにデータを読み込み、テーブルに対してクエリを実行してみましょう。


このタスクを Google Cloud コンソールで直接行う際の順を追ったガイダンスについては、[ガイドを表示] をクリックしてください。

ガイドを表示


始める前に

BigQuery を使用する前に、Google Cloud コンソールにログインしてプロジェクトを作成する必要があります。プロジェクトで課金を有効にしていない場合、アップロードしたデータはすべて BigQuery サンドボックスに保存されます。このサンドボックスでは制限付きの BigQuery 機能を使用しながら、BigQuery について料金なしで学習できます。詳細については、BigQuery サンドボックスを有効にするをご覧ください。

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  4. 省略可: 既存のプロジェクトを選択する場合は、必ず BigQuery API を有効にしてください。新しいプロジェクトでは、BigQuery API が自動的に有効になります。
  5. BigQuery データセットを作成する

    Google Cloud コンソールを使用して、データを保存するデータセットを作成します。データセットを作成する場所は、米国のマルチリージョン ロケーションとします。BigQuery のリージョンとマルチリージョンの詳細については、ロケーションをご覧ください。

    1. Google Cloud コンソールで、[BigQuery Studio] ページを開きます。
    2. [BigQuery Studio] に移動
    3. [エクスプローラ] ペインでプロジェクト名をクリックします。
    4. [アクションを表示] をクリックします。
    5. [データセットを作成] を選択します。
    6. [データセットを作成する] ページで、次の操作を行います。
      1. [データセット ID] に「babynames」と入力します。
      2. [ロケーション タイプ] で [マルチリージョン] を選択してから、[US(米国の複数のリージョン)] を選択します。一般公開データセットは us マルチリージョン ロケーションに保存されています。わかりやすくするため、データセットを同じロケーションに保存します。
      3. 残りのデフォルトの設定は変更せず、[データセットを作成] をクリックします。

    ソースデータを含むファイルをダウンロードする

    ダウンロードするファイルには、人気のある新生児の名前に関する約 7 MB のデータが含まれます。これは米国社会保障局から提供されています。

    このデータの詳細については、米国社会保障局の人気の名前の背景情報をご覧ください。

    1. 新しいブラウザタブで次の URL を開き、米国社会保障局のデータをダウンロードします。

      https://www.ssa.gov/OACT/babynames/names.zip
      
    2. ファイルを抽出します。

      データセット スキーマの詳細については、zip ファイルの NationalReadMe.pdf ファイルをご覧ください。

    3. データの内容を確認するには、yob2024.txt ファイルを開きます。このファイルには、名前、出生時の性別、その名前の子供の数の値がカンマ区切りで含まれています。このファイルにはヘッダー行がありません。

    4. 後で確認できるように、yob2024.txt ファイルの場所をメモします。

    テーブルにデータを読み込む

    次に、新しいテーブルにデータを読み込みます。

    1. [エクスプローラ] ペインで、プロジェクト名を開きます。
    2. babynames データセットの横にある [ アクションを表示] をクリックし、[開く] を選択します。
    3. [ テーブルを作成] をクリックします。

      特に指示のない限り、すべての設定にデフォルト値を使用します。

    4. [テーブルの作成] ページで、次の操作を行います。
      1. [ソース] セクションの [テーブルの作成元] で、リストから [アップロード] を選択します。
      2. [ファイルを選択] フィールドで [参照] をクリックします。
      3. ローカルの yob2024.txt ファイルを選択して [開く] をクリックします。
      4. [ファイル形式] リストから [CSV] を選択します。
      5. [宛先] セクションの [テーブル] フィールドに「names_2024」と入力します。
      6. [スキーマ] セクションで [テキストとして編集] をクリックし、次のスキーマ定義をテキスト フィールドに貼り付けます。
      7. name:string,assigned_sex_at_birth:string,count:integer
      8. [テーブルを作成] をクリックします。

        BigQuery によってテーブルが作成され、データが読み込まれるのを待ちます。

    テーブルデータのプレビューを確認する

    テーブルデータのプレビューを表示する手順は次のとおりです。

    1. [エクスプローラ] ペインで、プロジェクトと babynames データセットを開いて、names_2024 テーブルを選択します。
    2. [プレビュー] タブをクリックします。テーブルの最初の数行が BigQuery に表示されます。
    3. テーブルの [プレビュー] タブ。
    [プレビュー] タブは、すべてのテーブルタイプで使用できるわけではありません。たとえば、[プレビュー] タブは、外部のテーブルやビューには表示されません。

    テーブルデータをクエリする

    次に、テーブルに対してクエリを実行します。

    1. [names_2024] タブの横にある [ SQL クエリ] オプションをクリックします。新しいエディタタブが開きます。
    2. 次のクエリをコピーしてクエリエディタに貼り付けます。このクエリは、2024 年に米国で生まれた男児につけられた名前のうち最も多いもの 5 つを取得します。
      
        SELECT
          name,
          count
        FROM
          `babynames.names_2024`
        WHERE
          assigned_sex_at_birth = 'M'
        ORDER BY
          count DESC
        LIMIT
          5;
        
    3. [実行] をクリックします。結果が [クエリ結果] セクションに表示されます。
      クエリ結果パネル

    これで、 Google Cloud コンソールを使用してサンプルデータを BigQuery に読み込み、一般公開データセット内のテーブルに対してクエリを正常に実行できました。

    クリーンアップする

    このページで使用したリソースについて、 Google Cloud アカウントに課金されないようにするには、次の手順を実施します。

    1. Google Cloud コンソールで、[BigQuery] ページを開きます。
    2. [BigQuery] に移動
    3. [エクスプローラ] ペインで、作成した babynames データセットをクリックします。
    4. [アクションを表示] オプションを開いて、[削除] をクリックします。
    5. [データセットの削除] ダイアログで削除コマンドを確定します。「delete」という単語を入力して、[削除] をクリックします。

    次のステップ