Dataproc Metastore で Spark SQL を使用する

このページでは、Dataproc Metastore サービスで Spark SQL を使用する例を示します。この例では、Dataproc クラスタで Spark SQL セッションを起動し、いくつかのサンプル コマンドを実行してデータベースとテーブルを作成します。

準備

Spark SQL への接続

Spark SQL の使用を開始するには、Dataproc Metastore サービスに関連付けられている Dataproc クラスタに SSH を使用して接続します。SSH によってクラスタに接続したら、Spark コマンドを実行してメタデータを管理できます。

Spark SQL に接続するには

  1. Google Cloud コンソールで、[VM インスタンス] ページに移動します。
  2. 仮想マシン インスタンスのリストで、接続する Dataproc VM インスタンスの行にある [SSH] をクリックします。

ノード上のホーム ディレクトリでブラウザ ウィンドウが開き、次のような出力が表示されます。

Connected, host fingerprint: ssh-rsa ...
Linux cluster-1-m 3.16.0-0.bpo.4-amd64 ...
...
example-cluster@cluster-1-m:~$

Hive を起動してデータベースとテーブルを作成するには、SSH セッションで次のコマンドを実行します。

  1. Spark シェルを起動します。

    spark-shell
    
  2. myDB という名前のデータベースを作成します。

    spark.sql("create database myDB");
    
  3. 作成したデータベースを使用します。

    spark.sql("use myDB");
    
  4. テーブルを myTable という名前で作成します。

    spark.sql("create table bar(id int,name string)");
    
  5. myDatabase 内のテーブルを一覧表示します。

    spark.sql("show tables").show();
    
  6. 作成したテーブルのテーブル行を表示します。

    desc myTable;
    

これらのコマンドを実行すると、次のような出力が表示されます。

$spark-shell

scala>spark.sql("create database myDB");

scala>spark.sql("use myTable");

scala>spark.sql("create table myTable(id int,name string)");

scala>spark.sql("show tables").show();

+--------+---------+-----------+
|database|tableName|isTemporary|
+--------+---------+-----------+
|    myDB|  myTable|      false|
+--------+---------+-----------+
+--------+---------+-------+
|col_name|data_type|comment|
+--------+---------+-------+
|      id|      int|   null|
|    name|   string|   null|
+--------+---------+-------+

次のステップ