Dataproc Metastore で Spark SQL を使用する

このページでは、Dataproc Metastore サービスで Spark SQL を使用する例を示します。この例では、Dataproc クラスタで Spark SQL セッションを起動し、サンプルコマンドを実行してデータベースとテーブルを作成します。

準備

Dataproc Metastore サービスを作成します。
Dataproc Metastore サービスを Dataproc クラスタに接続します。

Spark SQL への接続

Spark SQL の使用を開始するには、Dataproc Metastore サービスに関連付けられている Dataproc クラスタに SSH を使用して接続します。SSH によってクラスタに接続したら、Spark コマンドを実行してメタデータを管理できます。

Spark SQL に接続するには

Google Cloud コンソールで、[VM インスタンス] ページに移動します。
仮想マシンインスタンスのリストで、接続する Dataproc VM インスタンスの行にある [SSH] をクリックします。

ノード上のホームディレクトリでブラウザウィンドウが開き、次のような出力が表示されます。

Connected, host fingerprint: ssh-rsa ...
Linux cluster-1-m 3.16.0-0.bpo.4-amd64 ...
...
example-cluster@cluster-1-m:~$

Hive を起動してデータベースとテーブルを作成するには、SSH セッションで次のコマンドを実行します。

Spark シェルを起動します。
```
spark-shell
```
myDB という名前のデータベースを作成します。
```
spark.sql("create database myDB");
```
作成したデータベースを使用します。
```
spark.sql("use myDB");
```
テーブルを myTable という名前で作成します。
```
spark.sql("create table bar(id int,name string)");
```
myDatabase 内のテーブルを一覧表示します。
```
spark.sql("show tables").show();
```
作成したテーブルのテーブル行を表示します。
```
desc myTable;
```

これらのコマンドを実行すると、次のような出力が表示されます。

$spark-shell

scala>spark.sql("create database myDB");

scala>spark.sql("use myTable");

scala>spark.sql("create table myTable(id int,name string)");

scala>spark.sql("show tables").show();

+--------+---------+-----------+
|database|tableName|isTemporary|
+--------+---------+-----------+
|    myDB|  myTable|      false|
+--------+---------+-----------+
+--------+---------+-------+
|col_name|data_type|comment|
+--------+---------+-------+
|      id|      int|   null|
|    name|   string|   null|
+--------+---------+-------+

Dataproc Metastore で Spark SQL を使用する

準備

Spark SQL への接続

次のステップ