このページでは、Dataproc Metastore サービスで Spark SQL を使用する例を示します。この例では、Dataproc クラスタで Spark SQL セッションを起動し、サンプル コマンドを実行してデータベースとテーブルを作成します。
準備
Spark SQL への接続
Spark SQL の使用を開始するには、Dataproc Metastore サービスに関連付けられている Dataproc クラスタに SSH を使用して接続します。SSH によってクラスタに接続したら、Spark コマンドを実行してメタデータを管理できます。
Spark SQL に接続するには
- Google Cloud コンソールで、[VM インスタンス] ページに移動します。
- 仮想マシン インスタンスのリストで、接続する Dataproc VM インスタンスの行にある [SSH] をクリックします。
ノード上のホーム ディレクトリでブラウザ ウィンドウが開き、次のような出力が表示されます。
Connected, host fingerprint: ssh-rsa ...
Linux cluster-1-m 3.16.0-0.bpo.4-amd64 ...
...
example-cluster@cluster-1-m:~$
Hive を起動してデータベースとテーブルを作成するには、SSH セッションで次のコマンドを実行します。
Spark シェルを起動します。
spark-shell
myDB
という名前のデータベースを作成します。spark.sql("create database myDB");
作成したデータベースを使用します。
spark.sql("use myDB");
テーブルを
myTable
という名前で作成します。spark.sql("create table bar(id int,name string)");
myDatabase
内のテーブルを一覧表示します。spark.sql("show tables").show();
作成したテーブルのテーブル行を表示します。
desc myTable;
これらのコマンドを実行すると、次のような出力が表示されます。
$spark-shell
scala>spark.sql("create database myDB");
scala>spark.sql("use myTable");
scala>spark.sql("create table myTable(id int,name string)");
scala>spark.sql("show tables").show();
+--------+---------+-----------+
|database|tableName|isTemporary|
+--------+---------+-----------+
| myDB| myTable| false|
+--------+---------+-----------+
+--------+---------+-------+
|col_name|data_type|comment|
+--------+---------+-------+
| id| int| null|
| name| string| null|
+--------+---------+-------+