En esta página, se muestra un ejemplo de cómo usar Spark SQL con Dataproc Metastore servicio. En este ejemplo, iniciarás una sesión de Spark SQL en un clúster de Dataproc. y ejecutar algunos comandos de muestra para crear una base de datos y una tabla.
Antes de comenzar
- Crea un servicio de Dataproc Metastore.
- Vincula el servicio de Dataproc Metastore a un clúster de Dataproc.
Conéctate a Spark SQL
Para comenzar a usar Spark SQL, usa SSH para conectarte al clúster de Dataproc que se asociado con tu servicio de Dataproc Metastore. Después de conectarte a el clúster con SSH, puedes ejecutar comandos de Spark para administrar tus metadatos.
Para conectarse a Spark SQL
- En la consola de Google Cloud, ve a la VM de instancias.
- En la lista de instancias de máquina virtual, haz clic en SSH en la fila de la instancia de VM de Dataproc a la que deseas conectarte.
Se abrirá una ventana del navegador en tu directorio principal en el nodo con un resultado similar. por lo siguiente:
Connected, host fingerprint: ssh-rsa ...
Linux cluster-1-m 3.16.0-0.bpo.4-amd64 ...
...
example-cluster@cluster-1-m:~$
Para iniciar Hive y crear una base de datos y una tabla, ejecuta los siguientes comandos en la sesión de SSH:
Inicia la shell de Spark.
spark-shell
Crea una base de datos llamada
myDB
.spark.sql("create database myDB");
Usa la base de datos que creaste.
spark.sql("use myDB");
Crea una tabla llamada
myTable
.spark.sql("create table bar(id int,name string)");
Haz una lista de las tablas en
myDatabase
.spark.sql("show tables").show();
Muestra las filas de la tabla que creaste.
desc myTable;
Si ejecutas estos comandos, se mostrará un resultado similar al siguiente:
$spark-shell
scala>spark.sql("create database myDB");
scala>spark.sql("use myTable");
scala>spark.sql("create table myTable(id int,name string)");
scala>spark.sql("show tables").show();
+--------+---------+-----------+
|database|tableName|isTemporary|
+--------+---------+-----------+
| myDB| myTable| false|
+--------+---------+-----------+
+--------+---------+-------+
|col_name|data_type|comment|
+--------+---------+-------+
| id| int| null|
| name| string| null|
+--------+---------+-------+