Usa Apache Hive con Dataproc Metastore

En esta página, se muestra un ejemplo del uso de Apache Hive con un servicio de Dataproc Metastore. En este ejemplo, iniciarás una sesión de Hive en un clúster de Dataproc y ejecutarás algunos comandos de muestra para crear una base de datos y una tabla.

Antes de comenzar

Conectarse a Apache Hive

Para comenzar a usar Hive, puedes establecer una conexión SSH al clúster de Dataproc asociado a tu servicio de Dataproc Metastore. Después de establecer una conexión SSH al clúster, puedes ejecutar comandos de Hive para administrar los metadatos.

Para conectarse a Hive

  1. En la consola de Google Cloud, ve a la página Instancias de VM.
  2. En la lista de instancias de máquina virtual, haz clic en SSH en la fila de la instancia de VM de Dataproc a la que deseas conectarte.

Se abrirá una ventana del navegador en tu directorio principal en el nodo con un resultado similar al siguiente:

Connected, host fingerprint: ssh-rsa ...
Linux cluster-1-m 3.16.0-0.bpo.4-amd64 ...
...
example-cluster@cluster-1-m:~$

Para iniciar Hive y crear una base de datos y una tabla, ejecuta los siguientes comandos en la sesión de SSH:

  1. Iniciar Hive.

    hive
    
  2. Crea una base de datos llamada myDatabase.

    create database myDatabase;
    
  3. Muestra la base de datos que creaste.

    show databases;
    
  4. Usa la base de datos que creaste.

    use myDatabase;
    
  5. Crea una tabla llamada myTable.

    create table myTable(id int,name string);
    
  6. Enumera las tablas en myDatabase.

    show tables;
    
  7. Muestra las filas de la tabla que creaste.

    desc MyTable;
    

Cuando ejecutes estos comandos, se mostrará un resultado similar al siguiente:

$hive

hive> show databases;
OK
default
hive> create database myDatabase;
OK
hive> use myDatabase;
OK
hive> create table myTable(id int,name string);
OK
hive> show tables;
OK
myTable
hive> desc myTable;
OK
id                      int
name                    string

¿Qué sigue?