Tokenização

Esta página descreve como adicionar a tokenização a tabelas. A tokenização é necessária para criar os tokens usados no índice de pesquisa.

A tokenização é o processo de transformação de valores em tokens. O método usado para tokenizar um documento determina os tipos e a eficiência das pesquisas que os usuários podem realizar nele.

O Spanner oferece tokenizers para texto em linguagem natural, substrings, texto literal, números e booleanos. O esquema do banco de dados usa o tokenizer que corresponde ao tipo de pesquisa necessária para a coluna. Os tokenizers têm as seguintes características:

  • Cada tokenizer é uma função SQL que recebe uma entrada, como uma string ou um número, e argumentos nomeados para outras opções.
  • O tokenizer gera um TOKENLIST.

Por exemplo, uma string de texto The quick brown fox jumps over the lazy dog é tokenizada em [the,quick,brown,fox,jumps,over,the,lazy,dog]. Uma string HTML The <b>apple</b> is <i>red</i> é tokenizada em [the,apple,is,red].

Os tokens têm as seguintes características:

  • Os tokens são armazenados em colunas que usam o tipo de dados TOKENLIST.
  • Cada token é armazenado como uma sequência de bytes, com um conjunto opcional de atributos associados. Por exemplo, em aplicativos de texto completo, um token é normalmente uma única palavra de um documento textual.
  • Ao tokenizar valores HTML, o Spanner gera atributos que indicam a proeminência de um token no documento. O Spanner usa esses atributos para pontuação para aumentar termos mais importantes (como um título).

Tokenizadores

O Spanner oferece suporte às seguintes funções de tokenizer:

  • O tokenizer de texto completo (TOKENIZE_FULLTEXT) produz tokens de palavras inteiras para consultas em linguagem natural.

    Exemplo

    Ambas as funções a seguir

    TOKENIZE_FULLTEXT("Yellow apple")
    TOKENIZE_FULLTEXT("Yellow <b>apple</b>", content_type=>"text/html")
    

    produzem os mesmos tokens: [yellow,apple].

  • O tokenizer de substring (TOKENIZE_SUBSTRING) gera tokens para cada n-grama de cada palavra. Ele é usado para encontrar substrings de palavras em um texto.

    Exemplo

    TOKENIZE_SUBSTRING("hello world", ngram_size_min=>4, ngram_size_max=>6)
    

    Produz os seguintes tokens: [ello,hell,hello,orld,worl,world].

  • O tokenizador de n-gramas (TOKENIZE_NGRAMS) gera n-gramas de uma entrada (sem dividi-la em palavras separadas). Ele é usado para acelerar os predicados de expressão regular.

    Exemplo

    A função a seguir:

    TOKENIZE_NGRAMS("Big Time", ngram_size_min=>4, ngram_size_max=>4)
    

    Produz os seguintes tokens: ["Big ","ig T","g Ti"," Tim", "Time"].

  • Os tokenizers de correspondência exata (TOKEN e TOKENIZE_BOOL) são usados para procurar linhas que contêm um determinado valor em uma das colunas. Por exemplo, um aplicativo que indexa um catálogo de produtos pode querer pesquisar produtos de uma marca e cor específicas.

    Exemplos

    As seguintes funções:

    TOKEN("hello")
    TOKEN(["hello", "world"])
    

    Produza os seguintes tokens, respectivamente: [hello] e [hello,world].

    A função a seguir:

    TOKENIZE_BOOL(true)
    

    Produz o seguinte token: [y].

  • Os tokenizers de números (TOKENIZE_NUMBER) são usados para gerar um conjunto de tokens que aceleram as pesquisas de comparação numérica. Para condições de igualdade, o token é o número em si. Para condições de intervalo (como rating >= 3.5), o conjunto de tokens é mais elaborado.

    Exemplos

    As seguintes declarações de função:

    TOKENIZE_NUMBER(42, comparison_type=>"equality")
    TOKENIZE_NUMBER(42, comparison_type=>"all", granularity=>10, min=>1, max=>100)
    

    Produza os seguintes tokens, respectivamente: "==42" e "==42", "[1,75]","[36, 45]","[36,55]","[36, 75]".

As funções de tokenização geralmente são usadas em uma expressão de coluna gerada. Essas colunas são definidas como HIDDEN para que não sejam incluídas nos resultados da consulta SELECT *.

O exemplo a seguir usa um tokenizer de texto completo e um tokenizer numérico para criar um banco de dados que armazena nomes e classificações de álbuns de música. A instrução DDL faz duas coisas:

  1. Define as colunas de dados AlbumTitle e Rating.
  2. Define AlbumTitle_Tokens e AlbumRating_Tokens. Essas colunas TOKENLIST tokenizam os valores nas colunas de dados para que o Spanner possa indexá-los.

    CREATE TABLE Albums (
      AlbumId STRING(MAX) NOT NULL,
      AlbumTitle STRING(MAX),
      Rating FLOAT64,
      AlbumTitle_Tokens TOKENLIST AS (TOKENIZE_FULLTEXT(AlbumTitle)) HIDDEN,
      Rating_Tokens TOKENLIST AS (TOKENIZE_NUMBER(Rating)) HIDDEN
    ) PRIMARY KEY(AlbumId);
    

Sempre que os valores de base são modificados, AlbumTitle_Tokens e Rating_Tokens são atualizados automaticamente.

Tokenizar conteúdo HTML ou texto simples

A tokenização de texto oferece suporte a tipos de conteúdo HTML e de texto simples. Use a função TOKENIZE_FULLTEXT do Spanner para criar tokens. Em seguida, use a instrução DDL CREATE SEARCH INDEX para gerar o índice de pesquisa.

Por exemplo, a instrução DDL CREATE TABLE a seguir usa a função TOKENIZE_FULLTEXT para criar tokens de AlbumTitles na tabela Albums. A instrução DDL CREATE SEARCH INDEX cria um índice de pesquisa com o novo AlbumTitles_Tokens.

CREATE TABLE Albums (
  AlbumId STRING(MAX) NOT NULL,
  AlbumTitle STRING(MAX),
  AlbumTitle_Tokens TOKENLIST AS (TOKENIZE_FULLTEXT(AlbumTitle)) HIDDEN
) PRIMARY KEY(AlbumId);

CREATE SEARCH INDEX AlbumsIndex ON Albums(AlbumTitle_Tokens)

O processo de tokenização usa as seguintes regras:

  • A tokenização não inclui stemming ou correção de palavras com erros ortográficos. Por exemplo, em uma frase como "Um gato estava olhando para um grupo de gatos", o token "gato" é indexado separadamente do token "gatos". Em comparação com outros mecanismos de pesquisa que normalizam tokens durante as gravações, o Spanner oferece uma opção para expandir a consulta de pesquisa e incluir diferentes formas de palavras. Para mais informações, consulte Modo de consulta aprimorada.
  • As palavras de parada (como "a") são incluídas no índice de pesquisa.
  • A pesquisa de texto completo não diferencia maiúsculas de minúsculas. O processo de tokenização converte todos os tokens para letras minúsculas.

O processo de tokenização rastreia as posições de cada token no texto original. Essas posições são usadas mais tarde para corresponder a frases. As posições são armazenadas no índice de pesquisa junto com os docids.

O Google continua melhorando os algoritmos de tokenização. Em alguns casos, isso pode fazer com que uma string seja tokenizada de maneira diferente no futuro em relação à forma como ela é tokenizada agora. Esperamos que esses casos sejam extremamente raros. Um exemplo disso é se houver uma melhoria na segmentação de idioma chinês, japonês e coreano (CJK).

O argumento content_type especifica se o formato de conteúdo usa texto simples ou HTML. Use as seguintes configurações para definir content_type:

  • Para a tokenização de texto, defina o argumento content_type como "text/plain". Essa é a configuração padrão.
  • Para a tokenização de HTML, defina o argumento content_type como "text/html". Sem esse argumento, as tags HTML são tratadas como pontuação. No modo HTML, o Spanner usa heurísticas para inferir a proeminência do texto na página. Por exemplo, se o texto está em um título ou qual é o tamanho da fonte. Os atributos compatíveis com HTML incluem small, medium, large, title e "link". Assim como a posição, o atributo é armazenado com o token no índice de pesquisa. A tokenização não cria tokens para tags HTML.

Os atributos do token não afetam a correspondência nem os resultados da função SEARCH ou SEARCH_SUBSTRING. Elas são usadas apenas para classificação.

O exemplo a seguir mostra como tokenizar texto:

CREATE TABLE T (
  ...
  Text STRING(MAX),
  Html STRING(MAX),
  Text_Tokens TOKENLIST
    AS (TOKENIZE_FULLTEXT(Text, content_type=>"text/plain")) HIDDEN,
  Html_Tokens TOKENLIST
    AS (TOKENIZE_FULLTEXT(Html, content_type=>"text/html")) HIDDEN
) PRIMARY KEY(...);

Aprimoramento da detecção de idioma com o argumento language_tag

Por padrão, a tokenização detecta o idioma de entrada automaticamente. Quando o idioma de entrada é conhecido, um argumento language_tag pode ser usado para refinar esse comportamento:

AlbumTitle_Tokens TOKENLIST
  AS (TOKENIZE_FULLTEXT(AlbumTitle, language_tag=>"en-us")) HIDDEN

A maioria dos aplicativos deixa o argumento language_tag não especificado e depende da detecção automática de idioma. A segmentação para idiomas asiáticos, como chinês, coreano e japonês, não exige a definição do idioma de tokenização.

Os exemplos a seguir mostram casos em que o language_tag afeta a tokenização:

Função de tokenização Tokens produzidos
TOKENIZE_FULLTEXT("A tout pourquoi il y a un parce que") [a, tout, pourquoi, il, ya, un, parce, que]
TOKENIZE_FULLTEXT("A tout pourquoi il y a un parce que", \ language_tag=>"fr") [a, tout, pourquoi, il, y, a, un, parce, que]
TOKENIZE_FULLTEXT("旅 行") Dois tokens: [旅, 行]
TOKENIZE_FULLTEXT("旅 行", language_tag=>"zh") Um token: [viagem]

A seguir