Carregue dados do canal do YouTube para o BigQuery
Pode carregar dados do canal do YouTube para o BigQuery através do conetor do Serviço de transferência de dados do BigQuery para o canal do YouTube. Com o Serviço de transferência de dados do BigQuery, pode agendar tarefas de transferência recorrentes que adicionam os dados mais recentes do seu canal do YouTube ao BigQuery.
Vista geral do conetor
O Serviço de transferência de dados do BigQuery para o conetor do canal do YouTube suporta as seguintes opções para a transferência de dados.
Opções de transferência de dados | Apoio técnico |
---|---|
Relatórios suportados | O conetor de canal do YouTube suporta a transferência de dados de relatórios de canais.
O conetor do canal do YouTube suporta a versão da API de 18 de junho de 2018. Para informações sobre como os relatórios de canais do YouTube são transformados em tabelas e vistas do BigQuery, consulte o artigo Transformação de relatórios de canais do YouTube. |
Frequência de repetição | O conetor do canal do YouTube suporta transferências de dados diárias. Por predefinição, as transferências de dados são agendadas no momento em que são criadas. Pode configurar a hora da transferência de dados quando configurar a transferência de dados. |
Período de atualização | O conetor do canal do YouTube obtém dados do canal do YouTube até 1 dia no momento em que a transferência de dados é executada.
Para mais informações, consulte o artigo Períodos de atualização. |
Disponibilidade de dados de preenchimento | Execute um repreenchimento de dados para obter dados fora da transferência de dados agendada. Pode obter dados até ao limite permitido pela política de retenção de dados na sua origem de dados. Os relatórios do YouTube que contêm dados do histórico estão disponíveis durante 30 dias a partir da data de criação. (Os relatórios que contêm dados não históricos estão disponíveis durante 60 dias.) Para mais informações, consulte Dados do histórico. |
Carregamento de dados de transferências de canais do YouTube
Quando transfere dados de um canal do YouTube para o BigQuery, os dados são carregados em tabelas do BigQuery particionadas por data. A partição da tabela na qual os dados são carregados corresponde à data da origem de dados. Se agendar várias transferências para a mesma data, o Serviço de transferência de dados do BigQuery substitui a partição dessa data específica pelos dados mais recentes. As várias transferências no mesmo dia ou a execução de preenchimentos não resultam em dados duplicados, e as partições para outras datas não são afetadas.Atualize as janelas
Um período de atualização é o número de dias que uma transferência de dados obtém dados quando ocorre uma transferência de dados. Por exemplo, se a janela de atualização for de três dias e ocorrer uma transferência diária, o Serviço de transferência de dados do BigQuery obtém todos os dados da tabela de origem dos últimos três dias. Neste exemplo, quando ocorre uma transferência diária, o Serviço de transferência de dados do BigQuery cria uma nova partição da tabela de destino do BigQuery com uma cópia dos dados da tabela de origem do dia atual e, em seguida, aciona automaticamente execuções de preenchimento para atualizar as partições da tabela de destino do BigQuery com os dados da tabela de origem dos últimos dois dias. As execuções de preenchimento automático acionadas automaticamente substituem ou atualizam incrementalmente a tabela de destino do BigQuery, consoante as atualizações incrementais sejam ou não suportadas no conector do Serviço de transferência de dados do BigQuery.
Quando executa uma transferência de dados pela primeira vez, a transferência de dados obtém todos os dados de origem disponíveis na janela de atualização. Por exemplo, se a janela de atualização for de três dias e executar a transferência de dados pela primeira vez, o Serviço de transferência de dados do BigQuery obtém todos os dados de origem no prazo de três dias.
Para obter dados fora do período de atualização, como dados do histórico, ou para recuperar dados de quaisquer indisponibilidades ou lacunas de transferência, pode iniciar ou agendar uma execução de preenchimento.
Limitações
- O tamanho máximo de ficheiro suportado para cada relatório é de 1710 GB.
- A frequência mínima para a qual pode agendar uma transferência de dados é uma vez a cada 24 horas. Por predefinição, uma transferência de dados começa no momento em que cria a transferência. No entanto, pode configurar a hora de início da transferência de dados quando configurar a transferência.
- O Serviço de transferência de dados do BigQuery não suporta transferências de dados incrementais durante uma transferência de proprietário do conteúdo do YouTube. Quando especifica uma data para uma transferência de dados, todos os dados disponíveis para essa data são transferidos.
- Não pode criar uma transferência de dados do canal do YouTube se tiver sessão iniciada como uma identidade federada. Só pode criar uma transferência de canal do YouTube enquanto tiver sessão iniciada com uma Conta Google.
Antes de começar
Antes de criar uma transferência de dados do canal do YouTube:
- Verifique se concluiu todas as ações necessárias para ativar o Serviço de transferência de dados do BigQuery.
- Crie um conjunto de dados do BigQuery para armazenar os dados do YouTube.
Autorizações necessárias
A criação de uma transferência de dados do canal do YouTube requer o seguinte:
- YouTube: propriedade do canal do YouTube
BigQuery: as seguintes autorizações de gestão de identidades e acessos (IAM) no BigQuery:
bigquery.transfers.update
para criar a transferência.bigquery.datasets.get
ebigquery.datasets.update
no conjunto de dados de destino.- Se pretender configurar notificações de execução de transferências para o Pub/Sub, tem de ter autorizações
pubsub.topics.setIamPolicy
. As autorizações do Pub/Sub não são necessárias se configurar apenas notificações por email. Para mais informações, consulte Notificações de execução do Serviço de transferência de dados do BigQuery.
A função de IAM predefinida bigquery.admin
inclui todas as autorizações do BigQuery de que precisa para criar uma transferência de dados do canal do YouTube. Para mais informações sobre as funções de IAM no BigQuery, consulte o artigo Funções e autorizações predefinidas.
Configure uma transferência de canal do YouTube
A configuração de uma transferência de dados do canal do YouTube requer:
- Sufixo da tabela: um nome fácil de usar para o canal fornecido por si quando configura a transferência de dados. O sufixo é anexado ao ID da tarefa para criar o nome da tabela, por exemplo, reportTypeId_suffix. O sufixo é usado para impedir que transferências separadas escrevam nas mesmas tabelas. O sufixo da tabela tem de ser exclusivo em todas as transferências que carregam dados no mesmo conjunto de dados e o sufixo deve ser curto para minimizar o comprimento do nome da tabela resultante.
Se usar a API YouTube Reporting e tiver tarefas de relatórios existentes, o Serviço de transferência de dados do BigQuery carrega os dados dos seus relatórios. Se não tiver tarefas de relatórios existentes, a configuração da transferência ativa automaticamente as tarefas de relatórios do YouTube.
Para criar uma transferência de dados do canal do YouTube:
Consola
Aceda à página Transferências de dados na Google Cloud consola.
Clique em
Criar transferência.Na página Criar transferência:
Na secção Tipo de origem, para Origem, escolha Canal do YouTube.
Na secção Nome da configuração de transferência, em Nome a apresentar, introduza um nome para a transferência de dados, como
My Transfer
. O nome da transferência pode ser qualquer valor que lhe permita identificar a transferência se precisar de a modificar mais tarde.Na secção Opções de programação:
- Para Frequência de repetição, escolha uma opção para a frequência de execução da transferência de dados. Se selecionar Dias, indique uma hora válida em UTC.
- Se aplicável, selecione Começar agora ou Começar à hora definida e indique uma data de início e um tempo de execução.
Na secção Definições de destino, para Conjunto de dados de destino, escolha o conjunto de dados que criou para armazenar os seus dados.
Na secção Detalhes da origem de dados:
- Para Sufixo da tabela, introduza um sufixo, como
MT
. - Marque a caixa Configurar tarefas para permitir que o BigQuery faça a gestão das tarefas de relatórios do YouTube por si. Se existirem relatórios do YouTube que ainda não existam para a sua conta, são criadas novas tarefas de relatórios para os ativar.
- Para Sufixo da tabela, introduza um sufixo, como
(Opcional) Na secção Opções de notificação:
- Clique no botão para ativar as notificações por email. Quando ativa esta opção, o administrador da transferência recebe uma notificação por email quando uma execução de transferência falha.
- Em Selecionar um tópico do Pub/Sub, escolha o nome do tópico ou clique em Criar um tópico. Esta opção configura notificações executadas pelo Pub/Sub para a transferência de dados.
Clique em Guardar.
bq
Introduza o comando bq mk
e forneça a flag de criação de transferência —
--transfer_config
. Os seguintes indicadores também são obrigatórios:
--data_source
--target_dataset
--display_name
--params
bq mk \ --transfer_config \ --project_id=project_id \ --target_dataset=dataset \ --display_name=name \ --params='parameters' \ --data_source=data_source
Onde:
- project_id é o ID do seu projeto.
- dataset é o conjunto de dados de destino para a configuração de transferência.
- name é o nome a apresentar da configuração de transferência. O nome da transferência de dados pode ser qualquer valor que lhe permita identificar a transferência se precisar de a modificar mais tarde.
- parameters contém os parâmetros da configuração de transferência criada no formato JSON. Por exemplo:
--params='{"param":"param_value"}'
. Para transferências de dados do canal do YouTube, tem de fornecer o parâmetrotable_suffix
. Opcionalmente, pode definir o parâmetroconfigure_jobs
comotrue
para permitir que o Serviço de transferência de dados do BigQuery faça a gestão das tarefas de relatórios do YouTube por si. Se existirem relatórios do YouTube que não existam para o seu canal, são criadas novas tarefas de relatórios para os ativar. - data_source é a origem de dados —
youtube_channel
.
Também pode fornecer a flag --project_id
para especificar um projeto
em particular. Se --project_id
não for especificado, é usado o projeto predefinido.
Por exemplo, o comando seguinte cria uma transferência de dados do canal do YouTube denominada
My Transfer
com o sufixo da tabela MT
e o conjunto de dados de destino mydataset
. A transferência de dados é criada no projeto predefinido:
bq mk \
--transfer_config \
--target_dataset=mydataset \
--display_name='My Transfer' \
--params='{"table_suffix":"MT","configure_jobs":"true"}' \
--data_source=youtube_channel
API
Use o método projects.locations.transferConfigs.create
e forneça uma instância do recurso TransferConfig
.
Java
Antes de experimentar este exemplo, siga as Javainstruções de configuração no início rápido do BigQuery com bibliotecas cliente. Para mais informações, consulte a API Java BigQuery documentação de referência.
Para se autenticar no BigQuery, configure as Credenciais padrão da aplicação. Para mais informações, consulte o artigo Configure a autenticação para bibliotecas de cliente.
Consultar os seus dados
Quando os dados são transferidos para o BigQuery, são gravados em tabelas particionadas por tempo de ingestão. Para mais informações, consulte o artigo Introdução às tabelas particionadas.
Se consultar as tabelas diretamente em vez de usar as vistas geradas automaticamente, tem de usar a pseudocoluna _PARTITIONTIME
na consulta. Para mais informações,
consulte o artigo Consultar tabelas particionadas.
Resolva problemas de configuração da transferência de canais do YouTube
Se tiver problemas com a configuração da transferência de dados, consulte a secção Problemas de transferência do YouTube em Resolução de problemas de configurações de transferência.