Nesta página, explicamos como rastrear a linhagem de dados da sua instância do Looker (Google Cloud Core) usando o Knowledge Catalog.
A linhagem de dados é o processo de rastreamento do fluxo de dados pelos sistemas. Ao integrar o Looker (Google Cloud Core) ao Knowledge Catalog, é possível visualizar a jornada completa dos seus dados, desde a origem no BigQuery até o consumo downstream em painéis e Looks, passando pela camada semântica do Looker (visualizações e análises detalhadas da LookML).
Essa visibilidade ajuda os engenheiros e administradores de dados a realizar análises de impacto. Por exemplo, antes de descartar uma coluna em uma tabela do BigQuery, é possível verificar o gráfico de linhagem para saber exatamente quais painéis do Looker seriam afetados pela mudança.
Antes de começar
Para usar a linhagem de dados com o Looker (Google Cloud Core), é preciso atender aos seguintes pré-requisitos:
- Looker (Google Cloud Core): a linhagem de dados é compatível com todos os tipos de edição de instâncias do Looker (Google Cloud Core). As instâncias do Looker (original) não se integram ao Knowledge Catalog.
- Permissões necessárias:para ver gráficos de linhagem, você precisa dos seguintes papéis do IAM:
- Visualizador de esquema do Looker (
roles/looker.schemaViewer) no projeto que hospeda a instância do Looker (Google Cloud Core) - Leitor do Dataplex (
roles/dataplex.viewer) ou permissões equivalentes para visualizar recursos do Knowledge Catalog - Leitor da linhagem de dados (
roles/datalineage.viewer) para ler dados de linhagem
- Visualizador de esquema do Looker (
Ativar a linhagem de dados
Para ativar a linhagem de dados, siga estas etapas:
- Ative a integração do Universal Catalog para o Looker (Google Cloud Core): a integração entre sua instância do Looker (Google Cloud Core) e o Knowledge Catalog é ativada por padrão no console Google Cloud . Se a integração foi desativada, ative-a novamente. Consulte Ativar a integração para instruções.
- Ative o recurso de prévia da linhagem do Knowledge Catalog no Looker:o recurso de prévia da linhagem do Knowledge Catalog fica desativado por padrão na página Recursos de prévia do painel Administrador na instância do Looker (Google Cloud Core).
- Ative a API Data Lineage:é necessário ativar a API Data Lineage (
datalineage.googleapis.com) em qualquer projeto do Google Cloud que hospede sua instância do Looker (Google Cloud Core) e seus dados do BigQuery. - Ative a ingestão de linhagem no nível do serviço:Ensure se a linhagem e a integração no nível do serviço do Looker (Google Cloud Core) estão ativadas. A linhagem de dados no nível do serviço segue os seguintes estados padrão:
- Para evitar implicações futuras de preços, a ingestão de linhagem no nível de serviço do Looker (Google Cloud Core) é desativada por padrão em projetos que, na data de lançamento da prévia deste recurso, tinham a API Data Lineage ativada e hospedavam pelo menos uma instância do Looker (Google Cloud Core).
- A ingestão de linhagem no nível do serviço é ativada por padrão para instâncias do Looker (Google Cloud Core) criadas após a data de lançamento da prévia desse recurso em projetos com a API Data Lineage ativada.
Para conferir a configuração de linhagem de um projeto Google Cloud , consulte a documentação Receber configuração atual. Se a integração com o Looker (Google Cloud Core) estiver desativada, o comando vai retornar uma saída semelhante a esta:
{ "name": "projects/123456789012/locations/global/config", "ingestion": { "rules": [ { "integrationSelector": { "integration": "LOOKER_CORE" }, "lineageEnablement": { "enabled": false } } ] }, "etag": "Wb35wDxTTLd6Z+QAL+Yd4g==" }
O ID do projeto na resposta vai refletir o ID na sua solicitação. O campo etag é um checksum gerado pelo servidor com base no valor atual da configuração.
Ver linhagem de dados
Depois que a integração for ativada e a sincronização inicial for concluída (o que pode levar até 24 horas), você poderá ver a linhagem no console do Knowledge Catalog.
- No console Google Cloud , acesse a página Knowledge Catalog.
- Clique em Pesquisar no painel de navegação à esquerda.
- Pesquise uma tabela do BigQuery ou um recurso do Looker (Google Cloud Core), como um painel ou uma análise detalhada.
- Use o painel Filtros para filtrar por Sistema > Looker.
- Clique no nome do recurso para abrir a página de detalhes.
- Clique na guia Linhagem.
O gráfico de linhagem mostra o recurso como um nó central, com fontes upstream à esquerda e consumidores downstream à direita.
Interpretar o gráfico de linhagem
O gráfico de linhagem consiste em nós e links:
- Nós:representam recursos de dados. Os recursos compatíveis do Looker (Google Cloud Core) incluem:
- Painel do Looker
- Elemento do dashboard do Looker (bloco)
- Look do Looker
- Explorar da LookML
- Visualização da LookML
- Links:representam o fluxo de dados. Por exemplo, um link de uma tabela do BigQuery para uma visualização do LookML indica que a visualização seleciona dados dessa tabela.
Identificar proprietários de recursos
Para descobrir quem é o proprietário de um recurso downstream que pode ser afetado por uma mudança, siga estas etapas:
- No gráfico de linhagem, clique no nó do recurso (por exemplo, um painel do Looker).
- Um painel de informações é aberto no lado direito da tela.
- Procure a seção Aspectos para encontrar o Proprietário (endereço de e-mail).
Filtrar a lista de linhagem
Na visualização Lista da linhagem, é possível filtrar entidades por nome ou valor da propriedade. Por exemplo, modelos complexos da LookML podem gerar gráficos de linhagem grandes com muitas entidades intermediárias. Para focar no impacto nos negócios, filtre por tipo de entidade seguindo estas etapas:
- Na guia Linhagem, alterne para a visualização em Lista.
- Localize as opções de Filtro na barra de ferramentas.
- No filtro Entidade, insira Painel do Looker e Look do Looker para filtrar tipos intermediários, como Visualização do LookML e Análise do Looker.
A lista de entidades é atualizada para mostrar apenas os tipos de recursos selecionados, facilitando a identificação do conteúdo voltado ao usuário.
Limitações
A integração de linhagem do Looker (Google Cloud Core) tem as seguintes limitações durante a versão de pré-lançamento:
- Fontes de dados:no pré-lançamento, a linhagem é compatível apenas com fontes de dados do BigQuery.
- Granularidade:a linhagem é fornecida no nível do objeto (tabela, visualização, Análise detalhada, painel). O linhagem no nível da coluna não é compatível.
- Latência:os dados de linhagem não são em tempo real. O processo de sincronização geralmente leva quatro horas. No entanto, a sincronização pode levar até oito horas, dependendo do momento das exportações de metadados do Looker e do consumo de dados de linhagem. As mudanças feitas no Looker ou no BigQuery podem levar algum tempo para aparecer no gráfico de linhagem.
- SQL complexo:a LookML definida com SQL personalizado complexo (por exemplo, modelos Liquid, tabelas derivadas com junções complexas) pode não ser totalmente analisada, o que pode resultar em nós desconectados.
Preços
Durante o pré-lançamento, não há cobrança pelos recursos de linhagem de dados usados com essa integração.
Quando a linhagem de dados estiver disponível para o público em geral, haverá cobranças. Para evitar implicações futuras de preços, a ingestão de linhagem do Looker (Google Cloud Core) é desativada por padrão em projetos que, na data de lançamento da prévia desse recurso, tinham a API Data Lineage ativada e hospedavam pelo menos uma instância do Looker (Google Cloud Core).
Para mais informações, consulte a página de preços do Knowledge Catalog.