コンテンツに移動
パートナー

Dataflow の新しいテンプレート Google Cloud to Neo4j を使ってデータ移動を効率化する方法

2024年1月22日
Google Cloud Japan Team

※この投稿は米国時間 2024 年 1 月 13 日に、Google Cloud blog に投稿されたものの抄訳です。

Neo4j は、相互接続する大量データを走査して複雑な関係を処理する機能を備えたグラフ データベースです。Google Cloud は、堅牢なインフラストラクチャを提供してこのデータベースを補完し、膨大データのワークロードをホスト、管理しています。Neo4j と Google Cloud はこのたび共同で、新しい Dataflow テンプレート Google Cloud to Neo4j を開発しました(ドキュメントガイドをご覧ください)。このテンプレートは、Google Cloud コンソールからお試しいただけます。

このブログ投稿では、データ エンジニアやデータ サイエンティストを対象に、Google Cloud to Neo4j テンプレートを使って Google Cloud から Neo4j データベースへのデータ移動を効率化し、Neo4j データベースにおけるデータ探索および分析を効果的に行えるようにする方法を説明します。

BigQuery および Cloud Storage のデータを Neo4j にインポートする

Google Cloud の BigQuery はフルマネージドかつサーバーレスなエンタープライズ データ ウェアハウス ソリューションであり、Cloud Storage と合わせて多くのお客様に活用されています。これらを使用することで、各種ソースシステムからのあらゆる形式の多様なデータを一元化して分析することが可能となります。この統合型のアプローチによって、異なるデータソースのデータを管理するという複雑なタスクをシンプルにすると同時に、厳格なセキュリティ対策を維持することができます。また、データを 1 か所に保存して効率的に処理できるため、組織は分析、予測、トレンド把握を行って、そこから得た貴重なインサイトに基づいて意思決定ができるようになります。BigQuery は、データを集計、分析する要としての役割を果たします。Dataflow テンプレート Google Cloud to Neo4j の仕組みについて詳しくは、以下をお読みください。BigQuery および Cloud Storage のデータを、Google Cloud 上で実行しているフルマネージドのクラウド グラフ データベース サービス Neo4j の Aura DB に効率的に移動する方法について説明しています。

Dataflow テンプレートを使用する

Python ベースのノートブックや Spark 環境などの一般的なデータ統合方法とは異なり、Dataflow はプロセス全体をシンプルにするのが特徴で、コーディングは不要です。また、アイドル状態のときは無料であるほか、Google Cloud のセキュリティ フレームワークによってデータ ワークフローの安全性および信頼性を高めることができます。

Dataflow は、各種システム間のデータ移動処理を全体的に管理する強力なソリューションです。マネージド サービスとして幅広いデータ処理パターンに対応し、お客様がバッチまたはストリーミングのデータ処理パイプラインを簡単にデプロイできるようにします。Dataflow のデータ統合を簡単に行えるよう、各種ソースシステム向けのテンプレートが公開されています。

https://storage.googleapis.com/gweb-cloudblog-publish/images/1_Dataflow_template.max-2200x2200.png

図 1: Google Cloud to Neo4j の Dataflow アーキテクチャ図

Google Cloud to Neo4j テンプレートは、Flex とクラシックの 2 種類から選べます。ここでは、Flex テンプレートを使用する例を説明します。Flex では、Neo4j 接続メタデータ ファイルと Job Description ファイルの 2 種類の構成ファイルのみを使用します。

Neo4j パートナーの GitHub リポジトリ には、テンプレートの使用方法を示す豊富なリソースがあります。たとえば、構成サンプルや、スクリーンショット、データ パイプラインの詳細な設定手順のほか、BigQuery から a Neo4j データベースにデータを移すための詳しい手順も含まれています。

2 つの構成ファイル(Neo4j 接続メタデータ ファイルとジョブ構成ファイル)が準備できたら、Dataflow テンプレートを使って、Google Cloud から Neo4j にデータを移すことができます。Dataflow 構成ページのスクリーンショットを以下に示します。

https://storage.googleapis.com/gweb-cloudblog-publish/images/2_Dataflow_template.max-1100x1100.png
https://storage.googleapis.com/gweb-cloudblog-publish/images/3_Dataflow_template.max-700x700.png

この Dataflow テンプレートの詳細ドキュメントは、Neo4j のドキュメント ポータルにあります。以下のリンクを参照してください: Dataflow Flex Template for BigQuery to Neo4jDataflow Flex Template for Google Cloud to Neo4j

Google Cloud と Neo4j 間のデータ移行をシンプルに

Dataflow テンプレート Google Cloud to Neo4j を使えば、Neo4j のグラフ データベースと Google Cloud データ処理スイートを簡単に組み合わせて使用できます。実際にやってみるには、以下のリソースをご覧ください。

-Neo4j、シニア クラウド パートナー アーキテクト Guhan Sivaji 氏

-Google Cloud、Dataflow PM Mehran Nazir

投稿先