BigQuery の AI を活用したデータ準備機能のプレビュー版を提供開始
Tim Bezold
Product Manager
Amit Virmani
Engineering Manager
※この投稿は米国時間 2024 年 10 月 26 日に、Google Cloud blog に投稿されたものの抄訳です。
昨今のデータドリブンな世界では、行動につながるインサイトに元データを効率的に変換できることが極めて重要です。しかし、データの準備とクリーニングはしばしば大きな課題となります。Gartner®1 によると、Gartner の多くの顧客が、現在の業務時間の 90% 以上(複雑な業界では 94% 程度まで)を、高度な分析、データ サイエンス、データ エンジニアリングのためのデータ準備に費やしていると報告しています。
この時間を削減し、元データを効率的にインサイトに変換することは、競争力を維持するために不可欠です。今月発表した BigQuery のデータ準備機能は、データ準備プロセスを合理化して簡素化する AI ファーストのソリューションで、Gemini in BigQuery の一部として提供されます。
現在はプレビュー版である BigQuery のデータ準備機能は、以下のような多くの機能を備えています。
-
AI による提案: BigQuery のデータ準備機能は、Gemini in BigQuery を使用してデータとスキーマを分析し、データのクリーニング、変換、拡充のためのインテリジェントな提案を提供します。これにより、手動によるデータ準備タスクに費やす時間と労力を大幅に削減できます。
-
データ クレンジングと標準化: データの不整合、値の欠損、フォーマット エラーを簡単に特定して修正できます。
-
視覚的なデータ パイプライン: 直感的なローコードのビジュアル インターフェースにより、技術系のユーザーも技術系以外のユーザーも、複雑なデータ パイプラインを簡単に設計できます。また、拡張可能な充実した BigQuery の SQL 機能を活用できます。
-
データ パイプラインのオーケストレーション: データ パイプラインの実行とモニタリングを自動化します。BigQuery のデータ準備機能によって生成された SQL は、Dataform データ エンジニアリング パイプラインの一部となります。これを CI / CD でデプロイおよびオーケストレートし、開発エクスペリエンスを共有できます。
BigQuery のデータ準備機能は、データの精度と信頼性を確保し、より情報に基づいたビジネス上の意思決定を支援します。また、データ品質チェックを自動化し、Dataform や Cloud Storage などの他の Google Cloud サービスと統合することで、お客様のデータニーズに合わせて統合されたスケーラブルな環境を提供します。
仕組み
始めるのは簡単です。BigQuery のデータ準備機能で BigQuery テーブルをサンプリングすると、最先端の基盤モデルを使用してデータとスキーマが評価され、Gemini in BigQuery を使用してデータ準備に関する推奨事項(フィルタや変換の提案など)が生成されます。たとえば、国ごとに有効な日付形式を識別する方法や、どの列が結合キーとして機能するかを認識し、データ エンジニアリング プロセスを高速化します。
上の例(合成データの使用)では、Birthdate 列に 2 つの異なる日付形式が含まれており、その型は STRING です。BigQuery のデータ準備機能により「Birthdate 列を STRING 型から DATE 型の '%Y-%m-%d','%m/%d/%Y に変換する」ことが提案されます。候補カードを適用すると、DATE 形式の列に変換されたプレビュー データを確認できます。
BigQuery の AI を活用したデータ準備機能を使用すると、以下のことが可能になります。
-
Gemini アシストによる候補カードを活用して、データ品質の問題の発見やデータのクリーニングに費やす時間を大幅に削減する
-
データグリッドにサンプルを提供して、独自の候補カードをカスタマイズする
-
増分データ処理にデータ準備機能をデプロイして運用効率を向上させる
BigQuery をご利用のお客様の声
すでに多くのお客様が BigQuery のデータ準備機能を使用して、数多くの課題を解決しています。
北米における屋根材の大手メーカーである GAF は、BigQuery 上でデータ変換パイプラインを作成するためにデータ準備機能を採用しています。
「GAF は ETL インフラストラクチャのモダナイゼーションを検討していたため、BigQuery ネイティブのローコード ソリューションを採用しました。BigQuery のデータ準備機能は、当社の熟練したビジネス ユーザーと分析チームがデータ準備プロセスでセルフサービス分析を可能にするのに役立つでしょう。」- GAF、エンタープライズ データ管理および分析担当マネージメント ディレクター Puja Panchagnula 氏
mCloud Technologies は、エネルギー、建築、製造などの分野の企業が、資産のパフォーマンス、信頼性、サステナビリティを最適化できるよう支援しています。
「当社はパートナー企業からデータフィードを受け取っています。BigQuery のデータ準備機能により、プロダクト マネージャーはデータ エンジニアリング チームのサポートをほとんど、あるいはまったく必要とせずに、ファイル データフィードの準備と運用を行うことができます。」- mCloud Technologies、最高製品および技術責任者 Jim Christian 氏
Public Value Technologies は、ドイツの公共放送機関(ARD)2 社による合弁企業です。
「Public Value Technologies は、当社のデータメッシュ ソリューションと AI アプリケーション用に、メディア パートナーからデータフィードを受け取っています。BigQuery のデータ準備機能により、当社のデータ アナリストとデータ サイエンティストは、データを標準化および前処理するデータフィードをローコード方法で迅速に統合できるようになりました。」- Public Value Technologies、データ エンジニア チームリード Korbinian Schwinger 氏
使ってみる
BigQuery のデータ準備機能は、強力な AI 機能、直感的なインターフェース、Google Cloud エコシステムとの緊密な統合により、組織がデータを管理および準備する方法に革命をもたらします。この革新的なソリューションは、煩雑な作業を自動化し、データ品質を向上させ、ユーザーを支援することで、データの準備に費やす時間を削減し、生産性を向上させます。
BigQuery のデータ準備機能のご利用方法については、以下のリソースをご覧ください。
1. Gartner, State of Metadata Management: Aggressively Pursue Metadata to Enable AI and Generative AI、Mark Beyer、Guido De Simoni、2024 年 9 月 4 日。Gartner は、Gartner, Inc. またはその関係会社の米国およびその他の国における登録商標およびサービスマークであり、同社の許可を得て使用されているものです。著作権はすべて同社に帰属します。