BigQuery コミュニティの UDF を全世界に公開、誰もが簡単にデータ変換を行えるように
Andrew Fleischer
Data Engineer, Google Cloud
Daniel De Leo
Data Engineer, Google Cloud
※この投稿は米国時間 2024 年 6 月 15 日に、Google Cloud blog に投稿されたものの抄訳です。
BigQuery ユーザーの皆様、朗報です。コミュニティが提供する人気の bigquery-utils リポジトリの BigQuery ユーザー定義関数(UDF)が、すべての BigQuery リージョンで公開されることになりました。今回の拡張により、データ ウェアハウス ワークロードをどこで実行していても、この優れたなツールを活用してデータ変換を効率化できるようになります。
UDF とは何か、なぜ注目する必要があるのか
UDF は、特定のタスクを処理するために BigQuery で作成できるカスタム関数です。組み込みの SQL 関数のように機能しますが、ユーザー独自のニーズに合わせて調整できます。複雑な文字列を解析する必要がある場合や、標準 SQL では容易に行えない計算を実行する必要がある場合は、UDF の出番です。
これまで、コミュニティが提供する UDF は公開こそされていましたが、bqutil プロジェクトの米国マルチリージョンに限定されていました。米国外のユーザーは、自身のプロジェクトの自身のリージョン データセットに UDF を手動でデプロイしなければならず、ワークフローに余分な手順が生じていました。今回、コミュニティが提供する BigQuery UDF を全世界に公開することで、この制限を撤廃します。
今回の拡張がお客様にとって重要な理由
-
グローバルなアクセス性: コミュニティで開発された膨大な UDF コレクションを、BigQuery データの保存場所に関係なく利用できるようになります。これにより、高度なデータ変換手法の利用が真の意味で民主化されます。
-
コミュニティ コラボレーション: 今回の拡張は、オープンソース コラボレーションの力を証明するものです。これは、Google Cloud と広範なコミュニティが協力して、BigQuery を最も利用しやすく汎用的なデータ ウェアハウス ソリューションにしていることを示しています。
ご利用方法
リージョンのサフィックスで UDF を参照するだけで、自身のリージョンで UDF を使用できます。
たとえば、異なるリージョンで typeof() 関数を使用する場合は次のようにします。
詳細情報と貢献のお願い
利用可能な UDF の全範囲を調べ、それぞれの使用方法を確認するには、bigquery-utils GitHub リポジトリをご覧ください。
ユーザー定義関数の作成に習熟している方には、独自の関数をコミュニティに共有していただければ嬉しく思います。スタートガイドとして、貢献に関するドキュメントをご覧ください。このたびのグローバル UDF をどのように活用しているかをお知らせください。よろしくお願いいたします。
bigquery-utils プロジェクトのメンテナンス担当者と貢献者をはじめ、時間を捧げ専門知識を提供してくれたすべての人々に心から感謝の意を表したいと思います。