データ分析

Google Cloud Data Heroes シリーズ: ドイツを拠点とするデータ エンジニアで「Not So BigQuery Newsletter」の制作者である Tomi 氏へのインタビュー

Google Cloud Data Heroes Series.gif

※この投稿は米国時間 2022 年 7 月 20 日に、Google Cloud blog に投稿されたものの抄訳です。

tomi g.jpg

Google Cloud Data Heroes は、Google のデータツールを駆使して素晴らしい成果を生み出す日常のヒーローたちの物語をお伝えするシリーズです。優れたスーパーヒーロー ストーリーと同じように、Google Cloud データヒーローの誕生秘話、データのカオスからデータドリブンな環境に移行した経緯、現在取り組んでいるプロジェクトや課題、コミュニティにどう還元しているかといったことについて探ります。

今月は、Tomi 氏をお迎えしました。Tomi 氏はクロアチアの出身です。現在はドイツのベルリン在住で、フリーランスの Google Cloud データ エンジニアとして働いています。職務の中で Tomi 氏は日常的に BigQuery を使用しています。BigQuery に精通し、Google Cloud に大きな情熱を傾けていることから、ウィークリー ニュースレター「Not So BigQuery」を創設し、GCP の世界における最新のデータ関連情報を紹介しています。  さらに、ドイツの大手自動車メーカーにもアナリストとして勤務しています。Tomi 氏はプライベートでは、ガールフレンドと愛犬との散歩や、ベーカリー巡り、夜のテレビ視聴を楽しんでいます。

クラウド、テクノロジー、データ分野との出会いについて教えてください。キャリアの中でこの分野を追求した理由は何ですか?

私はいつも「人生で何をしたいか」という問いと格闘していました。ザグレブ応用科学大学で情報工学を専攻しましたが、デベロッパーになるか、データ エンジニアになるか、あるいは別の職につくか、はっきりと決めていませんでした。

数年間はジュニア IT コンサルタントとして働いていましたが、そんなある日、データアナリスト / サイエンティストの求人情報を見つけました。一日中データと向き合っているだけで給料がもらえるなんて、当時の私には衝撃的でした。まさに夢のような仕事でした。

すぐにこの求人に応募し、どんなスキルが必要か調べ始めました。2018 年 2 月には Google Cloud Platform の無料トライアルに登録しました。これが初めての Google Cloud の経験でした。プラットフォームには、Google Cloud で Jupyter ノートブックを利用する方法についてのブログ投稿がありました。これにとても興味をひかれ、さっそく初めての Compute Engine インスタンスを Google Cloud Platform で作ってみました。

最初に応募した求人では採用されませんでしたが、しかしここからすべては動き出し、今の私があるのです。

どのようなコースや学習内容、学位、認定資格がこの分野でのステップアップと成功に役立ちましたか?2022 年の現在、成功のためにデータ実務者が焦点を当てるべきデータスキルや能力は何であるとお考えですか?また、その理由は何ですか?

大学時代を振り返ると、データベースに関するコースが非常に興味深いものでした。素晴らしい先生に恵まれたことも理由の一つですが、当時は自覚のなかった自分自身のデータ好きな一面を、このコースでの体験が初めて満たしてくれたことも大きな理由です。

2019 年に私は Google Cloud Certified Associate Cloud Engineer の認定資格を獲得しました。これは Google Cloud の初級レベルの資格で、難しかったけれど得るものも大きい資格でした。学習の対象を絞る意味でも、こういった資格に挑戦してみることをおすすめします。

データ分野で仕事をするようになってから感じた大きな変化として、現在も進行中の、オンプレミスからクラウドやサーバーレスへの移行があげられます。かつてコンサルティング分野の IT オペレーション チームの一員として働いていた頃、オンプレミス サーバーの障害が原因で重大なインシデントが発生しました。そのときに、イライラした様子の同僚がこんなことを言いました。「そもそもなぜサーバーなんて持たなければならないのか?"機能だけを実行" することはできないのか?」当時は馬鹿げた問いだと思いましたが、結果としてはこれは現在のサーバーレスでクラウドベースのテクノロジーを「予見」したものと言えます。

Google Cloud に惹かれた理由は何ですか?その経緯を教えてください。また、この分野について最も誇りに思っていること、コミュニティに貢献する活動をしている理由についても教えてください。

Google Cloud Platform に関する優れたニュースレターに「GCP Weekly」というものがあります。これは、データ コミュニティのメンバーで、私の敬愛する Zdenko Hrček 氏が運営しています。GCP のエコシステムは急速に拡大しているため、1 週間の間に、追い切れないほど膨大な数のニュースやブログ記事が発信されることもあります。プロダクトの最新情報やチュートリアルをすべて把握するのは大変でした。そこで私は考えました。「BigQuery などのデータ関連ツールに範囲を絞った、小さいニュースレターを作ればどうだろう?」現在では、「Not So BigQuery」ニュースレターの登録読者数は 220 人を超えています。

また、Google Cloud のスタッフ デベロッパー アドボケイトの Priyanka Vergadia 氏が書いたスケッチノート シリーズなどの素晴らしいコンテンツにも影響を受けています。これまでに、「GCP Data Wiki」も作成しました。これは公開 Notion ページで、GCP のすべてのデータベースやストレージ サービスについてカードが用意され、公式ドキュメントやスケッチノートへのリンクなどの有益な情報を紹介しています。

Google Cloud のデータ プロダクトで行った、特に好きなプロジェクトを 1 つか 2 つ教えてください。

使い始めたころに Google Cloud プロダクトで作成したプロジェクトに、公式の Spotify API からトラックデータを取得するための自動データ パイプラインがあります。私は自分のポートフォリオに追加するデータ プロジェクトを探していたのですが、REST API を利用して Spotify の大規模なライブラリをクエリできることを知ったのです。これが後に、Google Cloud Functions と BigQuery で動作する完全なサーバーレス パイプラインへと進化しました。また、私はこの一連の内容についてブログ記事を書き、Medium で 310 件のクラップがありました。
serverless spotify data pipeline.jpg

さらに、「Not So BigQuery」ニュースレターでは、Google スプレッドシートと Firebase(Functions)で私が作ったツールが利用されています。Google スプレッドシートに Google Cloud ブログや Medium などのソースからニュース フィード セクションを読み込んでいます。IMPORTFEED や FILTER などの組み込みのスプレッドシート関数を使用して、キーワード ベースの記事選定アルゴリズムを作成し、次号のニュースレターに記載する記事をあらかじめ選ぶようにしました。その後、私が作った crssnt(クロワッサン)というツールでデータを Google スプレッドシートから読み込み、ニュースレターに表示します。もしご関心があれば、この Google スプレッドシートはこちらからご覧いただけます。

データ分析、データベース、AI / ML カテゴリの中で、特に好きな Google Cloud Platform のデータ プロダクトを教えてください。仕事で特に焦点を当てているユースケースは何ですか?また、GCP のサービスで際立っている点は何ですか?

私が一番好きなのは BigQuery ですが、Firestore も大いに気に入っています。BigQuery はデータ ウェアハウスが必要になった場合に必ず選ぶツールです(個人用でもクライアント プロジェクトでも)。際立っていることといえば、新しいデータベースをゼロから作り上げる場合に、BigQuery テーブルをもとに構築されたデータポータル ダッシュボードなどの形で、最初の結果を取得する際の使いやすさです。同じように、何か新しいフロントエンド プロジェクトのアイデアが浮かぶと、いつも Firestore に立ち戻ります。Firestore は作業を始めるにあたって非常に使いやすく、柔軟性も高いツールです。

同様の Google 以外のプロダクトの中では、しばらく前に Snowflake を使ったことがありますが、ユーザー インターフェースは BigQuery ほど直感的でもユーザー フレンドリーでもありませんでした。

今後の展望を教えてください。

今後も今とほぼ変わらないでしょう。データに没頭している私には、いつも新しい発見や学びが待っています。

読者のみなさんに伝えたいことは、最初に決めたキャリアパスや役職名にあまりこだわらず、自分がやりたいことをやる、ということです。物事を進めて目標に到達する道は決して 1 つではないのです。

データ エンジニア コミュニティに参加してみませんか?

7 月 20 日の Data Engineer Spotlight にご登録ください。4 つの技術的なハウツー セッションで、増え続けるデータの管理に役立つ最新のプロダクト イノベーションについて Google Cloud エキスパートが解説します。

さあ、次はあなたがデータヒーローになる番です

Google Cloud でのデータの旅に乗り出す準備はできましたか?GCP が推奨する学習プログラムに沿ってバッジや認定資格を取得し、ヒーローを目指しましょう。今すぐ Cloud Innovators プログラムに参加して、データ実務者向けのヒント、アドバイス、イベントなどの最新情報を入手しましょう。

もし優れたデータヒーローの物語をご存じでしたら、ぜひ Google にお知らせください。こちらのシリーズで紹介いたします。

- アソシエイト プロダクト マーケティング マネージャー Grace Yeung

- アソシエイト プロダクト マーケティング マネージャー インターン Mia Lerner