Dataflow ML

Dataflow ML では、Dataflow を使用して完全な ML パイプラインをデプロイおよび管理できます。ML モデルを使用して、バッチパイプラインとストリーミングパイプラインでローカルとリモートの推論を行います。データ処理ツールを使用して、モデルのトレーニング用データを準備し、モデルの結果を処理します。

Dataflow ML について

予測と推論

画像のリアルタイム分類、リモート推論呼び出しの実行、カスタムモデルハンドラの構築など、完全な Dataflow ML のサンプルを確認できます。

導入事例を見る

データ処理

MLTransform クラスを使用して、機械学習（ML）ワークフロー用のデータを前処理します。MLTransform は、複数のデータ処理変換を 1 つのクラスに統合することで、Apache Beam ML データ処理変換をワークフローに適用するプロセスを簡素化しています。

詳細

with pipeline as p:
  predictions = (
      p
      | beam.ReadFromSource('a_source')
      | RunInference(MODEL_HANDLER))

RunInference 変換

RunInference の使用は、変換コードをパイプラインに追加するのと同じくらい簡単です。この例の MODEL_HANDLER はモデル構成オブジェクトです。

with beam.Pipeline() as p:
  transformed_data = (
    p
    | beam.Create(data)
    | MLTransform(...)
    | beam.Map(print))

MLTransform コード

ML モデルのトレーニング用データを準備するには、パイプラインで MLTransform を使用します。MLTransform は、複数のデータ処理変換を 1 つのクラスにラップするため、さまざまな前処理タスクに 1 つのクラスを使用できます。

事前トレーニング済みモデルによる予測と推論

Vertex AI モデルハンドラがある場合

Apache Beam には、リモートでデプロイされた Vertex AI エンドポイントにリクエストを送信するためのサポートが組み込まれています。このノートブックでは、Vertex AI で画像分類に Apache Beam RunInference 変換を使用する方法について説明します。

異なる方法でトレーニングされた複数のモデルをパイプラインで使用したい

同じ RunInference 変換で複数のモデルを使用するには、キー付きモデルハンドラで RunInference 変換を使用します。

MLTransform を使用したデータ処理

Vertex AI を使用して LLM のテキストエンベディングを生成したい

Apache Beam の MLTransform クラスと Vertex AI Text-embeddings API を使用して、テキストエンベディングを生成します。テキストエンベディングは、テキストを数値ベクトルとして表現する方法であり、多くの自然言語処理（NLP）タスクで必要になります。

Hugging Face を使用して LLM のテキストエンベディングを生成したい

Apache Beam の MLTransform クラスと Hugging Face Hub モデルを使用して、テキストエンベディングを生成します。Hugging Face の SentenceTransformers フレームワークは、Python を使用して文、テキスト、画像のエンベディングを生成します。

データセットから語彙を計算したい

データセットから一意の語彙を計算し、各単語またはトークンを個別の整数インデックスにマッピングします。この変換を使用して、テキストデータを ML タスクの数値表現に変換します。

ML モデルをトレーニングするためにデータをスケーリングしたい

ML モデルのトレーニングに使用できるように、データをスケーリングします。Apache Beam の MLTransform クラスには、複数のデータスケーリング変換が含まれています。

ハブモデルによる予測と推論

感情分析と要約を行いたい

推論パイプラインで Gemma モデルを使用すると、会話の感情を測定したり、会話の内容を要約したり、難しい会話での返信の下書きを作成したりできます。

Hugging Face のトレーニング済みモデルがある

Hugging Face のトレーニング済みモデルで RunInference 変換を実行します。

TensorFlow Hub にトレーニング済みモデルがある

TensorFlow Hub のトレーニング済みモデルで TensorFlow の RunInference 変換を使用します。

生成 AI を利用したい

生成 AI タスクに RunInference 変換を使用します。このノートブックでは、Hugging Face Model Hub の言語モデルが使用されます。

ML ワークフローのオーケストレーション

Vertex AI Pipelines で Dataflow を使用する場合

Vertex AI Pipelines では、ML ワークフローをサーバーレスな方法でオーケストレートすることで、ML システムの自動化、モニタリング、管理を行うことができます。Vertex AI Pipelines では、TFX または KFP で定義されたワークフロー DAG をオーケストレートし、Vertex ML Metadata を使用して ML アーティファクトを自動的に追跡できます。