Python を使用したクイックスタート

このページでは、Python 開発環境を設定し、Dataflow SDK for Python を入手し、Google Cloud Platform Console を使用してパイプラインの例を実行する方法を示します。

準備

  1. Google アカウントへのログイン

    Google アカウントをまだお持ちでない場合は、新しいアカウントを登録します。

  2. Cloud Platform Console プロジェクトを選択または作成します。

    [プロジェクト] ページに移動

  3. プロジェクトの課金を有効にします。

    課金の有効化

  4. Cloud Dataflow、Compute Engine、Stackdriver Logging、Google Cloud Storage、Google Cloud Storage JSON、BigQuery、Google Cloud Resource Manager API(複数)を有効にする。

    Enable the APIs

  5. Cloud SDK をインストールします
  6. Cloud Storage バケットを作成します。
    1. Cloud Storage ブラウザを開きます。
      Cloud Storage ブラウザに移動
    2. [バケットを作成] をクリックします。
    3. バケットの一意の名前を入力します。
      • バケットの名前空間はグローバルであり一般公開されるため、バケット名に機密情報を含めないでください。
    4. [ストレージ クラス] で [Multi-Regional] を選択します。
    5. [ロケーション] で [米国] を選択します。
  7. Cloud Platform で認証します。次のコマンドを実行して、アプリケーションのデフォルト認証情報を取得します。
    gcloud auth application-default login

pip と Dataflow SDK をインストールする

  1. Dataflow SDK for Python では、Python バージョン 2.7 が必要です。次のコマンドを実行して、Python バージョン 2.7 を使用していることを確認します。
    python --version
  2. pip をインストールします。pip は Python のパッケージ マネージャです。次のコマンドを実行して、pip がすでにインストールされているかどうかを確認します。
    pip --version
    pip をインストール後、そのバージョンが 7.0.0 以上であることを確認します。pip を更新するには、次のコマンドを実行します。
    pip install -U pip

    すぐに利用できるコマンド プロンプトがない場合は、Google Cloud Shell を使用できます。これには Python のパッケージ マネージャがすでにインストールされているため、この設定手順をスキップできます。

  3. Cython は不要ですが、インストールされている場合は、そのバージョンが 0.23.2 以降である必要があります。pip show cython を実行して、Cython のバージョンを確認します。
  4. この手順は省略可能ですが、行っていただくことを強くお勧めします。最初の試験運用版として Python 仮想環境をインストールして作成する:
    1. virtualenv のバージョンが 13.1.0 以降でない場合は、次のコマンドを実行してインストールします。
      pip install --upgrade virtualenv
    2. 独自の Python ディストリビューションが含まれるディレクトリ ツリーである仮想環境を作成するには、ディレクトリを作成し、次のコマンドを実行します。
      virtualenv /path/to/directory
    3. 仮想環境を使用するシェルごとにその仮想環境を有効にする必要があります。仮想環境を有効にすると、一部の環境変数がその仮想環境のディレクトリを指すように設定されます。Bash で仮想環境を有効にするには、次のコマンドを実行します。
      . /path/to/directory/bin/activate
      このコマンドにより、作成した仮想環境ディレクトリの下にスクリプト bin/activate がコピーされ、実行されます。
      他のシェルを使用する手順については、 virtualenv のマニュアルをご参照ください。
  5. 仮想環境から次のコマンドを実行して、最新バージョンの Dataflow SDK for Python をインストールします。
    pip install google-cloud-dataflow
  6. 次のコマンドを実行して、wordcount.py の例をローカルで実行します。
    python -m apache_beam.examples.wordcount --output OUTPUT_FILE

    google-cloud-dataflow をインストールしましたが、apache_beam で WordCount を実行します。これは、Dataflow が Apache Beam のディストリビューションであるためです。

    次のようなメッセージが表示される場合があります。

    INFO:root:Missing pipeline option (runner). Executing pipeline using the default runner: DirectRunner.
    INFO:oauth2client.client:Attempting refresh to obtain initial access_token

パイプラインの例をリモートで実行する

  1. PROJECT 環境変数をご使用の Cloud Platform プロジェクト名に設定します。上記の準備セクションの手順 5 で選択したバケットに BUCKET 環境変数を設定します。
    BUCKET=gs://<bucket name chosen in step 5>
  2. wordcount.py の例をリモートで実行します。
    python -m apache_beam.examples.wordcount \
      --project $PROJECT \
      --runner DataflowRunner \
      --staging_location $BUCKET/staging \
      --temp_location $BUCKET/temp \
      --output $BUCKET/results/output
  3. ジョブが正常に実行されたことを確認します。

    1. Google Cloud Platform Console で Cloud Dataflow Monitoring UI を開きます。
      Cloud Dataflow Monitoring UI に移動

      まず、ステータスが [実行中] の wordcount ジョブを確認し、次に [完了] のジョブを確認します。

      Cloud Dataflow ジョブ
    2. Google Cloud Platform Console で Cloud Storage ブラウザを開きます。
      Cloud Storage ブラウザに移動

      バケットに results および staging ディレクトリが格納されているのを確認できます。

      Cloud Storage バケット

      results ディレクトリに、実行したジョブで作成された出力ファイルが格納されているのを確認できます。

      出力ファイル

クリーンアップ

このクイックスタートで使用したリソースについて、Google Cloud Platform アカウントに課金されないようにする手順は次のとおりです。

  1. Google Cloud Platform Console で Cloud Storage ブラウザを開きます。
  2. 作成したバケットの横にあるチェックボックスをオンにします。
  3. [削除] をクリックします。
  4. [削除] をクリックして、バケットとそのコンテンツを完全に削除します。

次のステップ

Apache Beam™ は、Apache Software Foundation または米国その他の諸国における関連会社の商標です。

フィードバックを送信...