Python を使用したクイックスタート

このページでは、Google API Console を使用して、Python 開発環境をセットアップし、Dataflow SDK for Python を取得し、サンプルのパイプラインを実行する方法について説明します。

始める前に

  1. Google アカウントへのログイン

    Google アカウントをまだお持ちでない場合は、新しいアカウントを登録します。

  2. Cloud Platform Console プロジェクトを選択または作成します。

    [プロジェクト] ページに移動

  3. プロジェクトの課金を有効にします。

    課金の有効化

  4. Google Dataflow, Compute Engine, Stackdriver Logging, Google Cloud Storage, Google Cloud Storage JSON, and BigQuery API(複数)を有効にする。

    Enable the APIs

  5. Cloud SDK をインストールします
  6. Cloud Storage バケットを作成します。
    1. Cloud Storage ブラウザを開きます。
      Cloud Storage ブラウザに移動
    2. [バケットを作成] をクリックします。
    3. バケットの一意の名前を入力します。
      • バケットの名前空間はグローバルであり一般公開されるため、バケット名に機密情報を含めないでください。
    4. [ストレージ クラス] で [Multi-Regional] を選択します。
    5. [ロケーション] で [米国] を選択します。
  7. Cloud Platform で認証します。ユーザー アカウントで gcloud auth login を実行します。
        gcloud auth login 'user@example.com'
    

pip と Dataflow SDK をインストールする

  1. Dataflow SDK for Python では、Python バージョン 2.7 が必要です。python --version を実行して Python バージョン 2.7 を使用していることを確認します。
  2. pip をインストールします。pip は Python のパッケージ マネージャです。pip --version を実行して、pip がインストール済みかどうかを確認します。インストール後、pip バージョンが 7.0.0 以降であることを確認します。pip を更新するには、次のコマンドを実行します。
      pip install -U pip
      

    すぐに利用できるコマンド プロンプトがない場合は、Google Cloud Shell を使用できます。これには Python のパッケージ マネージャがすでにインストールされているため、この設定手順をスキップできます。

  3. Cython は不要ですが、インストールされている場合は、そのバージョンが 0.23.2 以降である必要があります。pip show cython を実行して、Cython のバージョンを確認します。
  4. 仮想環境から次のコマンドを実行して、最新バージョンの Dataflow SDK for Python をインストールします。
    pip install google-cloud-dataflow
  5. 次のコマンドを実行して、wordcount.py の例をローカルで実行します。
    python -m apache_beam.examples.wordcount --output OUTPUT_FILE

    google-cloud-dataflow をインストールしましたが、apache_beam で WordCount を実行します。これは、Dataflow が Apache Beam のディストリビューションであるためです。

    次のようなメッセージが表示される場合があります。

      INFO:root:Missing pipeline option (runner). Executing pipeline using the default runner: DirectRunner.
      INFO:oauth2client.client:Attempting refresh to obtain initial access_token
      

パイプラインの例をリモートで実行する

  1. PROJECT をステップ 1 で選択した名前に設定し、BUCKET上記のセクションのステップ 5 で選択したバケットに設定します。
      PROJECT=<project name chosen in step 1>
      BUCKET=gs://<bucket name chosen in step 5>
    
  2. wordcount.py の例をリモートで実行します。
    python -m apache_beam.examples.wordcount \
      --project $PROJECT \
      --job_name $PROJECT-wordcount \
      --runner DataflowRunner \
      --staging_location $BUCKET/staging \
      --temp_location $BUCKET/temp \
      --output $BUCKET/output
    
  3. ジョブが正常に実行されたことを確認します。

    1. Google API Console で Cloud Dataflow Monitoring UI を開きます。
      Cloud Dataflow Monitoring UI に移動

      まず、ステータスが [実行中] の wordcount ジョブを確認し、次に [完了] のジョブを確認します。

      Cloud Dataflow ジョブ
    2. Google API Console で Cloud Storage ブラウザを開きます。
      Cloud Storage ブラウザに移動

      バケットに、ジョブによって作成された出力ファイルとステージング ファイルが表示されます。

      Cloud Storage バケット

クリーンアップ

このクイックスタートで使用したリソースについて、Google Cloud Platform アカウントに課金されないようにする手順は次のとおりです。

  1. Google API Console で Cloud Storage ブラウザを開きます。
  2. 作成したバケットの横にあるチェックボックスをオンにします。
  3. [削除] をクリックします。
  4. [削除] をクリックして、バケットとそのコンテンツを完全に削除します。

次のステップ

Apache Beam™ は、Apache Software Foundation または米国その他の諸国における関連会社の商標です。

外出先でもリソースをモニタリング

Google Cloud Console アプリを入手して、プロジェクトの管理にお役立てください。

フィードバックを送信...