注: 今後数か月にわたり、App Engine ドキュメントサイトの再編成によって、コンテンツを見つけやすくし、他の Google Cloud プロダクトとより適切に連携できるようにする予定です。同じコンテンツを使用できますが、ナビゲーションは他の Cloud プロダクトと同じになります。

Python 2 は、コミュニティによるサポートを終了しました。Python 2 アプリを Python 3 に移行することをおすすめします。

以前のバンドルサービス用の App Engine Datastore API

注: 新しいアプリケーションを作成する際は、NDB クライアントライブラリを使用することを強くおすすめします。NDB クライアントライブラリには、Memcache API によるエンティティの自動キャッシュをはじめ、このクライアントライブラリにはないメリットがあります。古い DB クライアントライブラリを現在使用している場合は、DB から NDB への移行ガイドをお読みください。

このドキュメントでは、Datastore に格納されるオブジェクトのデータモデル、API を使用したクエリの作成方法、トランザクションの処理方法について説明します。

エンティティ

Datastore のオブジェクトをエンティティと呼びます。エンティティは 1 つ以上の名前付きプロパティを持ち、各プロパティが 1 つ以上の値を持ちます。プロパティ値には、整数、浮動小数点数、文字列、日付、バイナリデータなど、さまざまなデータ型があります。複数の値を持つプロパティに対してクエリを実行すると、いずれかの値がクエリの条件を満たしているかどうかが評価されます。このため、メンバーかどうかを評価するときに、こうしたプロパティを活用できます。

種類、キー、識別子

Datastore の各エンティティは特定の種類に属しています。種類とは、クエリに対応できるようにエンティティを分類するものです。たとえば、人事アプリケーションでは、社内の各従業員が Employee という種類のエンティティに相当します。また、各エンティティに独自のキーがあり、これによりエンティティが一意に識別されます。キーは次のコンポーネントで構成されています。

エンティティの種類
識別子。次のいずれかになります。
- キー名の文字列
- 整数の ID
オプションの祖先パス。Datastore 階層内のエンティティの位置を指定します。

識別子は、エンティティの作成時に割り当てられます。識別子はエンティティのキーの一部であるため、エンティティに永続的に関連付けられており、変更できません。識別子を割り当てる方法は次の 2 通りあります。

アプリケーションでエンティティの固有のキー名文字列を指定する。
エンティティに整数の数値 ID が自動的に割り当てられるように Datastore を設定する。

祖先パス

Cloud Datastore 内の各エンティティは、ファイルシステムのディレクトリ構造と同様の階層的に構造化された空間を形成します。エンティティを作成するときに、別のエンティティを親として設定することもできます。新しいエンティティは、この親エンティティの子になります（ファイルシステムとは異なり、親エンティティが実際に存在している必要はありません）。親を持たないエンティティは「ルートエンティティ」となります。エンティティと親との割り当ては永続的であり、エンティティの作成後は変更できません。同じ親を持つ 2 つのエンティティ、または 2 つのルートエンティティ（親を持たないエンティティ）に同じ数値 ID が割り当てられることはありません。

エンティティの親、親の親、さらにその親などは順に「祖先」として位置付けられ、エンティティの子、子の子、さらにその子などは順に「子孫」として位置付けられます。ルートエンティティとその子孫のエンティティは、すべて同じエンティティグループに属します。ルートエンティティから始まり、親から子を経由して対象のエンティティに至るまでのエンティティの連なりのことを、エンティティの「祖先パス」といいます。エンティティを識別する完全なキーは、エンティティの祖先パスから始まってそのエンティティ自身で終わる一連の「種類と識別子のペア」で構成されています。

[Person:GreatGrandpa, Person:Grandpa, Person:Dad, Person:Me]

ルートエンティティの場合は祖先パスが空で、エンティティ自身の種類と識別子だけでキーが構成されています。

[Person:GreatGrandpa]

このコンセプトを次の図に示します。

エンティティグループ内のルートエンティティと子エンティティの関係を示す図

クエリとインデックス

アプリケーションは、キーによって Cloud Datastore からエンティティを直接取得するだけでなく、クエリを実行して、エンティティのプロパティ値によってエンティティを取得することもできます。クエリは特定の種類のエンティティに対して動作します。クエリでは、エンティティのプロパティ値、キー、祖先に対してフィルタを指定でき、任意の数のエンティティを結果として返す（または返さない）ことができます。また、並べ替え順を指定し、プロパティ値を基準にして結果を並べ替えることもできます。結果に含まれるエンティティは、フィルタと並べ替え順で指定されたすべてのプロパティに値が 1 つ以上存在し（null も可）、プロパティ値がすべてのフィルタ条件を満たしたものすべてです。クエリはエンティティ全体や射影されたエンティティを返すこともできれば、エンティティのキーだけを返すこともできます。

一般的に、クエリは次のような要素で構成されます。

クエリの対象となるエンティティの種類
エンティティのプロパティ値、キー、祖先を基準にした 0 個以上のフィルタ
結果の順序を並べ替える 0 個以上の並べ替え順

クエリを実行すると、指定した種類のすべてのエンティティの中で、指定したすべてのフィルタを満たすものが取得され、指定した順序で並べ替えられます。クエリは読み取り専用として実行されます。

注: メモリを節約し、パフォーマンスを向上させるため、クエリでは可能な限り返される結果の数に対する制限を指定してください。

クエリに祖先フィルタを設定すると、指定した祖先の下位にあるエンティティグループだけに結果を絞り込むことができます。このようなクエリは祖先クエリと呼ばれます。祖先クエリのデフォルトでは、強整合性を持つ結果が返されます。つまり、データに対する直近の変更を反映した最新の結果が保証されます。これに対して、祖先クエリでないクエリは、単一のエンティティグループだけでなく Datastore 全体を対象としますが、結果整合性しか持たないため、最新でない結果を返す可能性があります。強整合性が必要なアプリケーションでデータ構造を定義する場合には、祖先を指定してクエリで取得できるように、関連するエンティティを同じエンティティグループに配置することも検討してください。詳細については、強整合性に対応するデータ構造を参照してください。

App Engine は、エンティティの各プロパティに単純なインデックスを事前定義します。さらに、App Engine アプリケーションでは、カスタムインデックスを index.yaml という名前のインデックス構成ファイルの中で定義することもできます。開発用サーバーは、既存のインデックスでは実行できないクエリが出現したときに、このファイルに自動的に候補を追加します。アプリケーションをアップロードする前にこのファイルを編集して、インデックスを手動で調整できます。

注: インデックスベースのクエリメカニズムはさまざまなクエリをサポートしているため、ほとんどのアプリケーションに適しています。ただし、他のデータベーステクノロジーで一般にサポートされているいくつかの種類のクエリがサポートされていません。具体的には、結合クエリおよび集計クエリは Datastore のクエリエンジン内でサポートされていません。Datastore クエリの制限については、Datastore クエリのページをご覧ください。

トランザクション

エンティティの挿入、更新、削除はすべてトランザクションのコンテキスト内で試行されます。1 つのトランザクションで、このようなオペレーションが複数実行される場合もあります。トランザクションでは、データの整合性を維持するため、すべてのオペレーションを 1 つの単位として Datastore に適用します。いずれかのオペレーションが失敗した場合、すべてのオペレーションが適用されません。

1 つのエンティティに対する複数のオペレーションを 1 つのトランザクションで実行できます。たとえば、オブジェクトのカウンタフィールドの値を増やす場合、カウンタの値を読み取り、新しい値を計算してフィールドに保存する必要があります。トランザクションを使用しないでこのオペレーションを行うと、値の読み取り時点から更新時点までの間にカウンタの値が別のプロセスによって更新されてしまうことがあり、アプリケーションがその更新された値を上書きすることになる可能性があります。1 つのトランザクションで読み取り、計算、書き込みを行うことで、他のプロセスによる影響を防ぐことができます。

トランザクションとエンティティグループ

トランザクションで使用できるクエリは祖先クエリだけです。つまり、トランザクションで実行するクエリの対象は単一のエンティティグループに限定されます。トランザクション自体は、複数のエンティティに適用できます。このエンティティは、単一のエンティティグループに属するものに限らず、最大 25 の複数のエンティティグループ（クロスグループトランザクションの場合）に属する場合もあります。

Datastore では、オプティミスティック同時実行を使用してトランザクションを管理します。2 つ以上のトランザクションが、既存エンティティの更新や新しいエンティティの作成といった変更を同じエンティティグループに対して同時に実行しようとすると、最初に commit したトランザクションが成功し、残りのトランザクションは commit に失敗します。とはいえ、失敗した残りのトランザクションを使って、更新されたデータに対してオペレーションを再試行できます。このような特長があるため、特定のエンティティグループのエンティティに対して同時に可能な書き込み数は制限されます。

クロスグループトランザクション

異なるエンティティグループに属する複数のエンティティに対するトランザクションをクロスグループ（XG）トランザクションといいます。1 つのトランザクションは、最大 25 のエンティティグループに適用できます。あるトランザクションの適用先となるいずれかのエンティティグループが他の同時実行トランザクションによって変更される場合を除き、そのトランザクションの処理は成功します。アトミックな書き込みを行うためだけの理由で同じ祖先の下位に異なる種類のデータを無理に配置する必要がないため、データを柔軟に編成できます。

単一グループトランザクションと同様に、XG トランザクションでは祖先クエリ以外のクエリを実行することはできません。とはいえ、複数の祖先クエリがある場合、各クエリを別個のエンティティグループに対して実行できます。非トランザクションクエリ（祖先クエリ以外のクエリ）では、その前に commit されたトランザクションの結果のすべてまたは一部を取得できる場合もありますし、できない場合もあります（この問題の背景については、Datastore への書き込みとデータの可視性をご覧ください）。ただし、そのような非トランザクションクエリでは、部分的に commit された単一グループトランザクションの結果より、部分的に commit された XG トランザクションの結果を返す可能性が高くなります。

1 つのエンティティグループしか処理しない XG トランザクションのパフォーマンスとコストは、XG 以外の単一グループトランザクションとまったく同じになります。複数のエンティティグループを処理する XG トランザクションの場合、オペレーションのコストは XG 以外のトランザクションで実行した場合と同じになりますが、レイテンシが長くなる可能性があります。

Datastore への書き込みとデータの可視性

データは、以下の 2 つのフェーズで Datastore に書き込まれます。

commit フェーズ。エンティティデータは大半のレプリカのトランザクションログに記録されます。エンティティデータが記録されなかったレプリカは、最新のログがないことを示すマークが付きます。
適用フェーズ。レプリカごとに個別に発生します。このフェーズでは、次の 2 つのアクションが並列処理されます。
- エンティティデータがそのレプリカに書き込まれます。
- エンティティのインデックス行がそのレプリカに書き込まれます（この処理は、データ自体の書き込みより時間がかかる場合があります）。

書き込みオペレーションは commit フェーズの直後に戻り、適用フェーズが非同期で実行されます。このフェーズは、レプリカごとに異なる時間に実行される可能性が高いため、commit フェーズの完了から数百ミリ秒ほどの遅延が発生する場合があります。commit フェーズでエラーが発生すると、自動的に再試行されますが、エラーが繰り返し発生すると、Datastore がアプリケーション例外を通知するエラーメッセージを返します。commit フェーズが完了した後、特定のレプリカで適用フェーズが失敗した場合、以下のいずれかが発生すると、そのレプリカで適用が完了までロールフォワードされます。

Datastore の定期的なスイープで未完了の commit ジョブの有無が検査され、それらが適用される。
影響を受けるエンティティグループを使用する特定のオペレーション（get、put、delete、祖先クエリ）が行われたために、次のオペレーションに進む前に、commit 後に未適用の変更が、オペレーションを実行中のレプリカで完了する。

この書き込み動作は、commit フェーズと適用フェーズのそれぞれで、アプリケーションでデータの取得がどのように可能になるかとそのタイミングに影響を及ぼす可能性があります。

書き込みオペレーションでタイムアウトエラーが発生した場合、データの読み取りを行わないと、オペレーションが成功したのか失敗したのか判断できません。
Datastore の get と祖先クエリを実行すると、実行対象となるレプリカに対して未処理のすべての変更が適用されるため、それまでに成功したすべてのトランザクションは一貫した状態で取得できるようになります。つまり、get オペレーション（更新されたエンティティをそのキーでルックアップする）を行うと、そのエンティティの最新バージョンが必ず表示されます。
祖先クエリ以外のクエリは、最新のトランザクションが適用されていないレプリカで実行される可能性があるため、古い結果が返される場合があります。たとえ未処理のトランザクションを必ず適用するようなオペレーションを実行したとしても、そのようになる可能性があります。クエリが前のオペレーションとは異なるレプリカで実行される場合があるためです。
同時変更のタイミングが祖先クエリ以外のクエリの結果に影響を及ぼす可能性があります。クエリ条件を満たしていたエンティティが変更され、条件を満たさなくなった場合、クエリを実行したレプリカのインデックスに変更がまだ適用されていないと、エンティティがクエリの結果セットに残ってしまう可能性があります。

Datastore 統計情報

データストアは、アプリケーション用に保存されているデータに関する統計情報を維持します。たとえば特定の種類のエンティティ数や特定の型のプロパティ値が使用している容量などです。この統計情報は、Google Cloud コンソールの Datastore ダッシュボードページで確認できます。Datastore API を使用して、特別な名前のエンティティをクエリすることで、アプリケーション内からこれらの値にプログラムでアクセスすることもできます。詳細については、Python 2 のデータストア統計をご覧ください。

Python 2 データストアの例

Python API では、モデルでエンティティの種類を記述します。これには、エンティティのプロパティのタイプや構成が含まれます。アプリケーションでは、Python のクラスを使用してモデルを定義し、クラス属性でプロパティを記述します。クラスの名前は、エンティティの種類の名前になります。特定の種類のエンティティは、モデルクラスのインスタンスによって表され、インスタンス属性はプロパティ値を表します。新しいエンティティを作成するには、目的のクラスのオブジェクトを作成し、その属性を設定して保存します（そのためには、次のように put() などのメソッドを呼び出します）。

import datetime
from google.appengine.ext import db
from google.appengine.api import users

class Employee(db.Model):
  name = db.StringProperty(required=True)
  role = db.StringProperty(required=True,
                           choices=set(["executive", "manager", "producer"]))
  hire_date = db.DateProperty()
  new_hire_training_completed = db.BooleanProperty(indexed=False)
  email = db.StringProperty()

e = Employee(name="John",
             role="manager",
             email=users.get_current_user().email())
e.hire_date = datetime.datetime.now().date()
e.put()

Datastore API には、クエリ用のインターフェースとして、クエリオブジェクトインターフェースと、GQL という SQL に似たクエリ言語の 2 つが用意されています。クエリでは、モデルクラスのインスタンスという形でエンティティが返されます。

training_registration_list = ["Alfred.Smith@example.com",
                              "jharrison@example.com",
                              "budnelson@example.com"]
employees_trained = db.GqlQuery("SELECT * FROM Employee WHERE email IN :1",
                                training_registration_list)
for e in employees_trained:
  e.new_hire_training_completed = True
  db.put(e)