このページでは、Cloud Datalab 仮想マシン(VM)インスタンスに適切な Google Compute Engine マシンタイプを選択する際の考慮事項について説明します。
VM マシンタイプを選択する際の考慮事項
Datalab VM インスタンスの作成時に、Google Compute Engine マシンタイプを指定できます。使用されるデフォルトのマシンタイプは n1-standard-1
です。データ分析のニーズに合わせて、パフォーマンスとコストの特性に基づいて異なるマシンタイプを選択できます。マシンタイプを選択する際の重要な考慮事項は次のとおりです。
- 各ノートブックは Python カーネルを使用して独自のプロセスでコードを実行します。たとえば、N 個のノートブックを開いている場合、それぞれに対応するプロセスが少なくとも N 個使用されます。
- 各カーネルはシングル スレッドです。同時に複数のノートブックを実行している場合を除き、複数のコアを使用しても大きなメリットはありません。
- 使用パターンと処理されるデータの量に応じて、追加のメモリを搭載したマシンを選択することで、大幅なメリットが得られます。
- 実行は累積的に行われます。3 つの Cloud Datalab ノートブック セルを連続して実行することで、それらのセルで使用されるデータ構造に割り当てられたメモリを含む、対応する状態が累積されます。
- 大量のデータをメモリ内で処理する(たとえば、Pandas Dataframe を使用する)と、それに比例してメモリが割り当てられます。ノートブックの実行が終了したら、上部バーの [Running Session] アイコン
をクリックしてセッションを停止できます(アイコンが見えない場合、ブラウザ ウィンドウのサイズを変更します)。
- Cloud Datalab は、ディスクベースのスワップ ファイルを使用して、追加でメモリが必要になった場合のオーバーヘッドを提供しますが、スワップ ファイルに依存すると処理が遅くなる可能性があります。必要なメモリの量を見積もり、推定された量以上のメモリを搭載したマシンタイプを選択することをおすすめします。
マシンタイプを選択する
Cloud Datalab VM インスタンスのマシンタイプは、インスタンスを作成するときに選択します。詳しくは datalab create --machine-type をご覧ください。次に例を示します。
datalab create --machine-type n1-highmem-2 instance-name