快速入門

本頁面說明如何開始使用 Cloud Dataprep Web 應用程式。

事前準備

設定專案

  1. 登入您的 Google 帳戶。

    如果您沒有帳戶,請申請新帳戶

  2. 選取或建立 Google Cloud Platform 專案。

    前往「Manage resources」(管理資源) 頁面

  3. 請確認您已啟用 Google Cloud Platform 專案的計費功能。

    瞭解如何啟用計費功能

  4. 啟用Cloud Dataflow, BigQuery, and Cloud Storage API。

    啟用 API

在專案中建立 Cloud Storage 值區

  1. 前往 GCP 主控台的「Cloud Storage」瀏覽器。

    前往 Cloud Storage 瀏覽器

  2. 點選 [建立 Bucket]。
  3. 在「建立 Bucket」對話方塊中,指定下列屬性:
  4. 按一下 [建立]

設定 Cloud Dataprep

在 Google Cloud Platform 主控台上開啟 Cloud Dataprep。首次開啟 Cloud Dataprep 時,系統會要求專案擁有者允許 Google 與 Trifacta 存取資料。使用者必須接受服務條款,登入其 Google 帳戶,然後選擇要使用 Cloud Dataprep 的 Cloud Storage 值區 (請參閱啟用 Cloud Dataprep)。

完成這些步驟後,便會顯示 Cloud Dataprep 首頁。您可以顯示並執行導覽或隱藏導覽,該導覽將帶您完成快速入門導覽課程中的步驟。

建立流程

Cloud Dataprep 使用 flow 工作區來存取和控管資料集。在 Cloud Dataprep 首頁按一下 [Create Flow] (建立流程),填入流程名稱和說明,然後按一下 [Create] (建立)。由於本快速入門導覽課程使用 United States Federal Elections Commission 2016 所提供的 2016 年資料,您可以將它命名為「FEC-2016」並提供參照此資料的說明。

系統會開啟流程畫面。

匯入資料集

在流程頁面中,按一下 [匯入及新增資料集] 以開啟「匯入資料及新增至流程」頁面。在左側面板中選取 [GCS],在「Choose a file or folder」(選擇檔案或資料夾) 下方,按一下 [GCS] 編輯路徑鉛筆小工具,然後在 GCS 文字方塊中插入 gs://dataprep-samples/us-fec,接著按一下 [Go] (執行)

新增 cn-2016.txt 資料集,將它命名為「Candidate Master 2016」,然後新增 itcont-2016.txt 資料集並命名為「Campaign Contributions 2016」。在右側面板中列出這兩個資料集後,按一下 [匯入及新增至流程] 以新增資料集。

準備候選人檔案

在「FEC 2016 流程」頁面中,選取 [Candidate Master 2016] 資料集,然後按一下 [新增方案]

畫面上會顯示一個新方案圖示。按一下 [編輯方案]

畫面上會開啟格線視圖,您可以在其中探索資料,並使用頁面右側顯示的「方案」窗格將轉換步驟套用至方案。

如何顯示方案窗格:如果在格線視圖中沒有顯示「方案」窗格,請按一下格線視圖頁面頂端的 [方案] 圖示。

column5 (日期/時間) 包含年份值。在直方圖中按住並拖曳 2016 年與 2017 年以選取這兩個年份。

在標題為「保留值在選取範圍內的資料列」(Keep rows where value is in selected range) 的右側窗格中,按一下 [新增]

系統會將下列方案步驟加入方案中:

Keep rows where(date(2016, 1, 1) <= column5) && (column5 < date(2018, 1, 1))

將游標移到 column6 (State) 標頭中不相符 (紅色) 部分的上方並按一下,以選取不相符的資料列。

朝資料欄尾端向下捲動。請注意,紅色醒目顯示 (不相符) 的項目在 column6 中的值為「US」且在 column7 中的值為「P」。 標示「P」的項目表示總統候選人。不相符項目發生的原因是 column6 標示為「州」資料欄 (以標記圖示表示),但卻同時含有非州名 (如「US」) 的值。

如要更正不相符項目,請將其標示為「String」(字串) 資料欄。 按一下右側面板中的 [Cancel] (取消) 以取消轉換作業,然後按一下 column6 上方的標記圖示並選取 [String] (字串)。

系統隨即會移除不相符項目,且資料欄標記會變成綠色。 現在,我們先篩選總統候選人。在 column7 的直方圖中,按一下「P」橫軸。

在右側窗格的「保留 column7 是「P」的資料列」建議中,按一下 [新增]

準備並聯結獻金檔案

按一下「Candidate Master 2016」格線視圖左上角的「FEC 2016」,回到主資料集頁面。選取「Campaign Contributions 2016」,然後選取 [Add new Recipe] (新增方案),再按一下 [Edit Recipe] (編輯方案) 以開啟獻金資料集的格線視圖。

在格線視圖中,在方案中新增可以從獻金資料集移除額外分隔符號的步驟。若要新增此步驟,請在搜尋框中插入下列 Wrangle 語言指令。

replacepatterns col: * with: '' on: `{start}"|"{end}` global: true

「Transformation Builder」(轉換製作工具) 會剖析 Wrangle 指令並填入「Find and Replace」(尋找並取代) 轉換欄位。按一下 [Add] (新增) 以新增轉換到方案。

新增另一個新步驟到方案,然後再搜搜尋框裡鍵入「Join」。

按一下 [Join datasets] (聯結資料集) 連結以開啟「Joins」(聯結) 頁面。選擇「Candidate Master 2016-2」(新增了方按步驟的 Candidate Master 檔案),然後按一下 [Preview] (預覽)

選取 [Join Keys] (聯結鍵) 分頁標籤。Cloud Dataprep 會推測出共用索引鍵。畫面上會顯示 Cloud Dataprep 建議可作為聯結鍵的共同值。請按一下 Join Keys 欄位的 [Edit] (編輯),然後選取 Column 2 = column 11 做為彙整鍵。

現在,請選取「Columns」(資料欄) 標籤下方的核取方塊,將兩個資料集的所有資料欄都加入至已聯結的資料集,然後按一下 [Add to Recipe] (新增至方案) 以回到格線視圖。

將下列步驟加入方案,以便匯總、平均及計數資料欄 16 中的獻金金額,並分別按資料欄 2、24、8 的 ID、名稱及黨派來分組候選人,就可以產生有用的摘要資訊。

pivot value:sum(column16),average(column16),countif(column16 > 0) group: column2,column24,column8

已聯結和匯總的資料初始樣本將會顯示,表示美國總統候選人及其 2016 年選舉獻金指標的摘要資料表。

若要檢視更多資料,請再頁面左上角按一下「Initial Sample」(初始樣本) 連結以開啟「Samples」樣本面板。選擇隨機、快速樣本,然後選擇 [Collect] 收集

在工作完成後,在「Sample」(樣本) 面板中按一下 [Load Sample] (載入樣本) 以檢視資料。

後續步驟

本頁內容對您是否有任何幫助?請提供意見:

傳送您對下列選項的寶貴意見...

這個網頁
Google Cloud Dataprep 說明文件
需要協助嗎?請前往我們的支援網頁