GDELT HathiTrust および Internet Archive 書籍データ

BigQuery を使用して一般公開データセットをクエリする方法

BigQuery は、フルマネージドのデータ ウェアハウスおよび分析プラットフォームです。SQL クエリを使用して分析できる一般公開データセットが用意されています。BigQuery の一般公開データセットにアクセスするには、ウェブ UIコマンドライン ツールを使用します。また、Java.NETPython など、さまざまなクライアント ライブラリを使用して BigQuery REST API を呼び出すという方法でもアクセスできます。

現在、BigQuery の一般公開データセットは US マルチリージョン ロケーションに格納されています。一般公開データセットをクエリで取得する場合は、コマンドラインで --location=US フラグを指定するか、BigQuery ウェブ UI で処理ロケーションとして US を選択するか、または API でジョブリソースjobReference セクションにある location プロパティを指定します。一般公開データセットは米国内に格納されているため、一般公開データのクエリ結果を別のリージョンにあるテーブルに書き込むことはできず、一般公開データセットのテーブルを別のリージョンにあるテーブルと結合することもできません。

BigQuery の一般公開データセットの使用を開始するには、プロジェクトを作成または選択します。毎月、最初の 1 テラバイトのデータの処理については課金されないため、課金を有効にせずに一般公開データセットのクエリを開始できます。無料枠を超える可能性がある場合は、課金を有効にする必要があります。

  1. Google アカウントにログインします。

    Google アカウントをまだお持ちでない場合は、新しいアカウントを登録します。

  2. GCP プロジェクトを選択または作成します。

    [リソースの管理] ページに移動

  3. プロジェクトに対して課金が有効になっていることを確認します。

    課金を有効にする方法について

  4. 新しいプロジェクトでは、BigQuery が自動的に有効になります。既存のプロジェクトで BigQuery を有効にする手順は以下のとおりです。 BigQuery API を有効にする。

    Enable the API

データセットの概要

このデータセットには、2 世紀前にまで遡る 350 万点のデジタル化された書籍が含まれ、Internet Archive(130 万巻)と HathiTrust(220 万巻)の完全な英語のパブリック ドメイン コレクションを包含しています。これらのコレクションは GDELT Global Knowledge Graph で処理され、Google BigQuery で利用できます。215 年にわたる 10 億ページ以上が調査され、すべての人名、組織名、その他の名前がリストにまとめられています。また、全文がジオコード化され、完全にマッピング可能です。さらに、4,500 を超える感情と主題もまとめられています。このコンピューティングされたメタデータのすべてが、書籍名、著者、出版社、協力図書館から得られた件名タグなど利用可能な書籍レベルのメタデータと組み合わされています。

Internet Archive のデータには、1800 年から 1922 年に発行された Internet Archive のすべての書籍の全文と、search “collection:(americana)” で英語の全文が取得できた American Libraries コレクションのすべての書籍が含まれています。HathiTrust については、特別な調査の抜粋として、1800 年から 2015 年の英語のパブリック ドメインの書籍すべてが HathiTrust によって提供されています。含まれているのは、パブリック ドメインの書籍だけです。

BigQuery コンソールで、HathiTrust と Internet Archive の書籍コレクションを探索してみましょう。

HathiTrust データセットに移動

Internet Archive データセットに移動

このデータを操作する方法の詳細については、GDELT の詳細な発表記事をご覧ください。

サンプルクエリ

BigQuery を使用してこのデータで実行できる SQL クエリの例をいくつか示します。

著者を検索する

これは、全文検索の結果で著者(Walt Whitman)を検索する基本的なクエリです(Internet Archive にある全文データは、1922 年までです)。

SELECT
  BookMeta_Title,
  BookMeta_Creator,
  BookMeta_Year
FROM (TABLE_QUERY([gdelt-bq:internetarchivebooks], 'REGEXP_EXTRACT(table_id, r"(\d{4})") BETWEEN "1819" AND "2014"'))
WHERE
  BookMeta_Creator CONTAINS "Walt Whitman"

同様のクエリを使用して、特定の書籍を検索し、感情分析など別の分析を実行できます。

感情分析

このクエリの例では、BigQuery を使用して膨大な量のテキストに非常に高速な感情分析を適用する方法を示します。この分析では、あらかじめ作成されている 9 単語の辞書と、それに関連付けられているスコアを使用して、Internet Archives データセットに含まれる 1922 年に公開された利用可能なすべての全文から語調を計算します。

SELECT
  DocumentIdentifier,
  TotWordCount,
  TotalMatchingWords,
  SumToneScore,
  (TotalMatchingWords/TotWordCount*100) ToneIntensity,
  (SumToneScore/TotalMatchingWords) ToneScore
FROM (
  SELECT
    DocumentIdentifier,
    MAX(TotWordCount) TotWordCount,
    SUM(ThisWordCount) TotalMatchingWords,
    SUM(ThisWordScore) SumToneScore
  FROM (
    SELECT
      a.DocumentIdentifier DocumentIdentifier,
      a.totwordcount TotWordCount,
      a.word Word,
      a.COUNT ThisWordCount,
      b.Score ThisWordScore
    FROM (
      SELECT
        DocumentIdentifier,
        word,
        COUNT(*) AS COUNT,
        totwordcount
      FROM (
        SELECT
          DocumentIdentifier,
          SPLIT(REGEXP_REPLACE(LOWER(BookMeta_FullText),'[^a-z]', ' '), ' ') AS word,
          COUNT(SPLIT(REGEXP_REPLACE(LOWER(BookMeta_FullText),'[^a-z]', ' '), ' ')) AS totwordcount
        FROM (TABLE_QUERY([gdelt-bq:internetarchivebooks], 'REGEXP_EXTRACT(table_id, r"(\d{4})") BETWEEN "1922" AND "1922"')) )
      GROUP EACH BY
        DocumentIdentifier,
        word,
        totwordcount ) a
    JOIN EACH (
      SELECT
        Word,
        Score
      FROM
        [gdelt-bq:extra.toytonelookup] ) b
    ON
      a.word = b.Word )
  GROUP EACH BY
    DocumentIdentifier )
ORDER BY
  ToneScore DESC

データについて

データセット ソース: GDELTHathiTrustInternet Archive のパブリック ドメイン コレクションを基に処理)

カテゴリ: メディア

使用: このデータセットは、データセット ソース(http://gdeltproject.org/about.html)によって規定されている条件の下ですべてのユーザーに公開されています。Google はこのデータセットを「現状のまま」提供し、明示または黙示を問わず、いかなる保証も行いません。Google は、このデータセットの使用で、直接または間接の損害が発生したとしても一切の責任を負いません。

BigQuery で表示: HathiTrust 書籍コレクション Internet Archive 書籍コレクション

このページは役立ちましたか?評価をお願いいたします。

フィードバックを送信...

ご不明な点がありましたら、Google のサポートページをご覧ください。