コンテンツに移動
AI & 機械学習

AI、具体的には BERT が特許業界にどのように役立つか

2020年12月2日
Google Cloud Japan Team

※この投稿は米国時間 2020 年 11 月 21 日に、Google Cloud blog に投稿されたものの抄訳です。

近年、特許業界では機械学習(ML)アルゴリズムを使用して、ビジネス プラクティスに効率化や洞察力を加味する取り組みが始まっています。

イノベーションによって特許を生み出したり、特許に関する出願を処理したり、特許を分析する洗練された方法を開発したりする企業、特許庁、学術機関は、Google Cloud で特許分析と機械学習を行うことでメリットが得られます。

このたび、米国およびその他の国の 1 億を超える特許出版物について、オープンソース ツールを使用して BERT(Bidirectional Encoder Representations from Transformers)モデルをトレーニングする手法を概説したホワイト ペーパーをリリースいたします。このホワイト ペーパーでは、特許出願の新規性を判断するための先行技術調査をより効果的に行う方法、特許分類を補助する分類コードを自動的に生成する方法、オートコンプリートなど、多くのユースケースでトレーニング済みモデルを使用する方法について説明しています。このホワイトペーパーには、GitHub でホストされているトレーニング済みモデルとともに、Colab ノートブックが付属しています。

2018 年に Google が BERT モデル(論文ブログ投稿オープンソース コード)をリリースしたことは、重要なブレークスルーとなりました。Transformer を活用したこのモデルは、GLUEMultiNLISQuAD などの主要な NLP ベンチマークで他の主要な最先端モデルを軒並み上回ったのです。リリースして間もなく、BERT フレームワークと多くの追加の Transformer ベースの拡張機能は、検索、chatbot、翻訳など、さまざまな分野の業界で広く採用されました。

特許の技術的特性とビジネス価値により、特許分野は BERT のようなアルゴリズムの応用に適していると考えています。技術的には、特許コーパスは膨大(世界中で毎年何百万もの新しい特許が発行されている)、複雑(特許出願は一般に平均約 10,000 語で、発明者、弁護士、特許審査官によって細心の注意を払って作成される)、ユニークで(特許は非常に専門的な「法律用語」で書かれており、一般人には理解できない)、文脈に大きく依存します(多くの用語は、異なる特許ではまったく異なる意味で使われる)。

また、特許は多くの組織に多大なビジネス価値をもたらしており、企業は年間数百億ドルを費やして特許性のある技術を開発してその技術の使用権を取引し、世界中の特許庁はさらに年間数十億ドルを費やして特許出願の審査を行っています。

Google は、新しいホワイトペーパーとそれに関連するコードやモデルが、ML の適用において、以下のような組織や個人を含む、幅広い特許コミュニティに役立つことを願っています。

  • より高度な ML の手法を用いて社内モデルとツールを改善しようとしている企業の特許部門

  • 特許審査と先行技術調査を支援するために、最先端の ML アプローチに関心がある特許庁

  • 特許コーパスを使用して新しい NLP アルゴリズムのテストや開発をすることを検討したことがない、ML と NLP の研究者や学者

  • 特許とイノベーションの研究に BERT アルゴリズムやその他の Transformer ベースのアプローチを適用することを検討したことがない特許研究者や学者

詳しくは、完全なホワイト ペーパーColab ノートブックトレーニング済みモデルをダウンロードしてください。さらに、Google Cloud で特許分析を開始するのに役立つチュートリアルとして、Google 特許検索の一般公開データセット: 一般公開、有料、非公開の特許データを連結ML と BigQuery による特許セットの拡張Google 特許検索の一般公開データセットを使用した特許申請の幅広さの測定をご覧ください。

-グローバル特許検索担当データ サイエンティスト Rob Srebrovic

-Google グローバル特許検索担当データ サイエンス責任者 Jay Yonamine

投稿先