WordSeparatorAnalyzer

com.google.appengine.api.search.dev

クラス WordSeparatorAnalyzer

  • java.lang.Object
    • Analyzer
      • com.google.appengine.api.search.dev.WordSeparatorAnalyzer


  • public class WordSeparatorAnalyzer
    extends Analyzer
    Search API バックエンドなどのテキストをトークン化するカスタム開発ツール。入力されたテキストが CJK 言語である場合に、そのことを検出し、CJKTokenizer を使用してそれらのテキストをトークン化します。CJKTokenizer ではバイグラムに基づいてトークン化が行われるため、「ABCD」のような文字列は ["A", "AB", "BC", "CD", "D"] にトークン化されます。文字列が CJK でない場合、標準のラテン文字の単語区切り文字が使用されると想定します。ラテン文字のテキストの場合、わずかにカスタマイズされた LetterTokenizer が使用され、StandardFilter と LowerCaseFilter を介してトークンが渡されます。LetterTokenizer は、ST-BTI と同じ単語区切り文字を使用するようにカスタマイズされています。
    • コンストラクタの概要

      コンストラクタ 
      コンストラクタと説明
      WordSeparatorAnalyzer()
      CJK の検出を常に試みる、新しい WordSeparatorAnalyzer を作成します。
      WordSeparatorAnalyzer(boolean detectCjk)
      新しい WordSeparatorAnalyzer を作成します。
    • メソッドの概要

      すべてのメソッド 静的メソッド インスタンス メソッド 具象メソッド
      修飾子と型 メソッドと説明
      static java.lang.String normalize(java.lang.String tokenizeString)
      小文字に変換し、すべての単語区切り文字をスペースで置き換えます。
      static java.lang.String removeDiacriticals(java.lang.String input)
      すべての発音区別符号を入力から削除します。
      static java.util.List<java.lang.String> tokenList(java.lang.String tokenizeString)
      文字列のトークンのリストを返します。
      TokenStream tokenStream(java.lang.String fieldName, java.io.Reader reader)
      CJK またはラテン文字のテキストをトークン化できるトークナイザを構築します。
      • クラス java.lang.Object

        clone, equals, finalize, getClass, hashCode, notify, notifyAll, toString, wait, wait, wait
    • コンストラクタの詳細

      • WordSeparatorAnalyzer

        public WordSeparatorAnalyzer(boolean detectCjk)
        新しい WordSeparatorAnalyzer を作成します。
        パラメータ:
        detectCjk - true の場合、CJK の検出とセグメント化を試みます。false の場合、単語区切り文字を使用してすべてのテキストをセグメント化できると想定します。
      • WordSeparatorAnalyzer

        public WordSeparatorAnalyzer()
        CJK の検出を常に試みる、新しい WordSeparatorAnalyzer を作成します。
    • メソッドの詳細

      • tokenStream

        public TokenStream tokenStream(java.lang.String fieldName,
                                       java.io.Reader reader)
        CJK またはラテン文字のテキストをトークン化できるトークナイザを構築します。
        パラメータ:
        fieldName - 無視されます。
        reader - トークン化するストリーム。mark() と reset() のサポートは必要ありません。
        戻り値:
        リーダー内のデータのトークン化を表す TokenStream
      • tokenList

        public static java.util.List<java.lang.String> tokenList(java.lang.String tokenizeString)
        文字列のトークンのリストを返します。
      • normalize

        public static java.lang.String normalize(java.lang.String tokenizeString)
        小文字に変換し、すべての単語区切り文字をスペースで置き換えます。
      • removeDiacriticals

        public static java.lang.String removeDiacriticals(java.lang.String input)
        すべての発音区別符号を入力から削除します。これには、マークされたグリフを「同等の」マークされていない形状に変換する効果があります。たとえば、「éøç」は「eoc」になります。
このページは役立ちましたか?評価をお願いいたします。

フィードバックを送信...

Java の App Engine スタンダード環境