org.aminds.lucene.analysis
クラス CJKSubReader

java.lang.Object
  上位を拡張 java.io.Reader
      上位を拡張 org.apache.lucene.analysis.CharStream
          上位を拡張 org.apache.lucene.analysis.CharFilter
              上位を拡張 org.aminds.lucene.analysis.SubReader
                  上位を拡張 org.aminds.lucene.analysis.CodePointBasedSubReader
                      上位を拡張 org.aminds.lucene.analysis.CJKSubReader
すべての実装されたインタフェース:
Closeable, Readable, ReusableCharFilter

public class CJKSubReader
extends CodePointBasedSubReader

SubReader that ignores whitespaces between CJ characters. This behavior realizes fine tokenization of multiline/multipage Japanese text.

作成者:
Masashi Nakanishi

フィールドの概要
 
クラス org.apache.lucene.analysis.CharFilter から継承されたフィールド
input
 
クラス java.io.Reader から継承されたフィールド
lock
 
インタフェース org.aminds.lucene.analysis.ReusableCharFilter から継承されたフィールド
EMPTY_CHAR_STREAM
 
コンストラクタの概要
CJKSubReader()
           
 
メソッドの概要
protected  boolean accept(int codePoint)
           
static boolean isCJK(int codePoint)
           U+02E80-02EFF : CJK Radicals Supplement * not included U+02F00-02FDF : Kangxi Radicals * not included U+02FF0-02FFF : Ideographic Description Characters * not included U+03000-0303F : CJK Symbols and Punctuation * not included U+03040-0309F : Hiragana U+030A0-030FF : Katakana U+03100-0312F : Bopomofo U+031F0-031FF : Katakana Phonetic Extensions U+03200-032FF : Enclosed CJK Letters and Months U+03300-033FF : CJK Compatibility ; extended (㌀-㍿) U+03400-04DBF : CJK Unified Ideographs Extension A U+04E00-09FFF : CJK Unified Ideographs U+0F900-0FAFF : CJK Compatibility Ideographs U+0FE30-0FE4F : CJK Compatibility Forms U+0FF00-0FF9F : Halfwidth and Fullwidth Forms ; extended (・-゚) U+0FFE0-0FFEF : Halfwidth and Fullwidth Forms ; excluding Hungle U+20000-2A6DF : CJK Unified Ideographs Extension B U+2A700-2B73F : CJK Unified Ideographs Extension C U+2F800-2FA1F : CJK Compatibility Ideographs Supplement In the future, the followings may be added: U+2B740-U+2B81F : Ext-D: CJK Unified Ideographs Extension D U+2B820-U+2F7FF : Ext-E: CJK Unified Ideographs Extension E It is partly different from StandardTokenizerImpl.jflex, which contains Hangul Compatibility Jamo (U+3130-318F)
 
クラス org.aminds.lucene.analysis.CodePointBasedSubReader から継承されたメソッド
canStart, isWhitespace, read
 
クラス org.aminds.lucene.analysis.SubReader から継承されたメソッド
close, currentOffset, end, mark, markSupported, reset, reset
 
クラス org.apache.lucene.analysis.CharFilter から継承されたメソッド
correct, correctOffset
 
クラス java.io.Reader から継承されたメソッド
read, read, read, ready, skip
 
クラス java.lang.Object から継承されたメソッド
clone, equals, finalize, getClass, hashCode, notify, notifyAll, toString, wait, wait, wait
 

コンストラクタの詳細

CJKSubReader

public CJKSubReader()
メソッドの詳細

accept

protected boolean accept(int codePoint)
定義:
クラス CodePointBasedSubReader 内の accept

isCJK

public static boolean isCJK(int codePoint)
In the future, the followings may be added: It is partly different from StandardTokenizerImpl.jflex, which contains Hangul Compatibility Jamo (U+3130-318F)



Copyright (c) 2008-2011 Masashi Nakanishi.