text_to_word_sequence

keras.preprocessing.text.text_to_word_sequence(text, 
    filters=base_filter(), lower=True, split=" ")

文章を単語のリストに分割します.

  • 戻り値: 単語 (str) のリスト.

  • 引数:

    • text: 文字列.
    • filters: 句読点などフィルタする文字を含むリスト(あるいはコレクション).デフォルトは基本的な句読点,タブ,改行を含むbase_filter()です.
    • lower: 真理値.テキストを小文字にするかどうか.
    • split: 文字列.単語を分割するセパレータ.

one_hot

keras.preprocessing.text.one_hot(text, n,
    filters=base_filter(), lower=True, split=" ")

文章を単語インデックス(語彙数n)のリストに1-hotエンコードします.

  • 戻り値: [1, n]の整数から構成されるリスト.各整数は単語をエンコードします(単一性は保証されません).

  • 引数: text_to_word_sequence と同じです.

    • n: 整数.語彙数.

Tokenizer

keras.preprocessing.text.Tokenizer(nb_words=None, filters=base_filter(), 
    lower=True, split=" ")

テキストをベクトル化する,または/かつ,テキストをシーケンス(= データセット中でランクi(1から始まる)の単語がインデックスiを持つ単語インデックスのリスト)に変換するクラス.

  • 引数: text_to_word_sequence と同じです.

    • nb_words: Noneまたは整数.利用する単語の最大数(もしこの引数が与えられた場合,データセット中の頻度上位nb_wordsの単語に制限されます).
  • メソッド:

    • fit_on_texts(texts):

      • 引数:
        • texts: 学習に使う文章のリスト.
    • texts_to_sequences(texts)

      • 引数:
        • texts: シーケンスに変換する文章のリスト.
      • 戻り値: シーケンスのリスト(入力文章ごとに1つ).
    • texts_to_sequences_generator(texts): 上記のジェネレータ版.

      • 戻り値: 入力文章ごとに1つのシーケンス.
    • texts_to_matrix(texts):

      • 戻り値: (len(texts), nb_words) の形であるnumpy配列.
      • 引数:
        • texts: ベクトル化する文章のリスト.
        • mode: "binary", "count", "tfidf", "freq" のいずれか(デフォルト: "binary").
    • fit_on_sequences(sequences):

      • 引数:
        • sequences: 学習に使うシーケンスのリスト.
    • sequences_to_matrix(sequences):

      • 戻り値: (len(sequences), nb_words) の形であるnumpy配列.
      • 引数:
        • sequences: ベクトル化するシーケンスのリスト.
        • mode: "binary", "count", "tfidf", "freq" のいずれか(デフォルト: "binary").
  • 属性:

    • word_counts: 単語(文字列)とそれがfit中に表れた回数をマッピングする辞書.fit_on_textsが呼ばれた後にセットされます.
    • word_docs: 単語(文字列)とfit中に表れた文書/文章の数をマッピングする辞書.fit_on_textsが呼ばれた後にセットされます.
    • word_index: 単語(文字列)とそのランク/インデックス(整数)をマッピングする辞書.fit_on_textsが呼ばれた後にセットされます.
    • document_count: 整数.訓練に利用された文書(文章/シーケンス)数.fit_on_sequencesが呼ばれた後にセットされます.