Applications

Kerasの応用は事前学習した重みを利用可能な深層学習のモデルです. これらのモデルは予測,特徴量抽出そしてfine-tuningのために利用できます.

モデルのインスタンス化すると重みは自動的にダウンロードされます.重みは~/.keras/models/に格納されます.

利用可能なモデル

ImageNetで学習した重みをもつ画像分類のモデル:

これらすべてのアーキテクチャ (Xceptionのみ例外) は,TensorFlowとTheanoの両方で互換性があり,~/.keras/keras.jsonの設定にしたがってモデルはインスタンス化されます. 例えば,image_dim_ordering=tfとした際は,このリポジトリからロードされるモデルは,TensorFlowの次元の順序"Width-Height-Depth"にしたがって構築されます.

SeparableConvolutionを用いているため,XceptionモデルはTensorFlowでのみ使用可能.

(メルスペクトログラムを入力とした) 音楽オーディオファイルの自動タグ付けモデル:


画像分類モデルの使用例

Classify ImageNet classes with ResNet50

from keras.applications.resnet50 import ResNet50
from keras.preprocessing import image
from keras.applications.resnet50 import preprocess_input, decode_predictions
import numpy as np

model = ResNet50(weights='imagenet')

img_path = 'elephant.jpg'
img = image.load_img(img_path, target_size=(224, 224))
x = image.img_to_array(img)
x = np.expand_dims(x, axis=0)
x = preprocess_input(x)

preds = model.predict(x)
# decode the results into a list of tuples (class, description, probability)
# (one such list for each sample in the batch)
print('Predicted:', decode_predictions(preds, top=3)[0])
# Predicted: [(u'n02504013', u'Indian_elephant', 0.82658225), (u'n01871265', u'tusker', 0.1122357), (u'n02504458', u'African_elephant', 0.061040461)]

Extract features with VGG16

from keras.applications.vgg16 import VGG16
from keras.preprocessing import image
from keras.applications.vgg16 import preprocess_input
import numpy as np

model = VGG16(weights='imagenet', include_top=False)

img_path = 'elephant.jpg'
img = image.load_img(img_path, target_size=(224, 224))
x = image.img_to_array(img)
x = np.expand_dims(x, axis=0)
x = preprocess_input(x)

features = model.predict(x)

Extract features from an arbitrary intermediate layer with VGG19

from keras.applications.vgg19 import VGG19
from keras.preprocessing import image
from keras.applications.vgg19 import preprocess_input
from keras.models import Model
import numpy as np

base_model = VGG19(weights='imagenet')
model = Model(input=base_model.input, output=base_model.get_layer('block4_pool').output)

img_path = 'elephant.jpg'
img = image.load_img(img_path, target_size=(224, 224))
x = image.img_to_array(img)
x = np.expand_dims(x, axis=0)
x = preprocess_input(x)

block4_pool_features = model.predict(x)

Fine-tune InceptionV3 on a new set of classes

from keras.applications.inception_v3 import InceptionV3
from keras.preprocessing import image
from keras.models import Model
from keras.layers import Dense, GlobalAveragePooling2D
from keras import backend as K

# create the base pre-trained model
base_model = InceptionV3(weights='imagenet', include_top=False)

# add a global spatial average pooling layer
x = base_model.output
x = GlobalAveragePooling2D()(x)
# let's add a fully-connected layer
x = Dense(1024, activation='relu')(x)
# and a logistic layer -- let's say we have 200 classes
predictions = Dense(200, activation='softmax')(x)

# this is the model we will train
model = Model(input=base_model.input, output=predictions)

# first: train only the top layers (which were randomly initialized)
# i.e. freeze all convolutional InceptionV3 layers
for layer in base_model.layers:
    layer.trainable = False

# compile the model (should be done *after* setting layers to non-trainable)
model.compile(optimizer='rmsprop', loss='categorical_crossentropy')

# train the model on the new data for a few epochs
model.fit_generator(...)

# at this point, the top layers are well trained and we can start fine-tuning
# convolutional layers from inception V3. We will freeze the bottom N layers
# and train the remaining top layers.

# let's visualize layer names and layer indices to see how many layers
# we should freeze:
for i, layer in enumerate(base_model.layers):
   print(i, layer.name)

# we chose to train the top 2 inception blocks, i.e. we will freeze
# the first 172 layers and unfreeze the rest:
for layer in model.layers[:172]:
   layer.trainable = False
for layer in model.layers[172:]:
   layer.trainable = True

# we need to recompile the model for these modifications to take effect
# we use SGD with a low learning rate
from keras.optimizers import SGD
model.compile(optimizer=SGD(lr=0.0001, momentum=0.9), loss='categorical_crossentropy')

# we train our model again (this time fine-tuning the top 2 inception blocks
# alongside the top Dense layers
model.fit_generator(...)

Build InceptionV3 over a custom input tensor

from keras.applications.inception_v3 import InceptionV3
from keras.layers import Input

# this could also be the output a different Keras model or layer
input_tensor = Input(shape=(224, 224, 3))  # this assumes K.image_dim_ordering() == 'tf'

model = InceptionV3(input_tensor=input_tensor, weights='imagenet', include_top=True)

Documentation for individual models


Xception

keras.applications.xception.Xception(include_top=True, weights='imagenet', input_tensor=None, input_shape=None)

ImageNetで事前学習した重みを利用可能なXception V1モデル.

ImageNetにおいて,このモデルのtop-1のvalidation accuracyは0.790で,top-5のvalidation accuracyは0.945です.

SeparableConvolutionを用いているため,XceptionモデルはTensorFlowでのみ使用可能であることに注意してください. さらに次元の順序は"tf" (width, height, channels)のみサポートしています.

デフォルトの入力サイズは299x299.

Arguments

  • include_top: ネットワークの出力層側にある全結合層を含むかどうか.
  • weights: None (ランダム初期化) か "imagenet" (ImageNetで学習した重み) の一方.
  • input_tensor: モデルの入力画像として利用するためのオプションのKerasテンソル (すなわち,layers.Input()の出力)
  • input_shape: オプショナルなshapeのタプル,include_topがFalseの場合のみ指定可能 (そうでないときは入力のshapeは(299, 299, 3)).正確に3つの入力チャンネルをもつ必要があり,width と height は71以上にする必要があります.例えば(150, 150, 3)は有効値.

Returns

Kerasのモデルインスタンス.

References

License

These weights are trained by ourselves and are released under the MIT license.


VGG16

keras.applications.vgg16.VGG16(include_top=True, weights='imagenet', input_tensor=None, input_shape=None)

ImageNetで事前学習した重みを利用可能なVGG16モデル.

このモデルは,TheanoとTensorFlowの両方のbackendで利用でき, "th" dim ordering (channels, width, height) と "tf" dim ordering (width, height, channels)の両方で構築可能.

デフォルトの入力サイズは224x224.

Arguments

  • include_top: ネットワークの出力層側にある3つの全結合層を含むかどうか.
  • weights: None (ランダム初期化) か "imagenet" (ImageNetで学習した重み) の一方.
  • input_tensor: モデルの入力画像として利用するためのオプションのKerasテンソル (すなわち,layers.Input()の出力)
  • input_shape: オプショナルなshapeのタプル,include_topがFalseの場合のみ指定可能 (そうでないときは入力のshapeは(224, 224, 3) (tfのとき) か (3, 224, 224) (thのとき) ).正確に3つの入力チャンネルをもつ必要があり,width と height は48以上にする必要があります.例えば(200, 200, 3)は有効値.

Returns

Kerasのモデルインスタンス.

References

License

These weights are ported from the ones released by VGG at Oxford under the Creative Commons Attribution License.


VGG19

keras.applications.vgg19.VGG19(include_top=True, weights='imagenet', input_tensor=None, input_shape=None)

ImageNetで事前学習した重みを利用可能なVGG19モデル.

このモデルは,TheanoとTensorFlowの両方のbackendで利用でき, "th" dim ordering (channels, width, height) と "tf" dim ordering (width, height, channels)の両方で構築可能.

デフォルトの入力サイズは224x224.

Arguments

  • include_top: ネットワークの出力層側にある3つの全結合層を含むかどうか.
  • weights: None (ランダム初期化) か "imagenet" (ImageNetで学習した重み) の一方.
  • input_tensor: モデルの入力画像として利用するためのオプションのKerasテンソル (すなわち,layers.Input()の出力)
  • input_shape: オプショナルなshapeのタプル,include_topがFalseの場合のみ指定可能 (そうでないときは入力のshapeは(224, 224, 3) (tfのとき) か (3, 224, 224) (thのとき) ).正確に3つの入力チャンネルをもつ必要があり,width と height は48以上にする必要があります.例えば(200, 200, 3)は有効値.

Returns

Kerasのモデルインスタンス.

References

License

These weights are ported from the ones released by VGG at Oxford under the Creative Commons Attribution License.


ResNet50

ImageNetで事前学習した重みを利用可能なResNet50モデル.

このモデルは,TheanoとTensorFlowの両方のbackendで利用でき, "th" dim ordering (channels, width, height) と "tf" dim ordering (width, height, channels)の両方で構築可能.

デフォルトの入力サイズは224x224.

keras.applications.resnet50.ResNet50(include_top=True, weights='imagenet', input_tensor=None, input_shape=None)

Arguments

  • include_top: ネットワークの出力層側にある全結合層を含むかどうか.
  • weights: None (ランダム初期化) か "imagenet" (ImageNetで学習した重み) の一方.
  • input_tensor: モデルの入力画像として利用するためのオプションのKerasテンソル (すなわち,layers.Input()の出力)
  • input_shape: オプショナルなshapeのタプル,include_topがFalseの場合のみ指定可能 (そうでないときは入力のshapeは(224, 224, 3) (tfのとき) か (3, 224, 224) (thのとき) ).正確に3つの入力チャンネルをもつ必要があり,width と height は197以上にする必要があります.例えば(200, 200, 3)は有効値.

Returns

Kerasのモデルインスタンス.

References

License

These weights are ported from the ones released by Kaiming He under the MIT license.


InceptionV3

ImageNetで事前学習した重みを利用可能なInception V3モデル.

このモデルは,TheanoとTensorFlowの両方のbackendで利用でき, "th" dim ordering (channels, width, height) と "tf" dim ordering (width, height, channels)の両方で構築可能.

デフォルトの入力サイズは299x299.

keras.applications.inception_v3.InceptionV3(include_top=True, weights='imagenet', input_tensor=None)

Arguments

  • include_top: ネットワークの出力層側にある全結合層を含むかどうか.
  • weights: None (ランダム初期化) か "imagenet" (ImageNetで学習した重み) の一方.
  • input_tensor: モデルの入力画像として利用するためのオプションのKerasテンソル (すなわち,layers.Input()の出力)
  • input_shape: オプショナルなshapeのタプル,include_topがFalseの場合のみ指定可能 (そうでないときは入力のshapeは(299, 299, 3) (tfのとき) か (3, 299, 299) (thのとき) ).正確に3つの入力チャンネルをもつ必要があり,width と height は139以上にする必要があります.例えば(150, 150, 3)は有効値.

Returns

Kerasのモデルインスタンス.

References

License

These weights are trained by ourselves and are released under the MIT license.

MusicTaggerCRNN

keras.applications.music_tagger_crnn.MusicTaggerCRNN(weights='msd', input_tensor=None, include_top=True)

ベクトルで表現された楽曲のメルスペクトログラムを入力とし,そのジャンルを出力するconvolutional-recurrentモデル. keras.applications.music_tagger_crnn.preprocess_input を使うことで音楽ファイルをベクトル化したスペクトログラムに変換可能. これにはLibrosaをインストールする必要があります. 使用例を見てください.

Arguments

  • weights: None (ランダム初期化) か "msd" (Million Song Datasetで学習した重み) の一方.
  • input_tensor: モデルの入力画像として利用するためのオプションのKerasテンソル (すなわち,layers.Input()の出力)
  • include_top: ネットワークの出力層側にある1つの全結合層を含むかどうか.Falseならネットワークの出力は32次元の特徴量.

Returns

Kerasのモデルインスタンス.

References

License

この重みは,MIT licenseのもとでKeunwoo Choiによる実装から移植されました.

Examples: music tagging and audio feature extraction

from keras.applications.music_tagger_crnn import MusicTaggerCRNN
from keras.applications.music_tagger_crnn import preprocess_input, decode_predictions
import numpy as np

# 1. Tagging
model = MusicTaggerCRNN(weights='msd')

audio_path = 'audio_file.mp3'
melgram = preprocess_input(audio_path)
melgrams = np.expand_dims(melgram, axis=0)

preds = model.predict(melgrams)
print('Predicted:')
print(decode_predictions(preds))
# print: ('Predicted:', [[('rock', 0.097071797), ('pop', 0.042456303), ('alternative', 0.032439161), ('indie', 0.024491295), ('female vocalists', 0.016455274)]])

#. 2. Feature extraction
model = MusicTaggerCRNN(weights='msd', include_top=False)

audio_path = 'audio_file.mp3'
melgram = preprocess_input(audio_path)
melgrams = np.expand_dims(melgram, axis=0)

feats = model.predict(melgrams)
print('Features:')
print(feats[0, :10])
# print: ('Features:', [-0.19160545 0.94259131 -0.9991011 0.47644514 -0.19089699 0.99033844 0.1103896 -0.00340496 0.14823607 0.59856361])