Javaで機械学習 - Deeplearning4j入門

　Javaで機械学習 - Deeplearning4j入門(投稿日順)

目次はコチラ

[PR]

[PR]上記の広告は3ヶ月以上新規記事投稿のないブログに表示されています。新しい記事を書く事で広告が消えます。

2025/12/03 09:50

日本語から英語への機械翻訳やIMEにおける変換予測など、人の言葉を機械で処理する学術分野は自然言語処理(NLP:Natual Language Processing)と呼ばれている。Deep LearningはNLPの分野においても応用可能であり、RNN(回帰型ニューラルネットワーク:Recurent Nural Network)を利用して英仏の機械翻訳するという試みではよい結果を残している(*1)。

これらの場合、RNNへの入力データは翻訳文章そのものではなく、文章内の単語をベクトル化(Word2Vec)した「word embeding」の配列を利用する。この「word embeding」は単なる単語ではなく、単語の意味やどのような文脈で利用される単語かという情報を持つことができる。近年の自然言語処理分野では重要な技術の一つである。もちろん、Deep Learningで機械翻訳などのNLPを行う際にも、このWord2Vecの技術は重要である。

というわけで、今回はWord2Vecの概要とDeepLearning4jで利用する方法について確認する。ちなみにWord2Vec自体はDeep Learningの一手法というわけではない。

TOPIC

単語をベクトル化する(Word2Vec)とは？
Word2Vecの技術的な概要
DeepLearning4jでWord2Vecを利用する
サンプルプログラム１(word embedingの作成)
サンプルプログラム２(word embedingの加算・減算)
サンプルプログラム３(word embedingの可視化)

■　単語をベクトル化する(Word2Vec)とは？

　Word2VecはTomas Mikolovらのチーム(Google社)が2013年に発表した単語を高次元のベクトル(word embeding)に変換する手法である(*2,*3,*4)。Word2VecではNNLM(Nural Network Language Model)と呼ばれる考え方を利用しており、ニューラルネットワークを利用して単語→word embedingの変換を計算する。

　単語をword embedingに変換して嬉しいことは、word embedingには単語で表せない意味合い等の情報を持たせることができることである。自然言語の単語で例えて考えると、「リオ(リオデジャネイロ)」という単語と「レオ(ライオン)」という単語は1文字しか違わない。だからといって意味が近い単語とは言うことができないように、単語を表す文字列には意味の情報が乏しいため、コンピュータが単語だけから2つの単語の意味が似ているかどうかを理解することは難しい。

図：単語空間とword embeding空間のイメージ

　ここで新しい考え方として、2次元のベクトル空間を作成し意味合いが近い単語の距離が短くなるように単語をマッピングすることを考える。例えば「リオ」は(10,10)、「レオ」は(-10,10)のように単語を2次元座標に対応付ける。意味合いが近い言葉の距離が短くなるようにしたいため、「レオ」に意味合いが近い別の単語「ライオン」を考えると、「レオ」の近くの座標(例えば(-11,10))にマッピングされることになる。このように単語がマッピングできると、コンピュータは単語の意味の近さを2次元ベクトル空間内の距離の近さとして計算できるため、「レオ」は「リオ」よりも「ライオン」に近いと認識できるようになるのである。このマッピングされた点をword embedingと呼ぶ。word embedingはベクトルとして表現され、実際には2次元よりももっと高次元のベクトルとして表現される。

　単語をマッピングしたこのベクトル空間ではword embedingの距離が意味の差に等しくなるようで、word embedingに加算・減算が定義できるようになっている。過去の論文では「king - man + woman」という計算を行うと「queen」という単語が計算されたという結果も報告されている(*3)。これは「king」と「man」の距離の差がそのまま「統治者」とか「王」という意味の差になり、「woman」にこの距離を足し合わせた「king - man + woman」の計算結果は「女性の統治者」とか「女性の王」という意味の「queen」となったためと考えられる。

図：word embeding「king」「man」「woman」「queen」の位置関係のイメージ

　上記のように単語に意味などの情報が付加したword embedingが機械翻訳などで利用しやすい情報であることは何となく想像できると思われる。しかし、word embedingを人の手で計算することはとても難しいため、Word2Vecでは単語→word embedingの変換をニューラルネットワークを利用して計算しているのである。

■　Word2Vecの技術的な概要

　Word2Vecによって単語→word embedingの変換を計算するしくみはあまり難しくはない。計算には以下の3層のニューラルネットワークを利用する。プロジェクション層、出力層はともに全結合層で構成するため、全体としては多層パーセプトロンそのものである。

　このニューラルネットワークでは、プロジェクション層で単語をword embedingに変換(出力)し、word embedingを出力層で評価、変換結果が芳しくない場合には誤差逆伝搬法により変換パラメータを更新するという処理を行う。

図：Word2Vecにおいて、word embedingへの変換行列を計算するために利用するニューラルネットワーク

入力層

　入力では単語を表す1-hot-vectorを入力とする。1-hot-vectorとは、特定の要素が1それ以外が0のベクトルのことである。Word2Vecの場合、語彙数（利用可能な単語の総数）\(V\)個の要素を持つベクトルで、単語を表すインデックスの要素だけが1という値を持つ。例えば語彙が「I」「am」「Tom」「.」の4つで、「I」=0、「am」=1、「Tom」=2、「.」=3のように単語にインデックスを対応付けた場合には、「am」を表す1-hot-vectorは\((0,1,0,0)\)のように表現される。

プロジェクション層

　プロジェクション層では入力ベクトルをword embedingに変換する。プロジェクション層には活性化関数を設定しない。いま、入力ベクトルを\(\mathbf{x}\)、プロジェクション層のニューロン数を\(N\)、各ニューロンの重みを集めた重みベクトルを\(\mathbf{W}\)とすると、プロジェクション層の各ニューロンの出力\(\mathbf{h}\)は以下の式で表される。
\begin{align*}
\mathbf{h} & = \mathbf{x} \mathbf{W} \\
& = (x_1,x_2,\cdots,x_V)
\begin{bmatrix}
w_{11} & w_{12} & \cdots & w_{1N} \\
\vdots & \vdots & \vdots & \vdots \\
w_{V1} & w_{V2} & \cdots & w_{VN} \\
\end{bmatrix}
\end{align*}
　一見難しい計算に見えるが、入力ベクトル\(\mathbf{x}\)が1-hot-vectorであることを考慮すると、入力が\(i\)番目の単語の場合\(i\)行目以外の値はすべて0をかけることが分かる。結果、計算は以下のようにプロジェクション層の重み行列\(\mathbf{W}\)の\(i\)行目を抜き出す処理に等しくなる。
\begin{align*}
\mathbf{h} & = \mathbf{x} \mathbf{W} \\
& = (0,\cdots,1,\cdots,0)
\begin{bmatrix}
w_{11} & w_{12} & \cdots & w_{1N} \\
\vdots & \vdots & \vdots & \vdots \\
w_{V1} & w_{V2} & \cdots & w_{VN} \\
\end{bmatrix}\\
& = (w_{i1},w_{i2},\cdots,w_{iN})
\end{align*}
　Word2Vecでは重みベクトル\(\mathbf{W}\)を単語→word embedingの変換行列とみなし、プロジェクション層の出力をベクトル化した\(\mathbf{h}\)がword embedingとなる。

出力層

　出力層では、プロジェクション層の重みベクトル\(W\)が適切な単語→word embeding変換を学習するように評価する必要がある。ここでいう評価とは、単語の意味が似ている2つの入力ベクトル\(\mathbf{x_1},\mathbf{x_2}\)に対して、プロジェクション層の出力ベクトル\(\mathbf{h_1},\mathbf{h_2}\)が似たような値をとっているかを測定することである。

　では、『単語の意味が似ている』とはどういうことだろうか。定義の方法はいくつかあると思うが、Word2Vecにおいては『単語の意味合いが近い場合、その単語の前後には同じような単語が出現する』という仮説を立てている。例えば「I love penguins」「You love penguins」という二つの文があった場合、「I」と「You」は「love penguin」が続くことから似ていると判断する。実際「I」と「You」は人を指す代名詞であるため、この仮説はある程度は正しいということができると思われる。

　いま教師データとして\(n\)個の単語で構成された文章\(\mathbf{s}=(\mathbf{x_1},\mathbf{x_2},\cdots,\mathbf{x_n})\)(※\(\mathbf{s}\)の各要素は単語を表す1-hot-vector)を考える。ニューラルネットワークは\(j\)番目の単語\(\mathbf{x_j}\)が入力となった場合、出力が\(\mathbf{x_{j+1}}\)や\(\mathbf{x_{j-2}}\)といった周辺の単語となるよう他クラス分類を解くように構成すればよい。このように学習すると、単語の意味が似ている2つの入力ベクトル\(\mathbf{x_1},\mathbf{x_2}\)に対して出力(次に出力される単語)が同じ値となるため、その途中の計算結果であるプロジェクション層の出力ベクトル\(\mathbf{h_1},\mathbf{h_2}\)も似たような値をとることが期待できる。実際には入力\(\mathbf{x_j}\)に対して、入力単語の前後\(R\)個(2～5個程度)の単語\(\mathbf{x_{j-R}}\)～\(\mathbf{x_{j+R}}\)が出力になるように学習する。

　上記のような理由から、出力層ではニューロンの数を単語総数\(V\)、活性化関数にソフトマックス関数を利用して、入力単語の周辺で出現する単語を出力するよう構成する。学習方法としては、誤差逆伝搬法で誤差関数は確率的勾配降下法、学習世代は3、学習率0.025を設定するのがよいなど、設定の詳細は元論文(*3)参照のこと。ちなみに、日本語では*5の方が数式計算を詳しく解説されている。

その他

　出力層で『単語の意味合いが近い場合、その単語の前後には同じような単語が出現する』という仮説を置いたが、この仮説を実装する方法には以下の2種類が存在する。すなわち、『文脈から現在の単語を推測する(CBOW))』か『現在の単語から文脈を推測する(skip-gram)』かである。2者は入力と出力の関係が逆転しただけの関係であるが、精度的にはSkip-gramのほうがよいという結果が出ている。

continuous bag-of-words (CBOW) …前後の単語（文脈）から、現在の単語を推測
continuous skip-gram…現在の単語から、前後の単語（文脈）を推測。

　また、前述したようにWord2VecはNNLMという考えに基づいている。Word2Vecの素晴らしいところは、他のNNLMで存在する隠れ層をなくし、プロジェクション層をすべての入力で共有したことによって、学習による計算量を劇的に少なくすることに成功したことである。利用する単語数（ボキャブラリ）\(V\)は、場合によっては億単位にまで上ることがある。これに対して、従来のNNLM手法では計算量が\(O(V)\)であったが、Word2Vecでは\(O(\log_2V)\)に削減されている。Skip-gramについては計算量の少なさだけでなく、word embedingの精度まで上回ったと報告されている。

■　DeepLearning4jでWord2Vecを利用する

　DeepLearning4jでWord2Vecを利用する際には、以下のクラスを利用する。DeepLearning4jではSkip-Gramが実装されている。利用例はサンプルプログラムを参照のこと。

クラス	内容
Word2Vec	Word2Vecを行うメインクラス
SentenceIterator DocumentIterator	Word2Vecに入力データを渡すクラス。文章ファイルなどから文章を1つずつ取得する。可能な限りSentenceIteratorを利用するべきとのこと。
Tokenizer TokenizerFactory	SenetenceIterator等で取得した文章を単語に分割するクラス。
VocabCache	単語の数や出現率、単語の連続性などを保持するクラス。学習後のWord2Vecから取得可能。
Inverted Index	単語の出現率などを保持。Lucene indexなども自動的に作成する。

■　サンプルプログラム１(word embedingの作成)

　以下にDeeplearning4jでWord2Vecを利用するサンプルプログラムを示す。以下のサンプルはDeeplearning4jのチュートリアルを参考にして作成した。サンプルでは1行ごとに英語の文章が記述されたファイル「raw_sentences.txt」内の単語をword embedingに変換するWord2Vecインスタンスを作成し、「people」と「money」のword embedingの距離や、「day」に似た単語を出力している。

◇リソース
dl4j-tutorial(プロジェクトフォルダ)
┣　src/main/java
┃　┗　Word2VecTest1.java
┣　input
┃　┗raw_sentences.txt(ココから取得)
┗　output

◇サンプルプログラム

import java.io.File;
import java.io.IOException;
import java.util.Collection;

import org.deeplearning4j.models.embeddings.loader.WordVectorSerializer;
import org.deeplearning4j.models.word2vec.Word2Vec;
import org.deeplearning4j.text.sentenceiterator.LineSentenceIterator;
import org.deeplearning4j.text.sentenceiterator.SentenceIterator;
import org.deeplearning4j.text.sentenceiterator.SentencePreProcessor;
import org.deeplearning4j.text.tokenization.tokenizer.TokenPreProcess;
import org.deeplearning4j.text.tokenization.tokenizer.preprocessor.EndingPreProcessor;
import org.deeplearning4j.text.tokenization.tokenizerfactory.DefaultTokenizerFactory;
import org.deeplearning4j.text.tokenization.tokenizerfactory.TokenizerFactory;

/**
 * DeepLearning4jでWord2Vecを行うサンプルプログラム
 * @author karura
 */
public class Word2VecTest1
{

    public static void main(String[] args) throws IOException
    {
        // コーパス(文章集)データの読み込み
        // 読み込み時に文字をすべて小文字に変換する
        System.out.println( "Load data..." );
        File                f       = new File( "input/raw_sentences.txt" );
        SentenceIterator    ite     = new LineSentenceIterator( f );
        ite.setPreProcessor( new SentencePreProcessor()
        {
            @Override
            public String preProcess( String sentence ){ return sentence.toLowerCase(); }
        });
        
        // 文章を単語に分解
        // 分解時に単語を小文字に、半角数を"d"に変換する
        System.out.println( "Tokenize data..." );
        final EndingPreProcessor    preProcessor    = new EndingPreProcessor();
        TokenizerFactory            tokenizer       = new DefaultTokenizerFactory();
        tokenizer.setTokenPreProcessor( new TokenPreProcess()
        {
            @Override
            public String preProcess( String token )
            {
                token       = token.toLowerCase();
                String base = preProcessor.preProcess( token );
                base        = base.replaceAll( "\\d" , "d" );
                return base;
            }
        });
        
        // モデル作成
        System.out.println( "Build model..." );
        int     batchSize   = 1000;         // 1回のミニバッチで学習する単語数
        int     iterations  = 3;
        int     layerSize   = 150;
        
        Word2Vec    vec     = new Word2Vec.Builder()
                .batchSize( batchSize )         // ミニバッチのサイズ
                .minWordFrequency( 5 )          // 単語の最低出現回数。ここで指定した回数以下の出現回数の単語は学習から除外される
                .useAdaGrad( false )            // AdaGradを利用するかどうか
                .layerSize( layerSize )         // 単語ベクトルの次元数。
                .iterations( iterations )       // 学習時の反復回数
                .learningRate( 0.025 )          // 学習率
                .minLearningRate( 1e-3 )        // 学習率の最低値
                .negativeSample( 10 )           //
                .iterate( ite )                 // 文章データクラス
                .tokenizerFactory(tokenizer)    // 単語分解クラス
                .build();
        
        // 学習
        System.out.println( "Learning..." );
        vec.fit();
        
        // モデルを保存
        System.out.println( "Save Model..." );
        WordVectorSerializer.writeWordVectors( vec , "output/words.txt" );
        
        // 評価1(二つの単語の類似性)
        // コサイン距離
        System.out.println( "Evaluate model..." );
        String  word1       = "people";
        String  word2       = "money";
        double  similarity  = vec.similarity( word1 , word2 );
        System.out.println( String.format( "The similarity between 「%s」 and 「%s」 is %f" , word1 , word2 , similarity ) );
        
        // 評価2(ある単語に最も意味が近い言葉)
        String  word        = "day";
        int     ranking     = 10;
        Collection<String>  similarTop10    = vec.wordsNearest( word , ranking );
        System.out.println( String.format( "Similar word to 「%s」 is %s" , word , similarTop10 ) );
        
        
    }

}

◇実行結果

Load data...
Tokenize data...
Build model...
03:01:04.530 [main] DEBUG org.nd4j.nativeblas.NativeOps - Number of threads used for linear algebra 1

…中略…

Save Model...
03:29:28.457 [main] INFO  o.d.m.e.loader.WordVectorSerializer - Wrote 236 with size of 150
Evaluate model...
The similarity between 「people」 and 「money」 is 0.162286
Similar word to 「day」 is [week, night, year, game, season, percent, dur, time, office, former]

dur 0.03706284239888191 -0.3273228108882904 -0.02901708
been 0.07721598446369171 -0.3042716383934021 -0.1655066…
year -0.04181159287691116 -0.28206467628479004 -0.20906…
about -0.3287375867366791 0.03922347351908684 0.0778141…
your -0.2562347650527954 0.08040153235197067 0.49649453…
without -0.3843825161457062 -0.43209001421928406 0.1945…
these 0.359978586435318 -0.2246623933315277 0.170168146…
music -0.09605858474969864 -0.22566641867160797 -0.4158…
…

◇解説
　Word2Vecインスタンスは、SentenceIterator（26行目～33行目で作成）とTokenizerFactory（37行目～50行目で作成）を指定して作成する。インスタンス作成後は、他のニューラルネットワークの場合と同様、fit関数により学習を実施する(73行目)。注意点としては、word embedingをファイルに保存するにはWordVectorSerializer::writeWordVectorsという専用のクラスを利用する必要がある点である(77行目)。

　学習後はword embedingを利用した計算が可能で、84行目で「people」と「money」という単語のword embedingに対して距離(意味合いの類似度)を計算したり、90行目では「day」という単語との類似度が高いトップ10の単語を取得したりしている。

■　サンプルプログラム２(word embedingの加算・減算)

　以下にDeepLearning4jでword embedingの加算と減算を行うサンプルプログラムを示す。サンプルでは、サンプルプログラム１で作成したword embedingをファイルから読込み、「i + you」という加算や、「companey - money」という減算を行っている。

◇リソース
dl4j-tutorial(プロジェクトフォルダ)
┣　src/main/java
┃　┗　Word2VecTest2.java
┣　src/main/java/fastfix
┃　┗　WordVectorSerializerFastFix.java（dl4jライブラリ(ver0.4-rc3.10)のバグを応急修正したソース）
┗　output
　　┗　words.txt(サンプルプログラム１で作成したファイル)

◇サンプルプログラム

import java.io.File;
import java.io.IOException;
import java.util.ArrayList;
import java.util.Arrays;
import java.util.Collection;
import java.util.List;

import org.deeplearning4j.models.embeddings.wordvectors.WordVectors;

import fastfix.WordVectorSerializerFastFix;

/**
 * DeepLearning4jでWord2Vecを行うサンプルプログラム
 * @author karura
 */
public class Word2VecTest2
{
    public static void main(String[] args) throws IOException
    {
        // 単語ベクトルの読込
        System.out.println( "Load vectors..." );
        File        f       = new File( "output/words.txt" );
        //WordVectors vec     = WordVectorSerializer.loadTxtVectors( f );           // ライブラリにバグあり
        WordVectors vec     = WordVectorSerializerFastFix.loadTxtVectors( f );
        
        // 利用可能な単語を出力
        Collection<String>  words   = vec.vocab().words();
        System.out.println( "利用可能な単語" );
        for( String word : words ){ System.out.println( " " + word ); }
        
        // 単語の足し算
        System.out.println( "単語の足し算" );
        List<String>    positiveList    = Arrays.asList( "i" , "you" );
        List<String>    negativeList    = new ArrayList<String>();
        Collection<String> nearestList  = vec.wordsNearest( positiveList , negativeList , 10 );
        System.out.println( String.format( "%s = %s" , String.join( " + " , positiveList )
                                                     , nearestList ) );
        
        // 単語の足し算・引き算
        System.out.println( "単語の足し算・引き算" );
        positiveList    = Arrays.asList( "company" );
        negativeList    = Arrays.asList( "money" );
        nearestList     = vec.wordsNearest( positiveList , negativeList , 10 );
        System.out.println( String.format( "%s - %s = %s" , String.join( " + " , positiveList )
                                                          , String.join( " + " , negativeList )
                                                          , nearestList ) );
    }

}

◇実行結果

Load vectors...
02:28:00.367 [main] DEBUG org.nd4j.nativeblas.NativeOps - Number of threads used for linear algebra 1
02:28:00.376 [main] DEBUG org.nd4j.nativeblas.NativeOps - Number of threads used for linear algebra 1

…中略…

利用可能な単語
 dur
 been
 year
 about
 your
 without
 these

…中略…

単語の足し算
i + you = [you, i, we, they, west, former, him, she, $, he]
単語の足し算・引き算
company - money = [company, group, director, man, very, team, general, university, fami, program]

◇解説
　事前にファイル出力したword embedingを読込には、WordVectorSerializer::loadTxtVectors関数を利用する(23行目)。(dl4jライブラリver0.4-rc3.10では、この関数内にバグがある模様で常に例外が発生する。このため、今回は応急修正したソース「WordVectorSerializerFastFix.java」を利用している。)

　word embedingの加算・減算にはWordVectors::wordsNearest関数を利用する(32行目～46行目)。第一引数に加算する単語、第二引数に減算する単語、第三引数に計算結果の候補を可能性の高いものから何番目まで取得するかを指定する。

■　サンプルプログラム３(word embedingの可視化)

　以下にDeepLearning4jでword embedingを可視化するサンプルプログラムを示す。word embedingは高次元ベクトルであるためそのままでは可視化できないが、サンプルではt-SNE(*8)という手法によって描画可能な次元(2次元)にベクトルをマッピングして描画している。t-SNEは高次元ベクトルの描画を目的とした次元圧縮手法で、Laurens van der Maaten(Tilburg Univer sity(蘭))が2008年に提唱した。t-SNEでは高次元ベクトルのデータ構造(クラスター等)を残しつつ低次元ベクトルにマッピングできるため、データ構造が把握しやすいという特性を持つ。

　サンプルでは、サンプルプログラム１で作成したword embedingを、t-SNEによって2次元空間にマッピングしている。マッピングした内容はタブ区切りCSVとして出力されるため、excelやgnuplot等のツールによってプロットの作成が容易となっている。

◇リソース
dl4j-tutorial(プロジェクトフォルダ)
┣　src/main/java
┃　┗　Word2VecTest3.java
┣　src/main/java/fastfix
┃　┗　WordVectorSerializerFastFix.java（dl4jライブラリ(ver0.4-rc3.10)のバグを応急修正したソース）
┗　output
　　┗　words.txt(サンプルプログラム１で作成したファイル)

◇サンプルプログラム

import java.io.File;
import java.io.IOException;
import java.util.ArrayList;
import java.util.Collection;
import java.util.Iterator;
import java.util.List;

import org.deeplearning4j.models.embeddings.inmemory.InMemoryLookupTable;
import org.deeplearning4j.models.embeddings.wordvectors.WordVectors;
import org.deeplearning4j.plot.BarnesHutTsne;
import org.nd4j.linalg.api.ndarray.INDArray;

import fastfix.WordVectorSerializerFastFix;

/**
 * DeepLearning4jでWord2Vecを行うサンプルプログラム
 * @author karura
 */
public class Word2VecTest3
{
    public static void main(String[] args) throws IOException
    {
        // 単語ベクトルの読込
        System.out.println( "Load vectors..." );
        File        f       = new File( "output/words.txt" );
        //WordVectors vec     = WordVectorSerializer.loadTxtVectors( f );           // ライブラリにバグあり
        WordVectors vec     = WordVectorSerializerFastFix.loadTxtVectors( f );
        
        // 利用可能な単語を取得
        Collection<String>  words   = vec.vocab().words();
        
        // 単語とベクトル表現を出力
        System.out.println( "単語とそのベクトル表現" );
        Iterator<String>    ite     = words.iterator();
        while( ite.hasNext() )
        {
            // 単語と単語ベクトルを取得
            String              word    = ite.next();
            INDArray            vector  = vec.getWordVectorMatrix( word );
            
            // 標準出力に出力
            System.out.println( String.format( "%s : %s : %s " , word
                                                               , vec.wordsNearest( vector , 5 )
                                                               , vector ) );
        }
        
        // t-SNEを利用して、2次元の表に単語をプロット
        System.out.println( "ploting..." );
        BarnesHutTsne tsne = new BarnesHutTsne.Builder()
                .theta(0.5)
                .learningRate(500)
                .setMaxIter(1000)
                .build();
        InMemoryLookupTable table   = (InMemoryLookupTable) vec.lookupTable();
        List<String>        list    = new ArrayList<String>( vec.vocab().words() );
        tsne.plot( table.getSyn0() , 2 , list , "t-SNE-plot.csv" );
    }

}

◇実行結果

18483.431640625	-1694.8656005859	dur	
-7451.63671875	-6846.0444335938	been	
3224.25390625	-14590.3095703125	year	
542.904296875	-3857.8513183594	about	
-7926.5673828125	10782.16796875	your	
…

◇解説
　t-SNEを利用するにはBarnesHutTsneクラスを利用する。BarnesHutTsne::plot関数にプロットするword embedingと圧縮後の次元数、word embedingに対応する単語、ファイル出力先をしていすることで、タブ区切りcsvファイルが出力される。出力されたcsvファイルを元に作成したプロットが以下である。

図：「t-SNE-plot.csv」をgnuplotを用いてプロットした結果

　学習する語彙が少ないためか今回のプロットでは明確なクラスタリングは確認できないが、プロット左部で「university」と「group」が近かったりとクラスタのようなものが見られる個所もあることが分かる。

■　参照

- PR -

Java DeepLearning4j パラメータの設定

Deeplearning 4jではニューラルネットワークの各パラメータ／ハイパーパラメータを関数で設定できる。ニューラルネットワーク全体に関わるパラメータは NeuralNetConfiguration.Builderクラスに対して設定し、各層に関わるパラメータはLayer.Builderクラスに対して設定する。以下にDeeplearning 4jにおける主な設定項目を示す。すべてのパラメータ一覧はJavaDoc(*1,*2,*3)やリファレンス(*4)を参照のこと。

ニューラルネットワーク全体（NeuralNetConfiguration.Builder）の設定項目

　NeuralNetConfiguration.Builderで設定する主な項目は以下の通りである。

設定項目

内容

seed関数

ランダム値の生成に利用するシード値を指定

iterations関数

1回のMultiLayerNetwork::fit関数呼出で学習する回数を指定

learningRate関数

学習率\(\eta\)を指定。デフォルトは0.1

miniBatch関数

ミニバッチ学習をするかどうかを指定

regularization関数

正規化を行うかどうかを指定

l1 , l2 関数

L1正規化、L2正規化を指定。過学習を防ぐために利用

weightInit関数

重みパラメータの初期化方法を指定。デフォルトはWeightInit.VI

設定値	内容
DISTRIBUTION	入力次元に基づいた分布
NORMALIZED	正規分布
ZERO	0
SIZE	入力の次元(shape)の最大値～最小値の一様分布(と思われる)
UNIFORM	入力の最大値～最小値の一様分布(と思われる)
VI	分散が正規化された値
RELU	平均=0、分散=\(\frac{2}{nIn}\)の正規分布
XAVIER	平均=0、分散=\(\frac{1}{nOut+nIn}\)の正規分布

optimizationAlgo関数

学習アルゴリズムを指定。デフォルトはOptimizationAlgorithm.CONJUGATE_GRADIENT

設定値	内容
CONJUGATE_GRADIENT	共役勾配法
HESSIAN_FREE	Hessian-Free法
LBFGS	L-BFGS法
LINE_GRADIENT_DESCENT	直線探索を用いた確率的勾配降下法
STOCHASTIC_GRADIENT_DESCENT	確率的勾配降下法

updater関数

学習アルゴリズムでパラメータ学習する際の拡張方法を指定。(*8)

設定値	内容
ADADELTA	勾配を利用したアップデータ及び学習アルゴリズム。SGD(ネットワーク内のパラメータ更新に同じ学習率を利用)とは異なり、パラメータ毎に学習率を変化させる。論文「ADADELTA: AN ADAPTIVE LEARNING RATE METHOD」
ADAGRAD	勾配の2乗をモニタリングすることにより、パラメータ毎に学習率を最適化する。SGDの代わりに利用でき、スパースなデータに有効。論文「Adaptive Subgradient Methods for Online Learning and Stochastic Optimization」
ADAM	rmspropに似たアップデータ。勾配の移動平均を利用する論文「Adam: A Method for Stochastic Optimization」
CUSTOM	自身で定義
NESTEROVS	論文「Advances in Optimizing Recurrent Networks」
NONE	なし
RMSPROP	論文「Generating Sequences With Recurrent Neural Networks」
SGD	確率的勾配降下法

momentu関数

慣性項を指定。学習を早くするために利用する

list関数

この関数呼び出し後にニューラルネットワークの層を宣言する

layer関数

ニューラルネットワークの層の構成情報を追加する

ニューラルネットワークの層（Layer.Builder）の設定項目

　Layer.Builderで設定する主な項目は以下のとおりである。

設定項目

内容

nln関数

入力データ数を指定。

nOut関数

出力データ数を指定。

activation関数

活性化関数を指定。デフォルトは「"sigmoid"」

設定値	内容
"identity"	恒等変換\(f(x)=x\)
"relu"	ランプ関数
"tanh"	ハイパボリック・タンジェント
"sigmoid"	シグモイド関数
"softmax"	ソフトマックス関数
"hardtanh"	hard tanh
"leakyrelu"	論文「Rectifier Nonlinearities Improve Neural Network Acoustic Models 」
"maxout"	maxout関数
"softsign"	ソフトサイン関数
"softplus"	ソフトプラス関数

LossFunction
(Layer.Builderの引数)

誤差関数を指定。

設定値	内容
MSE	誤差の平方和(線形回帰)
EXPLL	対数尤度関数(ポアソン回帰)
XENT	交差エントロピー(二項分類)
MCXENT	交差エントロピー(多クラス分類)
NEGATIVELOGLIKELIHOOD	負の対数尤度関数
RECONSTRUCTION_CROSSENTROPY	Reconstruction 交差エントロピー
RMSE_XENT	RMSE 交差エントロピー
SQUARED_LOSS	二乗損失
CUSTOM	自身で誤差関数を定義

■　参照

- PR -

Java DeepLearngin4j ニューラルネットワークの基本

Deep Learningの定義は「4層以上のニューラルネットワーク」と定義されている。今回はDeepLearning4jの利用方法を確認する前に、ニューラルネットワークの概念について確認する。

TOPIC

ニューラルネットワークとは？
学習(誤差逆伝搬法)
階層型ニューラルネットワーク
非階層型ニューラルネットワーク

■　ニューラルネットワークとは？

　ニューラルネットワークとは、ニューロンが相互接続したネットワークのことを指す。ニューロンとは神経細胞のことを指し、人の体は相互接続されたニューロンのネットワークによって光を感じたり運動信号を伝達したりする。ニューロンを図示すると以下のようなものである。ニューロンの機能は、他のニューロンからの刺激を樹状突起を通じて受け取り、細胞核で処理したのち、軸索を通じて他のニューロンを刺激するというものである。

図：神経細胞のイメージ

　ニューロン1つはとてもシンプルな構造だが、ネットワークを構築すると複雑な処理も可能にすることが知られている。このことに数学の世界が注目し、ニューロンのようなシンプルな構造を持つ関数のネットワークで複雑な関数を近似することができないかと考案されたのがニューラルネットワークという数理モデルである。数学の世界のニューロンは以下のような構造を持つ。

図：ニューロンのイメージ

\begin{align}
f(x) & = f( \sum_{i=0}^N v_ix_i - \theta )\\
& = f( v_0x_0 + v_1x_1 + \cdots + v_Nx_N - \theta )\\
\end{align}
　つまり、入力は\(N\)個の他のニューロンからそれぞれ入力\(x_i\)に重み\(v_i\)を乗じた値の合計で、出力は入力から閾値\(\theta\)を引いて活性化関数\(f(x)\)で処理した値となる。このニューロンンをネットワーク上につなげたものをニューラルネットワークと呼ぶ。ニューラルネットワークを大きく分けるとニューロンを階層上に整列させる階層型と、そうでない非階層型に分かれる。非階層型としては内部にループ構造を持つものなどがあげられる。

　一見、使い方がよく分からないニューロンではあるが、ニューロンを複数個つなげると利用方法が見えてくる。例えば以下のようにニューロンを構成すると、活性化関数\(f(x)=x\)という1次式だけを利用して、x>0の範囲で\(f(x)=x^2\)が近似できる。複雑な関数をシンプルな関数で表現できるという利点は、コンピュータでの計算を前提とすると大きな利点である。

図：関数\(f(x)=x\)を用いて、ニューラルネットワーク上で関数\(f(x)=x^2\)を近似するイメージ

　ニューラルネットワークでは上記のような簡単な式以外についても、活性化関数の選択やパラメータ\(v_i\)(重み)や\(\theta\)(閾値)の設定次第で、どんな関数も近似できるようになる。しかし、逆に問題となるのが式を近似する際にこのパラメータをどうやって求めるかということである。ニューラルネットワークにおいては、このパラメータの決定を次の節で紹介する学習により行っている。

■　学習(誤差逆伝搬法)

　機械学習という言葉が示すように、ニューラルネットワークにおいて学習という概念が最も大切な概念である。ただし、概念自体はそんなに難しいことはない。

　例えば、中学で勉強した幾何学の世界を考えてみる。以下の問題でパラメータa,bを求めよと言われれば、求められるのではないだろうか。

【問題】
　関数「\( y=ax+b\)」が点\((0,3)\)および点\((4,0)\)を通るとき、\(a\)と\(b\)の値を答えなさい。

【答え】
　「\( 3=a \times 0+b \)」から\(b = 3\)、「\( 0=a \times 4+3 \) 」から\( a = -\frac{3}{4} \)

　ニューラルネットワークにおいての学習は上記のようにパラメータ計算を行うことに相当する。上記の内容を一般的な言葉で置き換えると、入力\(x\)に対する出力\(y\)が分かっているのであれば、計算式中に現れるパラメータ（=適切な関数）が計算可能であるということである。上記の幾何学の問題を機械学習の観点で見てみると、入力に対応するデータの組「\((x,y)=(0,3),(4,0)\)」は教師データと呼ばれ、線形関数「\(y=ax + b\)」のパラメータ\(a\),\(b\)を計算することが学習にあたる。

　もちろん、上記例のように関数が1次関数であれば瞬時に正確なパラメータが計算できるが、まったく未知の関数に対しては別の方法でパラメータを決定していく。それが、誤差関数の導入である。ここからは高校・大学レベルの数学知識が必要となる。

　例えば、ある時点のニューラルネットワークの出力を\(o\)実際の正解値を\(t\)、誤差関数を\(E=(t-o)^2\)とすると、誤差関数は出力と正解値の差が小さくなるにつれて値が小さくなる関数となる。特に\(o=t\)の場合に誤差が最小となる。視覚的に誤差関数を記述すると以下のようになる。

図：誤差関数Eのイメージ

　上記では、誤差関数Eをoの関数\(E(o)\)として表現したが、oはニューラルネットワークのパラメータである\(v_i\)や\(\theta\)によって決まる値であるため、誤差関数は\(E(v)\)や\(E(\theta)\)として記述することも可能である。ニューラルネットワークにおいては、この誤差関数を最小化するような\(v\)や\(\theta\)の値を求めることができれば、出力\(0\)と正解値\(t\)の差が小さい近似式を設定することができる。

　この\(E(v)\)の最小値を求める方法として、ある時点での傾き(勾配)を調べるという方法がよく利用される。例えば\(E(v)=v^2\)という関数の最小値を求めることを考える。

図：\(E(v)=v^2\)のイメージ

　いま適当な値\(v\)を決めて、\(v\)時点での\(E(v)\)の傾きを計算すると右下がりの傾き(負の傾き)であるとする。線の傾きはその点における微分値として計算することができる。線の傾きから、\(E(v)\)の最小値は\(v\)がより大きい値をとる場合であることが分かる。このため、次はvを少し大きくして\(v=v+\triangle v\)の地点に移動して、再度\(E(v)\)の傾きを計算する。この繰り返しを続けていけば、いつかは傾きが0=\(E(v)\)が最小になる\(v\)の値に収束する。この方法を数学的には再急降下法と呼ぶ。関数のある地点の傾きは関数の微分値に等しいことから、再急降下法では\(\triangle v= - \eta \frac{\partial E(v)}{\partial v} \)(\(\eta\)は定数)として無限に計算を繰り返す。

　ニューラルネットワークにおいては、再急降下法のように勾配を利用して誤差関数\(E\)を最小化するようなパラメータ\(v\)や\(\theta\)を見つけることで式の近似を行っている。微分値を計算していくと、あるニューロンのパラメータ微分値(誤差情報)を計算する際には、その出力先のニューロンのパラメータ微分値が必要となるため、計算は出力側のニューロンから順に行われることになる。この動作が誤差情報が出力の流れとは逆に伝搬していくように見えることから、勾配を利用した学習の方法は誤差逆伝搬法と呼ばれる。

図：誤差逆伝搬のイメージ

■　階層型ニューラルネットワーク

　階層型ニューラルネットワークとは、ニューロンが階層上に重なったニューラルネットワークのことを指す。階層型ニューラルネットワークに属するものとしては、多層パーセプトロンや畳み込みニューラルネットワーク等が存在する。ネットワークのイメージとしては以下のようなものである。

図：階層型ニューラルネットワークのイメージ

　近年注目を集めているDeep Learningは、この階層型ニューラルネットワークで入力層や出力層を合わせて全4階層以上の階層を持つものを利用した機械学習を指す。昔は処理が多すぎて見向きもされなかったが、近年のマシンスペックの向上に伴いその性能が見直されたモデルでもある。

■　非階層型ニューラルネットワーク

　非階層型ニューラルネットワークとは、ネットワーク内部にループを持つなど階層上になっていないニューラルネットワークのことを指す。非階層型ニューラルネットワークに属するものとしては、ボルツマンマシンなどが存在する。

図：非階層型ニューラルネットワークのイメージ

　非階層型ニューラルネットワークの利用方法はイメージしにくいと思われるが、ボルマンマシンではニューロンを接続する線に適切な重みを設定することで、巡回セールスマン問題を解いたりグラフや図を記憶したりすることができる。

■　参照

名古屋工業大学岩田研究室「ニューラルネットワーク入門」

- PR -

Java DeepLearning4j 多層パーセプトロンの構築

今回は階層型ニューラルネットワークの基本となる多層パーセプトロンをDeepLearning 4jで構築する方法について見ていく。

TOPIC

多層パーセプトロンとは？
サンプルプログラム

■　多層パーセプトロンとは？

　多層パーセプトロンはニューロンを階層状にならべた階層型ニューラルネットワークの基本となっている。多層パーセプトロンは中間層がすべて全結合層(前層の全ニューロンと接続する層)で構成されたニューラルネットワークであり、非線形な関数を近似することができる。多層パーセプトロンの構成は以下のようなイメージとなる。

図：多層パーセプトロンのイメージ

表：多層パーセプトロンで利用する層の種類

層の名称	Deeplearning4j内のクラス	内容
全結合層 (略：FC,RELU)	DenseLayer	前層のニューロンに対し全結合を行う。
出力層 (略：OUTPUT)	OutputLayer	全結合層と同様の構造を持つ。DeepLearing4jでニューラルネットワークを構成する場合、必ず含めないといけない層。

　多層パーセプトロンの特徴は非線形関数を近似できるため画像認識などの高度な処理も行える点にある。しかし、ニューロン数が多くなるに従い計算量が膨大な数になってしまうという欠点があるため、多層パーセプトロンがそのまま実用される場合は少ない。ただし、他のニューラルネットワーク内で利用されたり、階層型ニューラルネットワークの基本的な挙動を確認するため、理解しておいたほうがよいニューラルネットワークである。

全結合層

　全結合層内の\(i\)番目のニューロンは以下の図のような動作を行う。すなわち、前層の\(j\)番目のニューロン出力\(x_j\)に対して別々の重み\(v_{ij}\)を乗じたものの総和をとり(ネット値)、その総和から閾値\(\theta\)(バイアスとも呼ぶ)を引いた値を活性化関数と呼ばれる関数\(f(x)\)で処理した結果を出力値\(h_i\)としている。

　学習フェーズで重み\(v_{ij}\)と閾値\(\theta\)を変更することにより、任意の式の近似式を得ることができる。

\begin{align}
h_i & = f( \sum_{k=0}^n v_{ik}x_k - \theta ) \\
& = f( v_{i1}x_1 + v_{i2}x_2 + \cdots + v_{in}x_n - \theta )
\end{align}

変数	内容
\(n\)	入力値の個数。各層毎に異なる
\(x_i\)	i番目の入力値(教師データ)
\(v_{ij}\)	各層内のi番目ニューロンで、入力jにかける加重パラメータ（結合荷重）
\(h_i\)	中間層のi番目ニューロンの出力値。（次の層の入力値にもなる）
\(f(x)\)	活性化関数(シグモイド関数が一般的に利用される) \begin{align} f(x) & = \frac{1}{1+e^{-x}} \end{align}
\(\theta\)	閾値

図：多層パーセプトロンを構成するニューロンの数式

■　サンプルプログラム

　以下にDeepLearning4jで多層パーセプトロンを構成するサンプルプログラムを示す。サンプルではXOR計算を行う3層の多層パーセプトロンを構成し、4つの学習データを用いて2000回の学習(誤差逆伝搬法)を行っている。活性化関数はシグモイド関数を、誤差関数は誤差の平方和(\(\sum (t_i - o_i)^2\))を利用している。

◇サンプルプログラム

import org.deeplearning4j.nn.api.OptimizationAlgorithm;
import org.deeplearning4j.nn.conf.MultiLayerConfiguration;
import org.deeplearning4j.nn.conf.NeuralNetConfiguration;
import org.deeplearning4j.nn.conf.Updater;
import org.deeplearning4j.nn.conf.layers.DenseLayer;
import org.deeplearning4j.nn.conf.layers.OutputLayer;
import org.deeplearning4j.nn.multilayer.MultiLayerNetwork;
import org.deeplearning4j.nn.weights.WeightInit;
import org.deeplearning4j.optimize.listeners.ScoreIterationListener;
import org.nd4j.linalg.api.ndarray.INDArray;
import org.nd4j.linalg.dataset.DataSet;
import org.nd4j.linalg.factory.Nd4j;
import org.nd4j.linalg.lossfunctions.LossFunctions;

/**
 * XOR計算を行う多層パーセプトロン
 * @author karura
 */
public class MultiPerceptron
{
    // メイン関数
    public static void main(String[] args) throws Exception
    {
        // 変数定義
        int seed        = 123;          // 乱数シード
        int iterations  = 2000;         // 学習の試行回数
        int inputNum    = 2;            // 入力数
        int middleNum   = 10;           // 隠れ層のニューロン数
        int outputNum   = 1;            // 出力数
        INDArray    tIn     = Nd4j.create( new float[]{ 1 , 1 ,             // 入力1
                                                        1 , 0 ,             // 入力2
                                                        0 , 1 ,             // 入力3
                                                        0 , 0 },            // 入力4
                                           new int[]{ 4 , 2 } );            // サイズ
        INDArray    tOut    = Nd4j.create( new float[]{ 0 , 1 , 1 , 0} ,    // 出力1～4
                                           new int[]{ 4 , 1 } );            // サイズ
        DataSet     train   = new DataSet( tIn , tOut );                    // 入出力を対応付けたデータセット
        System.out.println( train );
        
        // ニューラルネットワークを定義
        MultiLayerConfiguration.Builder builder = new NeuralNetConfiguration.Builder()
                .seed(seed)
                .iterations(iterations)
                .learningRate(0.01)
                .weightInit(WeightInit.SIZE)
                .optimizationAlgo(OptimizationAlgorithm.STOCHASTIC_GRADIENT_DESCENT)
                .updater( Updater.NONE )
                .list()
                .layer(0, new DenseLayer.Builder()
                        .nIn(inputNum)
                        .nOut(middleNum)
                        .activation("sigmoid").build())
                .layer(1, new OutputLayer.Builder( LossFunctions.LossFunction.MSE )
                        .nIn(middleNum)
                        .nOut(outputNum)
                        .activation("sigmoid")
                        .build())
                .backprop(true).pretrain(false);
        
        // ニューラルネットワークを作成
        MultiLayerConfiguration conf        = builder.build();
        MultiLayerNetwork       perceptron  = new MultiLayerNetwork(conf);
        perceptron.init();
        
        // 確認用のリスナーを追加
        perceptron.setListeners( new ScoreIterationListener(1) );
        
        // 学習(fit)
        perceptron.fit( train );
        
        // パーセプトロンの使用
        for( int i=0 ; i<train.numExamples() ; i++ )
        {
            // i個目のサンプルについて、
            INDArray    input  = train.get(i).getFeatureMatrix();
            INDArray    answer = train.get(i).getLabels();
            INDArray    output = perceptron.output( input , false );
            System.out.println( "result" + i );
            System.out.println( " input  : " + input );
            System.out.println( " output : " + output );
            System.out.println( " answer : " + answer );
            System.out.flush();
            
        }
        
    }
}

◇実行結果

20:43:12.444 [main] DEBUG org.nd4j.nativeblas.NativeOps - Number of threads used for linear algebra 32
20:43:12.476 [main] WARN  org.nd4j.jita.conf.CudaEnvironment - Please note, CudaEnvironment is already initialized. Configuration changes won't have effect

…中略…

===========INPUT===================
[[1.00, 1.00],
 [1.00, 0.00],
 [0.00, 1.00],
 [0.00, 0.00]]
=================OUTPUT==================
[0.00, 1.00, 1.00, 0.00]

…中略…

20:43:41.441 [main] INFO  o.d.o.l.ScoreIterationListener - Score at iteration 1999 is 0.0024183732457458973
result0
 input  : [1.00, 1.00]
 output : 0.09
 answer : 0.00
result1
 input  : [1.00, 0.00]
 output : 0.93
 answer : 1.00
result2
 input  : [0.00, 1.00]
 output : 0.92
 answer : 1.00
result3
 input  : [0.00, 0.00]
 output : 0.04
 answer : 0.00

◇解説
　学習用データの準備は30行目～38行目で行っており、XORの計算の入力と出力値を作成している。1つ目の学習データを見てみると入力(1,1)に対して、出力0を設定している。標準出力を見てみると、入力のi番目データをXORした結果を出力のi番目データとなっていることが確認できる。

　多層パーセプトロンの構成は40行目～63行目で行っている。注意点としては重みの初期化に定数「WeightInit.Size」を指定していることであり、他の初期化方法では学習がうまくいかない。これはシグモイド関数を利用していることに起因すると思われる。シグモイド関数ではある範囲の入力値(例えば-2<x<2)を0～1の値に変換するが、この範囲外(例えばx<-2,2<x)の値は常に0か1になってしまう。このため範囲外では勾配値が常に0となり、勾配を利用した学習方法はうまく機能しないという特性がある。WeightInit.Sizeの場合にのみうまく学習できるのは、シグモイド関数で学習可能な入力値となるように、重みが初期化されるためと考えられる。実際、WeightInit.Size以外の初期化方法では値が-1～1程度の値に初期化されるが、WeightInit.Sizeでは0～2(入力配列の長さ)に初期化されることはデバッグすれば確認できる。

　学習は69行目で行い、学習後の多層パーセプトロンの利用は72行目～84行目で行っている。多層パーセプトロンの利用では学習用のデータを転用しており、i番目の入力データを取得し(getFreatureMatrix関数)、その出力値とi番目データの正解値(getLabels関数)を標準出力に出力している。結果としては、すべてのXOR計算において誤差が0.1以下に収まっていることが確認できる。

■　参照

ニューラルネットワーク入門

- PR -

Java DeepLearning4j GPUによる高速化

今回はDeepLearning 4jでGPUを利用する方法を確認する。DeepLearning 4jでは行列計算をND4Jライブラリで行っているが、GPUによってこの行列計算を高速化することになる。

TOPIC

GPUの利用方法
性能比較

■　GPUの利用方法

　DeepLearning 4jでのGPU利用は、現在のところCUDA(NVIDIA製のグラフィック・カードで利用可能な開発環境)のバージョン5.5以降にしか対応していない。グラフィック・カードを持っていてもCUDAが利用できない場合はGPU利用もできないため、注意が必要である。DeepLearning 4jでGPU利用するには、以下の手順を行う。

CUDAのインストール
POMファイルの編集

　手順１についてはCUDAのダウンロードサイトでインストーラをダウンロードし、インストールをする必要がある。インストールは特に難しいことはなく、「次へ」を選択して進んでいけばよい。手順２についてはDeepLearning 4jプロジェクトのPOMファイルに以下の依存性記述を追加するだけでよい。ただし、artifactIdタグは「nd4j-cuda-○○」(○○はインストールしたCUDAのバージョン)という値に変更する必要があり、以下の記述はCUDA 7.5の場合の記述である。

<dependency>
 <groupId>org.nd4j</groupId>
 <artifactId>nd4j-cuda-7.5</artifactId>
 <version>${nd4j.version}</version>
</dependency>

　特に本サイトの方法で環境を構築した場合(=『dl4j-0.4-examples/pom.xml』を利用して環境構築した場合)、すでにPOMファイル内に上記は記述されており、以下のように「nd4j.backend」タグの設定を修正するだけで計算にGPUが利用されるようになる。

<name>DeepLearning4j Examples</name>
<description>Examples of training different data sets</description>
<properties>
    <nd4j.backend>nd4j-native</nd4j.backend>

<name>DeepLearning4j Examples</name>
<description>Examples of training different data sets</description>
<properties>
    <nd4j.backend>nd4j-cuda-7.5</nd4j.backend>

■　性能比較

　GPUを利用した場合の性能を計測するため、CPU利用時とGPU利用時の実行速度差を比較する。実行速度の計測には、公式サイトに掲載されている『LenetMnistExample』(LeNet：2014年度開催の画像認識コンテストILSVRCでGoogleが利用し、高い認識精度を示したニューラルネットワーク構成）を利用し、1世代分の学習(6万個の学習データで各1回学習)にかかる時間を比較した。結果は以下の通り。

◇実行環境

機能	内容
OS	Windows7(64bit)
CPU	Intel Core2 (1.86GHz) …プロセッサ数=2
GPU	GeForce GTX650 …プロセッサ数=384
Java	1.8.0_60
CUDA	CUDA 7.5

◇実行結果

CPU/GPU	実行時間
CPU	820.489秒　(=13分40.489秒)
GPU	349.991秒　(=05分49.991秒)

　処理時間は2分の1以下となり、高速化できたことが確認できた。

■　参照

ND4J 公式「JCublas Backend for GPUs」

- PR -

(11/14)	JavaFX 画面キャプチャ(コマ撮り)
(11/11)	JavaFX WebP画像ファイルを開く（webp-imageioライブラリ）
(11/07)	EclipseでJavaFX入門(Java17での環境構築)
(06/29)	Java DeepLearning4j 単語のベクトル化(Word2Vec)
(06/11)	Java DeepLearning4j パラメータの設定