投稿

9月, 2014の投稿を表示しています

ICML2014 : A new Q(lambda) with interim forward view and Monte Carlo equivalence

イメージ
Q(λ)というのが見慣れなかったので、今回紹介するのはこれ。
http://jmlr.org/proceedings/papers/v32/sutton14.pdf


事前知識
Q学習 Q-learning 参考:http://www.eb.waseda.ac.jp/murata/mituhiro.seki/openhouse/RL_algorithm.php   :http://mikilab.doshisha.ac.jp/dia/research/person/suyara/RL/TD-Learning/QL/Q-Learning.html   :http://stlab.ssi.ist.hokudai.ac.jp/yuhyama/lecture/OLD/softcomputing/softcomputing-b-4up.pdf
1989年のWatkinsの論文で提唱された強化学習の中のTD 法(temporal difference learning)の手法のひとつ。ほかに強化学習を解く手法には動的計画法・モンテカルロ法があげられるらしい。この3つですべて説明できるかはわからない。 今回は新しいQ-learning手法を提唱するとともにモンテカルロ法と(一部?)同等であることを示しているそうなので、手法の垣根を超える論文なのかもしれない(注:今の時点でタイトルしか読んでない)

ICML2014 : A Divide-and-Conquer Solver for Kernel Support Vector Machines

イメージ
はじめが肝心なので、今日はこれ。
http://jmlr.org/proceedings/papers/v32/hsieha14.pdf


概要 SVMは通常サンプル数が膨大であった場合、計算量がボトルネックとなる。 そこで分割統治SVM(DC-SVM)を開発し、複数のサブ問題に分割して独立に解くことにした。 適切なカーネルクラスタリングであれば、サブ問題から得られた解は全体の解となる確率が高いことを理論的に示した。LIBSVMを7倍のスピードで最適解を出した。 early prediction strategyを組み合わせると100倍まで高速化。


divideステップでkernel kmeansによって分割したサブ問題の解を得、 conquerステップでサブ問題の解を接着(glued)してglobal problemの初期解を決定しcoordinate descentメソッドによって最適解に収束させるらしい。

ICML2014 : A PAC-Bayesian Bound for Lifelong Learning

イメージ
勉強のためにICMLの論文を読んで、まとめてみようかと突然思い立ったのではじめてみました。

今回はこれ。
http://jmlr.org/proceedings/papers/v32/pentina14.pdf

まずタイトルから意味がわからなかったのでいろいろ調べてみました。


事前知識 転移学習 Transfer Learning
参考:http://www.kamishima.net/archive/2010-s-jsai_tl.pdf
異なる分野(?)から得られた知識を転移して、
まだデータが得られていない分野のための学習に利用することが最終目的。
2012年ぐらいのICMLでうまくいきそうな手法がでてきたとか。


Lifelong Learning
参考:http://www.seas.upenn.edu/~eeaton/AAAI-SSS13-LML/

直訳すると生涯学習、ただ人工知能なんかの世界だと
長期的に知識を得て整理して保存し、未知のデータに関して適応するという一連の過程に属するプロセスのことを言うらしい。
転移学習はこれを達成するためにある手法の一つ。
問題は現在のタスクからどれだけ未来のタスクを予測できるのか?ということ。



PAC-Baysian analysis (Probably Approximately Correct)
参考:http://hunch.net/~jl/projects/prediction_bounds/thesis/mathml/thesisch6.xml#x37-570131
http://arxiv.org/pdf/1307.2118v1.pdf
オッカムの剃刀の制約を一般化したもの。分類器による分類の分布に含まれるエラーを評価する?
ベイズ主義と頻度主義を機械学習のためにブレンドした考え方。
自然に生まれてくるsituationの分布と、それを表現するルールのjoint分布を考えてルールのバイアスなどを含めたパフォーマンスを評価することができる。

ルールが決まっていたときに、それがどれだけの表現力を持っているのかということをKLダイバージェンスで表現する、という理解でいいのかな。

Golangのdefer

deferはファイルcloseなど関数がreturnするときに処理させたいものを宣言しておくもの。
ファイルのcloseとbufferのフラッシュなんかで順番は大丈夫なのかなと思ってググったところ、

http://qiita.com/tenntenn/items/9aebce917760f157c44e


First in Last outで、引数は宣言した時点で評価されるらしいです。
なるほど。

Phylogenetic tree reconciliation

論文紹介のスライドをSlideShareにあげてみましたー(๑´ڡ`๑)


でも論文紹介って著作権的にはグレーゾーンなんですよね。。
なので後日消すかもしれません。

とりあえずUP。


ISMB : Pareto-optimal phylogenetic tree reconciliation from Caru Shi

Ultra Super Anpontan

イメージ
わたしの夏が終わりました... (๑´ڡ`๑)


今まで研究会で瀕死という以外に特に思い出のない素敵な夏休みを過ごしてきたわたしでしたが、 締めくくりとしてUSAに旅行に行ってきました!メリケンメリケン!!

というわけで、帰ってきたいま時差ぼけで大変辛いのでスライドを作っている体でブログを更新しようと思います( ^ω^ )b

ただいまジャパン

どうもお久しぶりです、皆様夏休みはいかがお過ごしでしたか。

私は今日延長で夏休みということにして寝込んでおりました\(^o^)/



というのも先日まで勉強会で一週間出張していたんですが、
旅先でのおいしいいくらと生ガキといかと(いか好きじゃないけど)飲み会を堪能してたら、

ある日飲み会中に貧血起こしまして、