ICML2014 : A PAC-Bayesian Bound for Lifelong Learning


勉強のためにICMLの論文を読んで、まとめてみようかと突然思い立ったのではじめてみました。

今回はこれ。
http://jmlr.org/proceedings/papers/v32/pentina14.pdf

まずタイトルから意味がわからなかったのでいろいろ調べてみました。


事前知識

転移学習 Transfer Learning
参考:http://www.kamishima.net/archive/2010-s-jsai_tl.pdf
異なる分野(?)から得られた知識を転移して、
まだデータが得られていない分野のための学習に利用することが最終目的。
2012年ぐらいのICMLでうまくいきそうな手法がでてきたとか。


Lifelong Learning
参考:http://www.seas.upenn.edu/~eeaton/AAAI-SSS13-LML/

直訳すると生涯学習、ただ人工知能なんかの世界だと
長期的に知識を得て整理して保存し、未知のデータに関して適応するという一連の過程に属するプロセスのことを言うらしい。
転移学習はこれを達成するためにある手法の一つ。
問題は現在のタスクからどれだけ未来のタスクを予測できるのか?ということ。



PAC-Baysian analysis (Probably Approximately Correct)
参考:http://hunch.net/~jl/projects/prediction_bounds/thesis/mathml/thesisch6.xml#x37-570131
http://arxiv.org/pdf/1307.2118v1.pdf
オッカムの剃刀の制約を一般化したもの。分類器による分類の分布に含まれるエラーを評価する?
ベイズ主義と頻度主義を機械学習のためにブレンドした考え方。
自然に生まれてくるsituationの分布と、それを表現するルールのjoint分布を考えてルールのバイアスなどを含めたパフォーマンスを評価することができる。

ルールが決まっていたときに、それがどれだけの表現力を持っているのかということをKLダイバージェンスで表現する、という理解でいいのかな。




Vapnik–Chervonenkis theory (VC theory

Empirical processからのComputationalな学習において、test error とtraining error(とcomplexity := VC dimension)間の関係を示した理論。1990年ぐらいまで流行ったらしい。


英語ですが解説動画がありました。スライドがわかりやすい(๑´ڡ`๑)


概要

lifelong learningなどの汎化限界などを理論的な面から解析するために、PAC -Bayesian Boundという指標を用いて調べてみた。
ギブス予測器というものを用いる。エラーの見積もりは以下のようになる。


式自体はVCの式と形が似ているけど、ルートの中が分布になっている。右のエラーがトレーニングに関するエラー、左がテストに関するエラー。
δはこれが成り立つ確率?mはサンプリングをした数。Pはサンプルを観測する前に選ばれた事前分布。Qは観測したあとの事後分布になる。


これをlifelong learningに応用するためにタスクを考慮に入れられるように拡張する。



nがタスクの数。Qi(Si,P)がトレーニングセットSiを利用して得られた事後分布で、そのエラーに依存した形でかけるer(Q)が転移リスク。
er(Q)にハットがついているのがempirical multi-task risk。

このエラーを小さくするように、タスクごとにかけられる重みvectorを求める。
ガウシアンで解いてみた場合とか。



でこれらを利用して PL-L, PL-G(Prior Learning with Langevin & Gaussian hyperprior)法を実装して実際のデータに試してみたら既存研究のものと同じぐらいの精度がでましたよと。


hyperpriorのところは詳しくはまた今度調べてみようと思います。


コメント

このブログの人気の投稿

再現性なんてないさ(?)

特に収穫がない日

jupytherにチャレンジ