【DL輪読会】Universal Trading for Order Execution with Oracle Policy DistillationDeep Learning JP
?
1. This document summarizes a research paper that proposes a reinforcement learning framework for optimal order execution. It uses an approach called Oracle Policy Distillation to distill knowledge from an optimal "teacher" policy into a "student" policy to improve sample efficiency despite noisy market data.
2. The experiments show that the proposed method can discover effective trading strategies and that Oracle Policy Distillation improves performance compared to baselines. It also finds that the student policy learns more efficient trading patterns than alternatives.
3. In conclusion, the framework can learn universal policies across different financial assets and the Oracle Policy Distillation approach enhances learning from limited market samples. Future work aims to distill policies learned from individual assets into universally applicable policies.
論文紹介 Anomaly Detection using One-Class Neural Networks (修正版Katsuki Ohto
?
This document discusses anomaly detection using one-class neural networks (OC-NN). It begins by introducing one-class support vector machines (OC-SVM) which learn a decision boundary to distinguish normal data points from anomalies using only normal data for training. The document then presents OC-NN as an alternative, where a neural network is trained to learn a low-dimensional representation of only normal data, and anomalies are detected as points with a large reconstruction error. It evaluates OC-NN on several datasets, finding it can achieve good performance compared to OC-SVM at detecting anomalies, as measured by the area under the ROC curve metric.
[DL輪読会]Deep Neural Networks as Gaussian ProcessesDeep Learning JP
?
Документ обсуждает использование глубоких нейронных сетей в качестве гауссовых процессов и анализирует алгоритмы для работы с набором данных MNIST и CIFAR-10. Рассматриваются различные методы, стандарты и математические модели, включая многослойные перцептроны (MLP) и их применение. Авторы сосредотачиваются на теоретических основах и практических аспектах реализации этих алгоритмов.
【DL輪読会】Universal Trading for Order Execution with Oracle Policy DistillationDeep Learning JP
?
1. This document summarizes a research paper that proposes a reinforcement learning framework for optimal order execution. It uses an approach called Oracle Policy Distillation to distill knowledge from an optimal "teacher" policy into a "student" policy to improve sample efficiency despite noisy market data.
2. The experiments show that the proposed method can discover effective trading strategies and that Oracle Policy Distillation improves performance compared to baselines. It also finds that the student policy learns more efficient trading patterns than alternatives.
3. In conclusion, the framework can learn universal policies across different financial assets and the Oracle Policy Distillation approach enhances learning from limited market samples. Future work aims to distill policies learned from individual assets into universally applicable policies.
論文紹介 Anomaly Detection using One-Class Neural Networks (修正版Katsuki Ohto
?
This document discusses anomaly detection using one-class neural networks (OC-NN). It begins by introducing one-class support vector machines (OC-SVM) which learn a decision boundary to distinguish normal data points from anomalies using only normal data for training. The document then presents OC-NN as an alternative, where a neural network is trained to learn a low-dimensional representation of only normal data, and anomalies are detected as points with a large reconstruction error. It evaluates OC-NN on several datasets, finding it can achieve good performance compared to OC-SVM at detecting anomalies, as measured by the area under the ROC curve metric.
[DL輪読会]Deep Neural Networks as Gaussian ProcessesDeep Learning JP
?
Документ обсуждает использование глубоких нейронных сетей в качестве гауссовых процессов и анализирует алгоритмы для работы с набором данных MNIST и CIFAR-10. Рассматриваются различные методы, стандарты и математические модели, включая многослойные перцептроны (MLP) и их применение. Авторы сосредотачиваются на теоретических основах и практических аспектах реализации этих алгоритмов.
24. VRPの構成要素
1. the (road) network structure
2. the type of transportation requests
3. the constraints that affect each route individually
4. the fleet composition and location
5. the inter-route constraints
6. the optimization objectives
26. 2. 輸送リクエストの種類(1/2
? Delivery and collection(pickups)
? 飲み物の集荷と配送など
? many-to-one VRP
? one-to-many VRP
? Simple Visits and Vehicle Scheduling
? 看護師のケア、修理など
? Vehicle Scheduling problem と呼ばれる
? Alternative and Indirect Services
? 小包を届ける(届け先の候補がある)
? Multi-Vehicle Covering Tour Problem
? Point-to-Point Transportation
? 二点間の人やグッズの移動(交通など)
? pickup-and-delivery problems
? Repeated Supply
? ひとりのカスタマーが定期的に(週2など)配達される
? Periodic VRP
27. 2. 輸送リクエストの種類(2/2
? Non-split and Split Services
? 複数のトラックでひとつの需要を満たす
? The Split Delivery VRP
? Combined Shipment and Multi-model Service
? 複数の交通手段を使って移動する
? 都市計画への応用
? hub-and-spoke or crossdocking
2-Echelon VRP
? Routing with Profits and Service Selection
? 需要が全て満たされない場合、満たす需要を選ぶ
? Profitable Tour Problem
? Team Orienteering Problem
? Prize-Collecting VRP
? Dynamic and Stochastic Routing
? dynamic: 各時間ごとにシステムの状態の情報が得られる
? Sctochastic: 状態が不明だが確率分布で表せる
32. Algorithms for the Capacitated VRP(1)
? Tree search method based on 分枝限定法
? Tree search(木探索)Wikipediaより
? 探索アルゴリズムとは、大まかに言えば、問題を入力として、考えられるいくつ
もの解を評価した後、解を返すアルゴリズムである。
? まず解くべき問題を状態と状態変化に分る。 最初に与えられる状態を初期状
態(英: initial state)といい、目的とする状態は最終状態(ゴール、英: final
state, goal)と呼ばれる。 初期状態から最終状態に至る、状態及び状態変化
の並びが解である。 将棋ならば、盤面の駒の配置と指し手の持ち駒が状態で
あり、交互に駒を動かすことが状態変化に当たる。
? 問題を解く類として研究されているアルゴリズムの多くは探索アルゴリズムで
ある。ある問題の考えられるあらゆる解の集合を探索空間と呼ぶ。力まかせ
探索や素朴な(知識を用いない)探索アルゴリズムは、探索空間を探索する手
法としては最も単純で直観的である。一方、知識を用いた探索アルゴリズムは
ヒューリスティクスを使って探索空間の構造に関する知識を利用し、探索にか
かる時間を削減しようとする。
33. Algorithms for the Capacitated VRP(1)
? Tree search method based on 分枝限定法(branch-)
? 全ての解候補を体系的に列挙するもので、最適化された量の上限と下限の
概算を使って、最適でない候補はまとめて捨てられる。
? 問題をいくつかの小規模な問題に分割し,その全てを解くことで等価的に元
の問題を解く
? 小規模な問題への分割は,例えば,ある 1 つの変数の値を 0 または 1 に
固定し,それぞれの場合を個別に考察することによって実現できる. このよ
うに問題を分割する操作を分枝操作(branching operation)という.
? 分枝操作を繰り返し行うことで,すべての場合を列挙することができるが,
その過程は生成木と呼ばれる根付き木
? を用いて表現できる.
分枝限定法の探索を途中で打ち切れば近似解法としても利用でき,この場
合,最適値は分からなくとも最適値の下界を知ることができる(最小化問題
を仮定している)
? 手法の効率は、ノード分割手続きと上限および下限を推定する手続きに強
く依存する。他の全ての条件が同じなら、オーバーラップしない部分集合に
分割するのが最もよい。
34. Algorithms for the Capacitated VRP(2)
? Column Generation and Brand-and-Cut algorithm
? 中川さんが説明予定のVRP with Time Windowsの特殊なケースとして
解かれる(time windowが十分に大きい場合)
? 以下の2つのアプローチのコンビネーション
? Fukasawa, R., Longo, H., Lysgchoa, E., Werneck, RF.
? Robust branch-and-cut-and-price for the capacitated vehicle routing problem,
Mathematical Programming, Vol. 106, No.3, pp. 491-511, 2006.
? Baldacci, Christofides, and Mingozzi
? An exact algorithm for the vehicle routing problem based on the set
partitioning formulation with additional cuts
? Mathematical Programming, Vol 115, Issue 2, pp 351-385, 2008