前回の続きと開発コード

引き続きQ学習についてやっています. このシミュレータに使っている開発言語はjavaちゃんです.
描画系が簡単なので,試作にはもってこいです(個人的意見です).また,WindowsとMacで同じ開発コードが使えるのが良いです.

さて,今日まで衝突回避するための報酬の付与について試行錯誤していました.
  1. 衝突する寸前の領域に入った場合
  2. 前方がオープンスペースで,かつ,前進行動の場合

の2つです.
条件1では負の報酬,条件2では正の報酬を与えます.

常に学習を続けると,条件2の行動と次の行動がループしてしまうので,学習開始条件が必要になりそうです.

式の書き方がわかれば,条件など載せます.(そのうち

コメント