目次:
定義-マルコフ決定プロセス(MDP)とはどういう意味ですか?
マルコフ決定プロセス(MDP)は、専門家が「離散時間確率制御プロセス」と呼ぶものです。19世紀後半から20世紀初頭にロシアの学者アンドレイ・マルコフによって開拓された数学に基づいています。
Techopediaはマルコフ決定プロセス(MDP)を説明します
マルコフ決定プロセスと関連するマルコフ連鎖を説明する1つの方法は、これらが数百年前のロシアの科学者によるより単純な数学的研究に基づいた現代のゲーム理論の要素であることです。 マルコフ決定プロセスの説明は、システムが特定の状態セットにあるシナリオを研究し、意思決定者の決定に基づいて別の状態に進むというものです。
モデルとしてのマルコフ連鎖は、与えられたイベントの確率が以前に達成された状態に依存するイベントのシーケンスを示します。 専門家は、マルコフ決定プロセスの説明で「可算状態空間」について話すことができます。マルコフ決定モデルのアイデアを「ランダムウォーク」モデルまたは確率に基づく他の確率モデル(ランダムウォークモデル。 Streetは、市場確率のコンテキストで株式の上下の動きをモデル化します)。
一般に、マルコフ決定プロセスは、たとえば、ロボット工学、自動化、研究モデルなど、専門家が現在取り組んでいる最も洗練された技術のいくつかに適用されることがよくあります。