๋ถ๋ฅ:์ธ๊ณต์ง๋ฅ
์ด ๋ฌธ์์ ์๋ณธ์ ์ธ๋ถ ์ํค์์ ๊ฐ์ ธ์์ต๋๋ค.
1. ๊ฐ์[ํธ์ง]
Deep Deterministic Policy Gradient (์ฌ์ธต ๊ฒฐ์ ๋ก ์ ์ ์ฑ
๊ฒฝ์ฌ๋ฒ)
๊ฐํํ์ต์ ํ ๋ฐฉ๋ฒ์ผ๋ก์จ 2016๋ ์ ๊ตฌ๊ธ ๋ฅ๋ง์ธ๋ ์ฐ๊ตฌ์ง TP. Lillicrap๋ฑ์ ์ํด ์ ์๋์๋ค.
๊ฐํํ์ต์ ํ ๋ฐฉ๋ฒ์ผ๋ก์จ 2016๋ ์ ๊ตฌ๊ธ ๋ฅ๋ง์ธ๋ ์ฐ๊ตฌ์ง TP. Lillicrap๋ฑ์ ์ํด ์ ์๋์๋ค.
2. ์์ธ[ํธ์ง]
๋ณธ ๊ธฐ๋ฒ์ ๊ธฐ์กด 2014๋
, D. Silver(2014)์ ์ํด ์ ์๋ Deterministic Policy Gradient (DPG)์ V. Mnih(2015)๊ฐ ์ ์ํ DQN ์ฐ๊ตฌ์์ ์์ด๋์ด๋ฅผ ์ป์๋ค. ์๊ณ ๋ฆฌ์ฆ์ ๊ธฐ๋ฐ์ off-policy, continuous actor-critic์ด๋ผ๋ DPG์๊ณ ๋ฆฌ์ฆ์ ๊ธฐ๋ฐ์ ๋๊ณ ์์ผ๋, ์ข ๋ ๋ณต์ก์ฑ ๋์ ํ์ต์ ์ํํ๊ธฐ ์ํ์ฌ ๋ฅ๋ฌ๋์ ํจ๊ป ์ฌ์ฉํ๋ ค ์๋ํ๋ค. ๊ทธ๋ฌ๊ธฐ ์ํด ๋ฅ๋ฌ๋์ด ๊ฐ๋ ๋ฐ์ฐ์ฑ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด DQN์์ ์ ์ํ soft update ๋ฐ batch learning์ ๋์
ํ์๋ค. ๊ทธ ๊ฒฐ๊ณผ, ๋ณต์กํ ์ ์ด์ ์ฑ
์ ์์ ์ ์ผ๋ก ์๋ ด์ํค๋ ๊ฐํํ์ต์ ์ฑ๊ณตํ์๋ค. ๋ณธ ์๊ณ ๋ฆฌ์ฆ์ด ๋ฐํ๋ ์ฒซ ๋
ผ๋ฌธ์ธ TP. Lillicrap(2016)์์๋ ์ปดํจํฐ๊ฐ Atari game์ ๋ฐฐ์ฐ๋๋ก ํ์ต์์ผฐ๋๋ฐ, ๊ทธ ๊ฒฐ๊ณผ ๋๋๊ฒ๋ ๋ง์ ๊ฒ์์์ ์ธ๊ฐ์ ์์ค์ ๋ฐ์ด๋๋ ํ๋ ์ด๋ฅผ ํ๋๋ก ํ์ต๋์๋ค. ์ด๋ฌํ ์ฑ๊ณต์ ๋ฐ๋ผ ๋ง์ ์ฐ๊ตฌ์ง๋ค์ด ์ด ํ์ต๋ฐฉ์์ ๊ด์ฌ์ ๊ฐ์ง๊ณ ์๋ค. DDPG๋ ์คํ๋ ค atari๋ณด๋ค๋ continuos action space, ๊ทธ๋๊น ๋ก๋ด์ ํ์ ์์ง์ด๋ ๋ฑ์ ์ ์ฑ
๋ง์์ ๋น์ ๋ฐํ๋ค.