์ด ๋ฌธ์„œ์˜ ์›๋ณธ์€ ์™ธ๋ถ€ ์œ„ํ‚ค์—์„œ ๊ฐ€์ ธ์™”์Šต๋‹ˆ๋‹ค.
1. ๊ฐœ์š”2. ์ƒ์„ธ3. ๊ฐ™์ด๋ณด๊ธฐ


1. ๊ฐœ์š”[ํŽธ์ง‘]

Deep Deterministic Policy Gradient (์‹ฌ์ธต ๊ฒฐ์ •๋ก ์  ์ •์ฑ… ๊ฒฝ์‚ฌ๋ฒ•)
๊ฐ•ํ™”ํ•™์Šต์˜ ํ•œ ๋ฐฉ๋ฒ•์œผ๋กœ์จ 2016๋…„์— ๊ตฌ๊ธ€ ๋”ฅ๋งˆ์ธ๋“œ ์—ฐ๊ตฌ์ง„ TP. Lillicrap๋“ฑ์— ์˜ํ•ด ์ œ์•ˆ๋˜์—ˆ๋‹ค.

2. ์ƒ์„ธ[ํŽธ์ง‘]

๋ณธ ๊ธฐ๋ฒ•์€ ๊ธฐ์กด 2014๋…„, D. Silver(2014)์— ์˜ํ•ด ์ œ์•ˆ๋œ Deterministic Policy Gradient (DPG)์™€ V. Mnih(2015)๊ฐ€ ์ œ์•ˆํ•œ DQN ์—ฐ๊ตฌ์—์„œ ์•„์ด๋””์–ด๋ฅผ ์–ป์—ˆ๋‹ค. ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ๊ธฐ๋ฐ˜์€ off-policy, continuous actor-critic์ด๋ผ๋Š” DPG์•Œ๊ณ ๋ฆฌ์ฆ˜์— ๊ธฐ๋ฐ˜์„ ๋‘๊ณ  ์žˆ์œผ๋‚˜, ์ข€ ๋” ๋ณต์žก์„ฑ ๋†’์€ ํ•™์Šต์„ ์ˆ˜ํ–‰ํ•˜๊ธฐ ์œ„ํ•˜์—ฌ ๋”ฅ๋Ÿฌ๋‹์„ ํ•จ๊ป˜ ์‚ฌ์šฉํ•˜๋ ค ์‹œ๋„ํ–ˆ๋‹ค. ๊ทธ๋Ÿฌ๊ธฐ ์œ„ํ•ด ๋”ฅ๋Ÿฌ๋‹์ด ๊ฐ–๋Š” ๋ฐœ์‚ฐ์„ฑ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด DQN์—์„œ ์ œ์•ˆํ•œ soft update ๋ฐ batch learning์„ ๋„์ž…ํ•˜์˜€๋‹ค. ๊ทธ ๊ฒฐ๊ณผ, ๋ณต์žกํ•œ ์ œ์–ด์ •์ฑ…์„ ์•ˆ์ •์ ์œผ๋กœ ์ˆ˜๋ ด์‹œํ‚ค๋Š” ๊ฐ•ํ™”ํ•™์Šต์— ์„ฑ๊ณตํ•˜์˜€๋‹ค. ๋ณธ ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด ๋ฐœํ‘œ๋œ ์ฒซ ๋…ผ๋ฌธ์ธ TP. Lillicrap(2016)์—์„œ๋Š” ์ปดํ“จํ„ฐ๊ฐ€ Atari game์„ ๋ฐฐ์šฐ๋„๋ก ํ•™์Šต์‹œ์ผฐ๋Š”๋ฐ, ๊ทธ ๊ฒฐ๊ณผ ๋†€๋ž๊ฒŒ๋„ ๋งŽ์€ ๊ฒŒ์ž„์—์„œ ์ธ๊ฐ„์˜ ์ˆ˜์ค€์„ ๋›ฐ์–ด๋„˜๋Š” ํ”Œ๋ ˆ์ด๋ฅผ ํ•˜๋„๋ก ํ•™์Šต๋˜์—ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์„ฑ๊ณต์— ๋”ฐ๋ผ ๋งŽ์€ ์—ฐ๊ตฌ์ง„๋“ค์ด ์ด ํ•™์Šต๋ฐฉ์‹์— ๊ด€์‹ฌ์„ ๊ฐ€์ง€๊ณ  ์žˆ๋‹ค. DDPG๋Š” ์˜คํžˆ๋ ค atari๋ณด๋‹ค๋Š” continuos action space, ๊ทธ๋‹ˆ๊นŒ ๋กœ๋ด‡์˜ ํŒ”์„ ์›€์ง์ด๋Š” ๋“ฑ์˜ ์ •์ฑ…๋ง์—์„œ ๋น›์„ ๋ฐœํ•œ๋‹ค.

3. ๊ฐ™์ด๋ณด๊ธฐ[ํŽธ์ง‘]

Google deepmind์˜ ์ธ๊ณต์‹ ๊ฒฝ๋ง ์—ฐ๊ตฌ DQN, DDPG, A3C , UNREAL
Google deepmind์˜ ์ธ๊ณต์ง€๋Šฅ ์—ฐ๊ตฌ AlphaGo