์ด ๋ฌธ์์ ์๋ณธ์ ์ธ๋ถ ์ํค์์ ๊ฐ์ ธ์์ต๋๋ค.
1. ๊ฐ์[ํธ์ง]
Apache Hadoop(High-Availability Distributed Object-Oriented Platform)์ ์ผ๋ฐ ์์ฉ ์๋ฒ๋ก ๊ตฌ์ฑ๋ ํด๋ฌ์คํฐ์์ ์ฌ์ฉํ ์ ์๋ ๋ถ์ฐ ํ์ผ์์คํ
๊ณผ ๋๋์ ์๋ฃ๋ฅผ ์ฒ๋ฆฌํ๊ธฐ ์ํ ๋ถ์ฐ ์ฒ๋ฆฌ ์์คํ
์ ์ ๊ณตํ๋ ์ํ์น ์ํํธ์จ์ด ์ฌ๋จ์ ์คํ ์์ค ํ๋ ์์ํฌ์ด๋ค. Java๋ฅผ ์ฌ์ฉํ์ฌ ๊ฐ๋ฐ๋์๋ค.
์๋ ๊ฒ์ ์์ง Nutch์ ๋ถ์ฐ ์ฒ๋ฆฌ๋ฅผ ์ํ์ฌ ๊ฐ๋ฐ๋์๋ค. ์ผํ!์ ์ฌ์ง ์ค์ด๋ ํ๋ก๊ทธ๋๋จธ ๋๊ทธ ์ปคํ ์ด ์ฒ์ ๊ฐ๋ฐํ์๊ณ , ์ดํ ํ๋ก์ ํธ๊ฐ ์ํ์น ์ฌ๋จ์ผ๋ก ๋์ด๊ฐ ๋ค์ ํด๋นํ๋ ์ฝ๋๋ฅผ ๋ถ๋ฆฌ์์ผ ๋ ์ ํ๋ก์ ํธ๋ก ๋ฐ์ ํด ๋๊ฐ๋ค๊ณ ํ๋ค.
๋ง์ค์ฝํธ๋ ์ฝ๋ผ๋ฆฌ์ธ๋ฐ, ๋๊ทธ ์ปคํ ์ด ์๋ค์ด ๊ฐ์ง๊ณ ๋๋ ์ฝ๋ผ๋ฆฌ ์ฅ๋๊ฐ์ ๋ณด๊ณ ์ง์๋ค๊ณ ํ๋ค. ์ฐธ๊ณ ๋ก ํ์ ํ๋ก์ ํธ๋ ์๋น์๊ฐ ๋๋ฌผ ์ด๋ฆ์ ๋ฐ์๋ค(ํ์กฐ#, ํ๋ง# ๋ฑ).
์๋ ๊ฒ์ ์์ง Nutch์ ๋ถ์ฐ ์ฒ๋ฆฌ๋ฅผ ์ํ์ฌ ๊ฐ๋ฐ๋์๋ค. ์ผํ!์ ์ฌ์ง ์ค์ด๋ ํ๋ก๊ทธ๋๋จธ ๋๊ทธ ์ปคํ ์ด ์ฒ์ ๊ฐ๋ฐํ์๊ณ , ์ดํ ํ๋ก์ ํธ๊ฐ ์ํ์น ์ฌ๋จ์ผ๋ก ๋์ด๊ฐ ๋ค์ ํด๋นํ๋ ์ฝ๋๋ฅผ ๋ถ๋ฆฌ์์ผ ๋ ์ ํ๋ก์ ํธ๋ก ๋ฐ์ ํด ๋๊ฐ๋ค๊ณ ํ๋ค.
๋ง์ค์ฝํธ๋ ์ฝ๋ผ๋ฆฌ์ธ๋ฐ, ๋๊ทธ ์ปคํ ์ด ์๋ค์ด ๊ฐ์ง๊ณ ๋๋ ์ฝ๋ผ๋ฆฌ ์ฅ๋๊ฐ์ ๋ณด๊ณ ์ง์๋ค๊ณ ํ๋ค. ์ฐธ๊ณ ๋ก ํ์ ํ๋ก์ ํธ๋ ์๋น์๊ฐ ๋๋ฌผ ์ด๋ฆ์ ๋ฐ์๋ค(ํ์กฐ#, ํ๋ง# ๋ฑ).
2. ๊ตฌ์กฐ[ํธ์ง]
2.x ๋ฒ์ ์์๋ ๊ณตํต๋ชจ๋์ธ Hadoop Common, ์ค์ผ์ค๋ฌ์ ํด๋ฌ์คํฐ ๊ด๋ฆฌ ๋ชจ๋์ธ Hadoop YARN, NoSQL ๋ฐ์ดํฐ๋ฒ ์ด์ค์ธ Hadoop HBase, ๋ถ์ฐ ํ์ผ์์คํ
HDFS(Hadoop Distributed File System), ๋ถ์ฐ์ฒ๋ฆฌ ์์คํ
Hadoop Map Reduce๋ก ๊ตฌ์ฑ๋์ด ์๋ค. ํนํ Map Reduce์ HDFS๋ ๊ตฌ๊ธ์ Map Reduce์ Google File System(GFS) ๋
ผ๋ฌธ์ ๋ณด๊ณ ์คํ ์์ค๋ก ๊ตฌํํ ๊ฒ์ด๋ค.
๊ธฐ์กด์ 1.x ๋ฒ์ ์์๋ Map Reduce์ HDFS๋ก๋ง ๊ตฌํ๋์ด ์์๊ณ Hadoop YARN์ ResourceManager ๊ธฐ๋ฅ์ Map Reduce์ JobTracker๋ผ๋ ์ด๋ฆ์ผ๋ก ์กด์ฌํ๊ณ ์์๋ค. ๋ํ ์์ง๊น์ง๋ Java 8 ์ดํ์ ๋ฒ์ ๊ณผ๋ง ํธํ๋๋ฉฐ, Java 9๋ถํฐ๋ ๋ชจ๋ ์์คํ ๊ณผ์ ํธํ์ฑ ๋๋ฌธ์ ๋ฌธ์ ๊ฐ ๋ฐ์ํ ์ ์์ผ๋ ์ฐธ๊ณ ํ์.
๊ธฐ์กด์ 1.x ๋ฒ์ ์์๋ Map Reduce์ HDFS๋ก๋ง ๊ตฌํ๋์ด ์์๊ณ Hadoop YARN์ ResourceManager ๊ธฐ๋ฅ์ Map Reduce์ JobTracker๋ผ๋ ์ด๋ฆ์ผ๋ก ์กด์ฌํ๊ณ ์์๋ค. ๋ํ ์์ง๊น์ง๋ Java 8 ์ดํ์ ๋ฒ์ ๊ณผ๋ง ํธํ๋๋ฉฐ, Java 9๋ถํฐ๋ ๋ชจ๋ ์์คํ ๊ณผ์ ํธํ์ฑ ๋๋ฌธ์ ๋ฌธ์ ๊ฐ ๋ฐ์ํ ์ ์์ผ๋ ์ฐธ๊ณ ํ์.
3. ์ฌ์ฉ ์์[ํธ์ง]
์ฌ์ฉ์ ํฐ ์ ํ์ด ์๋ ์ํ์น ๋ผ์ด์ ์ค๋ฅผ ๊ฐ์ง๊ณ ์๊ธฐ ๋๋ฌธ์ Map Reduce๋ฅผ ์ด์ฉํ๊ฑฐ๋, ๋๋์ ํ์ผ ์์คํ
์ ์ฒ๋ฆฌํ๋ ๊ฒฝ์ฐ์ ์ฌ์ฉ๋๋ค. ๋ํ์ ์ผ๋ก๋ Apache Lucene(๋ฃจ์ฌ)์ ์ด์ฉํ ๊ฒ์ ์์ง์ด๋ ๊ธฐ๊ณํ์ต, ๋น
๋ฐ์ดํฐ ๋ถ์ ๋ฑ ์ฌ๋ฌ ๋ถ์ผ์์ ์ฌ์ฉ๋๊ณ ์๋ค.