실무로 배우는 빅데이터 기술(3) - 빅데이터 파일럿 프로젝트
빅데이터 파일럿 프로젝트
이제 본격적으로 빅데이터 프로젝트를 진행해볼 것이다. 책에 나와있는데로 과정을 진행할 예정이고, 전체적인 프로젝트 과정은 다음과 같다.
파일럿 프로젝트 도메인의 이해
프로젝트에서 가장 기본이 되는 것이 구축할 시스템에 대한 도메인과 그 도메인에 해당하는 유스케이스를 이해하는 것이다. 이 프로젝트는 스마트카 서비스이다.
요구사항 파악
이 프로젝트에는 두 가지 요구사항이 있다.
- 차량의 다양한 장치로부터 발생하는 로그 파일을 수집해서 기능별 상태를 점검한다.
- 운전자의 운행 정보가 담긴 로그를 실시간으로 수집해서 주행 패턴을 분석한다.
이러한 요구사항을 통해 다음과 같은 과정으로 프로젝트를 진행할 것이다.
데이터셋 살펴보기
- 스마트카 상태 정보 데이터셋
- 스마트카 운전자 운행 데이터셋
- 스마트카 마스터 데이터셋: 운전자의 프로파일 정보가 담긴 데이터셋
- 스마트카 물품구매 이력 데이터셋
빅데이터 파일럿 아키텍처 이해
소프트웨어 아키텍처
보통의 빅데이터 프로젝트에서는 수십~수백대의 하둡 클러스터 노드를 구성할 필요가 있지만 우리는 그런 환경을 구축하지 못하므로 PC 1대에 가상 머신 3대를 만들어서(클라우데라 정책 변경으로 가상 머신 2대) 빅데이터 분산 환경을 만들어 소규모 환경을 구성할 것이다.
아래의 그림을 보면 전체적인 아키텍처를 이해할 수 있을 것이다.
하드웨어 아키텍처
빅데이터의 하드웨어 아키텍처는 3V의 관점으로 구성한다. 이번 파일럿 프로젝트는 대규모 환경을 구성하지는 못하고, 나는 저사양 PC의 환경으로 구축할 예정이다.
빅데이터 파일럿 프로젝트용 PC 환경 구성
다운받아야 할 프로그램 목록이다.
- 자바
- 이클립스
- 버추얼 박스
- CentOS
- PuTTY
- 파일질라
- 클라우데라 매니저
- 하둡
- 주키퍼
설치해야할 것들이 굉장히 많다.
근데 가상머신을 시작하는 과정에서 자꾸만 가상 머신을 실행할 수 없다는 에러가 떴다. 구글링해서 확장팩도 깔아보고 혹시나 CentOS 버전이 안 맞아서 그런건가 싶어 다른 버전도 깔아보고 했는데도 안됐다 ㅠㅠ. 포기하려던 찰나 어떤 분이 네이버 e-book을 설치할 때 Fasso DRM이 같이 깔리는데 이게 가상 머신과 충돌한다는 포스트를 보았다. 네이버 e-book은 없지만 교보문고 e-book이 깔려 있었던 나는 혹시나 하는 마음으로 제어판을 열어봤는데…
나도 있었다!!! 제발 이것만 지우면 돼라라는 마음에 삭제를 하고 떨리는 마음으로 가상머신을 실행했더니…
드디어 됐다 ㅠㅠ 정말 엄청 삽질을 했는데… 역시 코딩은 이런 맛으로 배우는 거 아니겠나. 찾아보니 Fasso DRM 자체가 말이 굉장히 많은 프로그램이었다. 가상머신 뿐만 아니라 게임이나 기타 다른 프로그램들과도 충돌을 일으켜 사람들의 원성이 자자했다… 그래도 해결되어서 정말 다행이다.
그 뒤도 책의 내용과는 조금 달라서 고생했다. 책에서는 centos6을 쓰지만 이제 그 버전은 지원이 종료되어서 나는 centos7로 사용하였다. 아마 다른 분들도 환경설정하는데 굉장히 애먹었을 것이라고 생각한다. 나는 구글링으로 열심히 비교해가면서 환경설정을 마치긴 했는데, 사실 나도 정확히 한지는 잘 모르겠다… 우선 확인했을 때 되기는 했으니까 괜찮다고 생각한다.
클라우데라의 정책이 바뀌어서 위의 방법으로 해도 어차피 설치가 불가능하다는 것을 나중에 첨부된 자료를 보고 알았다… 그래도 혹시 모르니 아예 지우지는 않고 취소선으로 내용을 삭제했다. 책에서 제시해 준 자료를 통해 가상서버를 구축하니 아주 편하게 완료되었다. 설치 과정은 쉽게 끝났으니 무얼 하는 것이 좋을까 생각하다가 방금까지 설치한 툴들의 간단한 기능이나 사용법을 적는 것도 좋겠다 싶어서 각 툴들에 대해 적어보려 한다.
(해당 내용은 학습하는데 시간도 오래 걸리고 해서 부록형식으로 빼두면 좋을 거 같아 따로 빼두었습니다.)
자료에 설명된대로 기본적인 설치는 모두 완료가 되었다. 다음 시간부터 본격적인 빅데이터 분석을 위한 절차를 밟아보도록 하자!
Leave a comment