데이터 엔지니어링 학습과정

1 minute read

데이터 엔지니어링 학습

데이터 엔지니어링을 학습하기 위해서 최근 “실무로 배우는 빅데이터 기술” 시리즈로 포스팅을 진행하고 있었다. 조금이라도 데이터 엔지니어링을 경험해보고자 하는 마음에서 해당 책과 함께 학습을 진행하였다. 하지만 너무 무작정 책 내용을 따라치기만 하면서 제대로 이해를 하고 있지 않다는 느낌이 들어 중간에 현타가 와버렸다. 그리고 사실 무슨 말인지 전혀 알 수가 없어서 더 이상 진행하는 것은 시간낭비일 것 같다는 생각이 들었다. 저 책으로 데이터 엔지니어링을 학습하는 것은 아직까지는 나에게 무리였던 것이다.

그래서 다시 데이터 엔지니어링 학습 과정을 계획해보려고 한다. 앞서 조금 발 담가보았던 데이터 엔지니어링 과정에서 기초가 많이 부족하다는 것을 깨달았으니 기초부터 조금씩 쌓아가는 커리큘럼을 계획할 것이다.

커리큘럼은 구글, 유튜브에서 다양한 로드맵을 서치하고 데이터 엔지니어 커뮤니티에 조언을 구해 구성하였다. 참고자료는 밑에 링크를 첨부해두었다.

참고한 로드맵들은 대부분 중복되는 것들이 많았다. 어떤 것들을 학습해야 할지는 대충 감을 잡았는데, 문제는 어디서부터 어떻게 배워야할지가 문제였다. 이 부분을 생각하는데 시간이 좀 걸렸는데, 백엔드를 배우는 과정과 비슷하게 진행해보려 한다. 우선 너무 깊지는 않게 기초를 탄탄하게 하고 실제 프로젝트를 하면서 배웠던 부분을 복습함과 동시에 경험을 쌓는 것이다.

이를 나는 Base, Build 두 부분으로 나누어 동시에 진행하려 한다. Base는 말 그대로 데이터 엔지니어링을 진행하기 위한 기초 작업이다. Base 단계가 단단하게 잘 이루어져야 Build 또한 신속하고 막힘없이 진행될 것이다. Build는 실제 건축단계로 데이터 엔지니어링의 툴들을 다루고 그를 바탕으로 작은 프로젝트도 진행해 볼 것이다.

우선 각각은 다음과 같은 구성으로 이루어져 있다.

  • Base: 리눅스, 자료구조&알고리즘, 백엔드(Django)&TDD, 서버 관련 지식(FTP, PGP…), 데이터베이스(SQL, NoSQL)
  • Build: 데이터 웨어하우스&파이프라인 설계, 하둡, 스파크, 카프카, 에어플로우, 도커, 클라우드

학습할 양이 굉장히 많은데, 우선 Base는 기본적으로 계속 진행하고 Build 과정에서 하나를 선택해 학습하고, 학습이 마무리되면 간단하게 프로젝트를 해볼 생각이다. 그리고 다시 하나를 선택해 학습할 것이다. 아마 진행순서는 적혀있는대로가 될 거 같다.

이 과정을 진행하기 전에 우선 “빅데이터를 지탱하는 기술”이라는 책을 읽기를 추천받았다. 해당 책이 빅데이터가 생기게 된 과정이나 DE의 전체적인 과정을 잘 알려준다고 해서 이 책을 읽고 정리 후, 다시 커리큘럼을 전체적으로 다시 검토해보아야겠다!

Reference

2021년 데이터 엔지니어링 로드맵

Modern Data Engineer ROADMAP-2021

Data Engineer Complete Roadmap 🔥 For Beginners With Resources | Best Skill Sets & Frameworks 🔥

Leave a comment