책 - 데이터는 언제나 옳다! 대규모 데이터 처리와 분석 책 읽는 소프트웨어개발자


데이터는 언제나 옳다! 대규모 데이터 처리와 분석 실무

마이클 마누체흐리 저/정부환,류상호,염화음,이화경 공역
위키북스 | 2014년 05월


이 책은 아무래도 약간은 소프트웨어 개발자들에게 도움이 많겠지만, 비전산 빅데이터 관련 기획 중인 사람에게도 어느 정도 도움이 될 것으로 생각합니다. 


책 제목에 '빅데이터'를 넣지 않았지만 개인적으로는 이 책만큼 빅데이터의 배경 지식에 대해 잘 정리해준 내용은 기억이 나지 않습니다. 


빅데이터가 왠지 마케팅 용어로 전락한 측면이 없지 않지만, 방대히 누적되는 비정형 데이터나 버려지는 자료로부터 의미 있는 정보를 만들어 내는 시장은 지속되지 않을까하는 생각이 듭니다. 


가장 중요한 것은 그러한 데이터로부터 의미를 뽑아내는 전문가 혹은 전문지식일텐데, 턱없이 부족하거나 대기업 혹은 첨단IT기업에서 일하고 있을 확률이 높을 듯하고, 일반적인 회사에서는 왠만한 의지가 없이는 시작도 못하지 않나 싶습니다. 


기술적으로는 빅데이터 관련 소프트웨어 도구나 오픈 소스 등이 계속해서 쏟아지고 있고, 점점 비전문가라 하더라도 데이터에서의 의미추출 - 마이닝 - 에 대한 공부만하면 뭔가 어렵지 않게 시작할 수 있는 방법은 늘어나리라 봅니다. 이 책에서는 예를 들면, R에서 큰 자료를 다루는 사례가 나오는데, R을 써본 사람이라면 좀 더 친근한 느낌이 들 것입니다. 


어쨌든 이 책에서는 상당히 다양한 배경 지식을 설명하고 있는데, 각종 전산 용어들에 익숙해지고 나면 다른 빅데이터 자료를 읽더라도 훨씬 이해하기 쉬울 것 같습니다.  


하둡과 맵리듀스 이외에도 실시간 처리에 중점을 두는 경쟁 서비스도 있다는 것과 대용량 분산처리 하둡 시스템의 설치 등이 익숙하지 않다면, 아마존이나 구글 등에서 제공하는 서비스들을 시험해보는 것도 좋을 것입니다. 


빅데이터에 관한 책들을 검색해 보니까, 몇 권은 괜찮아 보여서 더 읽어보려고 합니다. 


덧글

댓글 입력 영역