관리 메뉴

지식을 연주하는 사람

데이터과학 블로그, 2015년 한해를 정리하며 본문

Ph.D Course/Data Science

데이터과학 블로그, 2015년 한해를 정리하며

지식 연주가 Knowledge Designer 2015.12.27 03:19

올해 제 블로그의 큰 주제는 <데이터과학> 입니다. 융합적인 분야라고는 하나 기술적 논의가 많은 대표적 분야입니다. 전문가들간의 교류는 많으나 일반적 관점과의 간극은 존재했고, 그것을 메우는 전달에 대한 갈증을 느꼈습니다. 개인적으로는 개방과 연결의 가치를 믿기에 더욱 그러했습니다. 


저는 기술적으로 뛰어나지는 않지만 쉽게 풀어내는 데는 약간의 재주가 있는 듯 합니다. 그래서 전문적인 컨텐츠를 번역하거나 쉽게 풀어서 전달하도록 노력했습니다. 이 과정을 통해서 부족함을 절실히 느꼈고, 많은 것을 배울 수 있었습니다.


내년 저의 목표는 '데이터 커뮤니케이터'입니다. 데이터과학에서 전문성과 대중성 사이의 연결 그리고 커뮤니케이션 채널이 되고자 합니다. 많은 공부와 도움이 절실합니다. 올해를 마무리하며 제작한 컨텐츠 중 몇가지를 요약, 소개합니다. 이 분야를 공부하고자 하는 분들에게 작게나마 도움이 되었으면 좋겠습니다.



제가 운영하는 블로그입니다. <지식을 연주하는 사람>이라는 이름으로 데이터과학, 경영학, 독서 등의 컨텐츠를 제작하고 있습니다. 아래의 모든 컨텐츠는 제가 이 블로그에서 발행한 것을 재구성한 것입니다. 




<데이터과학 분야를 무료로 배울 수 있는 방법>

http://keyassist.tistory.com/283

데이터과학 분야를 개괄적으로 이해할 수 있는 10가지 가이드라인을 제공합니다. 해외의 기사를 발췌, 번역, 재구성하여 제작하였습니다.


데이터과학자 각 분야에 대한 이해도나 실제로 만들어내는 역량은 다소 부족하지만, 각각을 어떻게 이어나가 일로 만들어낼지는 아는 사람이라고 생각합니다. 좋은 데이터과학자는 outside the box 방식으로 무엇이 가능한지 이해하고 데이터를 현실의 필요와 기술 사이에서 연결하는 사람이라고 할 수 있습니다. 또한 데이터로 부터 인간의 행동을 읽어내고 명확하게 비즈니스적으로 이어내는 사람이라고 볼수도 있습니다.


1. 데이터 속성에 대해 이해하기

2. 데이터 과학자에 대해 이해하기

3. 링크에 나와있는 13가지 TED 영상을 시청해보세요. http://goo.gl/KgzM2z

4. 한스로슬링의 영상을 시청해보세요. http://goo.gl/KnTxEx

5. Partially Derivative 라는 팟캐스트를 구독해보세요. http://goo.gl/YL3C12

6. University of Washington’s Introduction to Data Science 코스(https://goo.gl/Cb6YdV)나 Computing for data analysis(https://goo.gl/7FKmfi)로 입문해보세요.

7. 이 깃허브링크를 수시로 살펴보세요. https://goo.gl/Hk4Z12

8. http://www.measureofamerica.org  이 페이지를 통해 데이터가 어떠한 차이를 만들어내는지에 대해 이해해보세요.

9. 부즈앨런에서 펴낸 Field Guide to Data Sciences 문서 읽어보세요. http://goo.gl/Zh0gEY

10. 이 인포그래픽에 나와있는대로 따라해보세요. http://goo.gl/aPHi8E




<앞으로 데이터분석을 시작하려는 사람을 위한 책>

http://keyassist.tistory.com/281

데이터과학 분야를 공부하려는 분들에게 가장 먼저 추천하는 책입니다. 이 책을 읽고 중요한 부분을 발췌, 정리해놓았습니다.


이 책은 데이터 과학에 대해 입문하려는 사람에게 적절한 책입니다. 단순하게 분석사례를 서술한 기술서가 아니라 분석의 필요성, 의미, 그것을 위한 기반지식까지 상당히 쉽게 안내하고 있습니다. 빅데이터라는 단어와 함께 필요이상으로 남발하는 '데이터 분석' 분야에 대해 체계적으로 설명하고 있으니, 읽고 나면 전체적인 감을 잡으실 수 있습니다. 책 자체가 그리 두꺼운 편이 아니고 내용도 쉽게 기술되어 있기 때문에 전문을 읽는데 그리 오랜 시간이 걸리지는 않습니다. 




<데이터 과학자로의 첫걸음. 슬로우 데이트 프로젝트>

http://keyassist.tistory.com/216

데이터과학 분야에 들어와 실질적으로 처음 수행한 프로젝트입니다. 서울의 1~8호선 유동량 데이터를 수집해, 유동인구 변화 추이를 기준으로 데이트 스팟을 추천하는 내용의 컨텐츠입니다. 


공공데이터로 개방된 서울의 1~8호선 유동량 데이터를 수집하기로 했습니다. 거주지의 특성과 유동인구의 상관관계 등 여러가지를 살펴보다가. 문득, 크리스마스 이브에 잠실역 지하철 승하차 인원이 급증하는 것을 발견합니다. 이러한 호기심에서 출발하여 갑자기 몰리는 역이 있다면 그렇지 않은 역도 있을 것이라는 생각을 하게 되었습니다. 


평상시의 유동인구보다는 사람이 몰리는 시간과 의미있는 날에 대해서 분석을 해보기로 했고, 이는 평일인 기념일에 대해서 역간 유동인구가 어떠한 차이가 있을지 살펴보는 단계로 진행됩니다. 다음으로는 평일날 퇴근하고 데이트를 할 시간을 기준으로 평일평균과 기념일평균을 비교해서 의미있는 데이트 장소를 추천하는 프로젝트로 구체화되었고, 최종적으로 여유있고 느린 데이트 장소를 추천하는 <슬로우 데이트> 프로젝트로 발전하게 되었습니다.


더불어, 프로젝트를 실제로 하며 느꼈던 점도 정리해보았습니다.

1. 고통의 지점에서 출발하면 됩니다.

2. 가설과 정보디자인이 우선되어야 합니다. 

3. 컨텍스트를 명확히 해야 합니다.

4. 팀으로서 시너지를 발휘하는 데 중점을 두어야 합니다.




<데이터과학의 의미에 관하여>

http://keyassist.tistory.com/290

데이터과학에 대해 공부하며 '데이터'가 가지는 의미는 무엇인지, 어떤 성질의 것이기에 주목받고 있는지에 대해서 풀어본 컨텐츠입니다. 분석하는 기술보다 의미를 뽑아내는 능력에 좀 더 치우진 내용의 글이기도 합니다. 


데이터과학의 의미는 '데이터'와 함께한다에  생각합니다. 데이터를 중심에 놓고 산업의 구도를 재편하듯이, 부차적인 수단으로서의 데이터가 아니라. 프로세스에서 항상 고려되는 요소로서 데이터를 바라보는 것입니다. 그래서 저는 데이터과학이 어떤 하나의 기술이나 방법 이전에 컨셉이라고 판단합니다. 데이터에 기반하여 생각하고 문제에 접근하며 결국에는 해결해내는 프로세스로 말입니다. 데이터과학의 목적은 데이터가 의미하는 바를 제대로 끌어내는 데 있습니다. 그러기 위해서 과학적인 방법을 통해 일하는 것입니다. 그래서 '빅'이라는 사이즈보다 '어떻게' 라는 방법과 사고방식이 더 중요하다고 생각합니다. 




<데이터과학에 대해 제대로 배우는 방법>

http://keyassist.tistory.com/263

데이터과학 분야를 어떻게 배우는지에 대해 영문으로 작성된 컨텐츠를 번역, 재구성해 만든 글입니다. 실제의 경험을 통해 습득하는 것의 중요성, 그리고 스스로 동기부여되는 것의 필요성에 대해 역설하고 있습니다.


 지금은 데이터과학의 적기입니다. 이 분야는 새로우며 매우 빠르게 성장하고 있고, 데이터 과학자에 대한 수요는 아주 크지요. 이러한 수요와 공급의 차이는 사람들이 데이터과학을 배워야할 이유가 됩니다. 데이터과학을 배우는 첫번째 단계로 사람들은 이러한 질문을 합니다. "데이터 과학을 배우려면 어떻게 해야하죠" 라고. 어떤 맥락적 고려없이 그저 방대한 양의 배워야할 목록이 주어지는 것은 전혀 동기부여되지 않는 일입니다. 


어떤 사람들은 책으로부터 배우는 것이 최선일지 모릅니다 하지만 저는 아니었습다. 뭔가를 시도함으로서 배우는 것이 최선이었고, 동기부여되었을 때, 그리고 왜 이것을 익혀야 하는지 알고 있을 때야말로 제대로 배울 수 있었습니다. 데이터과학에 대해 배우고 싶다면 선형대수나 통계를 익히는 것이 첫걸음이 아니라 데이터를 좋아하고 그걸 위한 방법을 찾아내는 것이 우선이 되어야 합니다.




<디지털화와 데이터의 연결>

http://keyassist.tistory.com/294

데이터과학 분야의 성장을 디지털과 개방이라는 관점에서 풀어본 글입니다. 인터넷의 아버지인 팀버너스리와 미디어랩의 소장이었던 니콜라스 네그로폰테의 활동, 저술을 통해 큰 흐름에서 데이터과학이 걸어온 길과 미래를 전망합니다.


 데이터과학은 최근에 큰 주목을 받고 있습니다. 데이터시각화, 데이터분석 등이 대표적입니다. 그 중에 링크드 데이터(Linked data) 라는 개념이 있습니다. 웹상에 존재하는 데이터를 개별인자로 식별하고, 링크로 연결해 상호연결된 웹을 지향하는 것입니다. 그 핵심은 데이터를 연결시키고 개방한다는데 있습니다. 그리고 그것은 디지털(Digital)과 개방(Open)에 기반을 두고 있습니다. 데이터과학도 이 커다란 흐름 속에서 변화되어가는 것이 아닌가 생각합니다. 


데이터 드리븐(Data Driven) 은 어려운 개념이 아닙니다. 데이터가 익숙해지고 데이터가 무언가의 창출원천이 되는 것이 것이며, 데이터의 주소가 연결되면 그것이 링크트 데이터입니다. 기계와 사람, 사람과 기계가 더욱 효과적으로 상호작용하는 세상, 데이터의 연결이 만들어낼 미래입니다. <Being Digital> 의 모습입니다.





<세이버 메트릭스>

http://keyassist.tistory.com/209

데이터과학 분야가 대중적으로 알려지게 된 것은 빌리빈의 실화를 바탕으로 한 영화 '머니볼'의 개봉이 있었습니다. 영화 '머니볼'에서 다뤄지고 있는 것, 야구를 통계적 관점에서 보는, 세이버 메트릭스에 대해 살펴봄으로써 데이터과학이 나아가야 할 길에 대해 전망합니다.


Sabermetrics, 세이버메트릭스는 여러가지 수리적 방법론을 동원해 야구라는 스포츠를 쪼개 분해하는 행위를 일컫는 말입니다. 세이버메트리션은 그것을 하는 사람들을 의미합니다. 세이버메트릭스가 주목받게 된 것은 빌리빈의 머니볼이 계기가 되었다고 할 수 있습니다. 예산이 한정적인 소규모 구단인 오클랜드가 머니볼을 도입하면서 좋은 성적을 얻게 되면서 화제를 얻게 됩니다. 그런데 일반적으로 잘 알려지지 않은 사실이 있습니다. 빌리빈의 오른팔인 폴 디포네스타가 LA다저스 단장을 맡게 되면서 구단을 말아먹은 사례가 있다는 것입니다. 오히려 2000년대 중후반 보스턴 레드삭스가 다수의 세이버메트리션들을 기용하면서 우승을 두번이나 했다는 것이 보다 적합한 성공사례가 아닐까 합니다. 하지만 오클랜드의 머니볼 사례가 야구계가 세이버메르릭스를 도입하는 데 중요한 역할을 했음은 부인할 수 없습니다.




<데이터 시각화란 무엇인가>

http://keyassist.tistory.com/264

데이터시각화는 최근에 주목받게 된 용어입니다. 그 의미는 무엇이며, 기존에 쓰이던 인포그래픽과는 어떤 차이가 있는지 원문 텍스트의 재구성을 통해 살펴보았습니다.


데이터 시각화란 데이터를 비주얼의 형태로 보여주는 것을 의미합니다. 다른 말로 표현하면 통계나 수치적 데이터의 의미를 제대로 전달하기 위해 비주얼의 형태로 보여주는 것을 말합니다. 시각화는 데이터를 탐색하고 이해하는 것을 돕는 것을 목표로 합니다. 전문가들은 시각적으로 표현된 데이터는 데이터가 의미하는 것을 보다 잘 커뮤니케이션할 수 있게 한다고 말합니다. 또한 이를 통해 이해하기 어려울 것이라 생각되는 거대한 데이터를 분석하고 이해할 수도 있습니다. 인포그래픽은 데이터 시각화와 비슷하지만 두가지가 완전히 같은 것은 아닙니다. 인포그래픽은 특정 고객에게 특정한 이야기를 전달되기 위해 만들어졌습니다. 이미지나 정보를 포함하고 있을지도 모르나, 일반적으로 데이터를 포함하고 있지는 않습니다. 인포그래픽은 데이터 시각화에 비해 디자인적 감각에 좀 더 치우쳐 있는 것 같습니다.




<데이터시각화는 언제 기능하는가?>

http://keyassist.tistory.com/280

하버드 비즈니스 리뷰에서 2013년 3월에 발표한 "When Data Visualization Works — And When It Doesn’t" 라는 제목의 기사를 발췌해서 해석, 정리한 글입니다. 데이터 시각화의 목적을 돌아보고 어떠한 관점으로 접근해야 하는지, 또한 무엇을 고려해야 하는지를 이야기하고 있습니다. 


 데이터 시각화 작업을 할 때 고려해야 할 사항입니다. 데이터 퀄리티컨텍스트 그리고 편향성입니다. 첫번째로 데이터 퀄리티입니다. 데이터 퀄리티를 신뢰할 수 있어야 시각화의 결과 역시 신뢰할 수 있습니다. 단순히 많이 모으는 것이 중요한 것이 아니라 잘 정제된 데이터를 통해 좋은 시각화를 만들어내는 것이 중요합니다. 두번째는 컨텍스트입니다. 데이터 시각화에서 가장 염두에 두어야 할 부분인데요. 많은 양의 데이터를 분석하고 시각화를 하는 작업은 인사이트를 얻거나 패턴을 인식하는 등의 맥락적 활동의 일환이 되어야 한다고 언급하고 있습니다. 마지막으로 편향성입니다. 기존의 가설을 입증하기 위해 데이터를 더하거나 빼는 등의 행위를 하게되면 분석의 의미가 왜곡될 수 있습니다. 데이터를 있는 그대로 바라보고 그 상태에서 인사이트나 맥락을 이끌어내는 것이 중요합니다.




<데이터 시각화, 그리고 과학>

http://goo.gl/8gB9iB

데이터시각화, 그리고 데이터과학에 대해 작성한 약 40페이지의 슬라이드입니다. 데이터과학에 대해 대략적으로 이해할 수 있도록 장표, 텍스트, 영상을 첨부해놓았습니다. 개략적 수준에서의 이해를 도울 수 있는 자료라 생각됩니다.


 




<데이터 시각화 도구 선택하기>

http://keyassist.tistory.com/271

데이터과학 분야를 공부하다보면 어떤 도구를 통해 컨텐츠를 제작해야하는지에 대한 고민을 하게 됩니다. 각 도구, 언어별로 어떤 특성을 가지고 있으며, 어떠한 목적으로 사용할 수 있는지에 대해 정리해보았습니다.


 




<데이터시각화 언어 D3.js>

http://keyassist.tistory.com/261

데이터시각화 분야에서 가장 강력한 언어중 하나인 d3.js에 대해 살펴보는 글입니다.


 데이터 분석과 시각화가 주목을 받으면서 관련된 언어선택의 이슈에 맞닿게 됩니다. 자신에게 맞는 언어를 찾아 숙련도를 높여야 하는거죠. 그러기 위해서는 각 언어에 대해 알아야 합니다. 그래서 이번에는 시각화의 대표적 언어라 할 수 있는 D3.js 를 소개합니다. 오픈소스이기 때문에 구하기도 쉽고 마찬가지로 라이브러리도 많기에 시각화를 처음 접하는 분들이 쓰기 좋은 언어입니다. D3.js 는 시각화 전문 프로그램은 아니나, 전문 프로그램에 준하는 효과를 낼 수 있는 오픈소스 라이브러리로 볼 수 있습니다. 개인이 사용하기에는 오히려 적합할 수 있습니다. 라이센스 비용이 들지 않고 R 처럼 오픈소스이기 때문에 빠른 속도로 개선되고 확장되고 있기 때문입니다.




<데이터 분석의 중요성과 역할에 대한 관련 전공자의 생각>

http://keyassist.tistory.com/124

2014년에 매일경제 월드컵팀에서 데이터 콜렉터로 일하면서 느꼈던 점을 정리한 텍스트입니다. 실무에서의 데이터 분석이 어떻게 기능하고 어떠한 역할을 해야하는지 적어보았습니다.


1. 정보를 찾고 분석하는 능력은 더욱 주목받을 것이다. 정보는 너무나 많고 시간은 부족하다. 빅데이터 분석의 중요성은 바로 여기에 있다.

2. 데이터 분석은 단순히 정보를 수집하고 수치를 뽑아내는 것이 아니다. 콘텍스트를 해석하고 의미있게 재창조해야 한다. 분석역량 못지 않게 기반지식이 중요한 이유다. 생각하는 능력이 분석에 앞선다.
3. 팀으로서의 조합이 중요하다. 일의 역량 못지 않게 인간성도 중요하다. 하나만 갖추고서는 제대로 기능할 수 없다. 점점 시스템의 경쟁으로 가고 있다.
4. 자신이 무엇을 원하는지를 명확하게 알고 있으면 성장이 빠르다. 기회를 제대로 활용할 수 있다. 단순한 경험이 아니라 증명하고 성장하는 시간으로 삼아야 한다.




데이터 커뮤니케이터를 꿈꾸는 경영학도

Convergence Business Designer

E-mail   .    youngwung.kim@쥐메일닷컴

Facebook.    https://www.facebook.com/keyassist


0 Comments
댓글쓰기 폼