관리 메뉴

지식을 연주하는 사람

데이터 과학자로의 첫걸음. 슬로우 데이트 프로젝트 본문

Ph.D Course/Data Science

데이터 과학자로의 첫걸음. 슬로우 데이트 프로젝트

지식 연주가 Knowledge Designer 2015.06.01 23:12

저는 데이터 사이언티스트를 꿈꾸는 대학원생입니다. 그로 가는 첫번째 걸음이라고 할 수 있는 프로그램을 어제 끝마쳤습니다. 바로 "꿈꾸는 데이터 디자이너"입니다. 꿈.데.디는 서울시와 뉴로어오시에이츠가 공동운영하는 데이터의 수집, 정제, 분석, 시각화를 배우는 프로그램입니다. 


프로젝트를 끝마치고 시각화된 결과를 얻게 된 것도 좋았지만, 실제로 데이터를 다루고 분석해보면서 제가 어떤 역할에 적합한지 알게 된 것은 큰 수확입니다. 이런 경험들이 데이터 과학자로의 길에 의미있는 역할을 할 것이라고 생각합니다.


2015년 1월부터 5월까지 이어진 이 프로그램을 통해 발표한 프로젝트 <슬로우 데이트>의 과정과 결과를 간략하게 공유합니다.



<슬로우 데이트> 문제제기에서 출발하다.


무슨 데이터를 가지고 분석을 해볼까하다가 공공데이터로 개방된 서울의 1~8호선 유동량 데이터를 수집하기로 했습니다. 거주지의 특성과 유동인구의 상관관계 등 여러가지를 살펴보다가. 문득, 크리스마스 이브에 잠실역 지하철 승하차 인원이 급증하는 것을 발견합니다. 이러한 호기심에서 출발하여 갑자기 몰리는 역이 있다면 그렇지 않은 역도 있을 것이라는 생각을 하게 되었습니다.


평상시의 유동인구보다는 사람이 몰리는 시간과 의미있는 날에 대해서 분석을 해보기로 했고, 이는 평일인 기념일에 대해서 역간 유동인구가 어떠한 차이가 있을지 살펴보는 단계로 진행됩니다. 다음으로는 평일날 퇴근하고 데이트를 할 시간을 기준으로 평일평균과 기념일평균을 비교해서 의미있는 데이트 장소를 추천하는 프로젝트로 구체화되었고, 최종적으로 여유있고 느린 데이트 장소를 추천하는 <슬로우 데이트> 프로젝트로 발전하게 되었습니다.






특정일 기준으로 가장 붐비는, 그렇지 않은 30개 역을 선정하다


커플에게 기념일이면서 평일인 날을 하루 선정하여 가장 붐비는 역과 그렇지 않은 역을 필터링해보았습니다. 프로세싱이라는 시각화 툴을 이용하여 날짜를 선택하면 관련된 데이터가 시각화되도록 했습니다. 아래는 평일평균을 기준으로 지하철 유동량을 시각화한 그림입니다.



프로세싱을 이용해 날짜와 시간을 선택해 유동량을 볼 수 있도록 선택지를 만들어놓았습니다.



순서대로 서른개의 역을 선정해 얼마만큼의 변화를 보이는지를 나타냅니다. 명동과 한강진역이 가장 큰 증가폭을 가지고 있는 것을 볼 수 있습니다. 핫플레이스라고 불릴만합니다.



위 데이터와 반대로 평일평균에 비해 해당 기념일에 큰 감소량을 보여주는 서른개의 역입니다. 종합운동장과 올림픽공원 그리고 한양대역이 가장 큰 감소폭을 보여줍니다. 한양대역의 경우 데이트를 즐길만한 장소는 아니므로 최종결과에서 제외되었습니다.



특정 기념일 기준으로 유동량의 감소폭이 큰 것으로 나타난 역 중에서 데이트할만한 곳을 여섯개 역을 선정하였습니다. 뚝섬, 뚝섬유원지, 어린이대공원, 여의나루, 올림픽공원, 월드컵경기장입니다. 특정 기념일 기준이기 때문에 다른 날일 경우 결과가 다를 수도 있습니다.



커플이시거나 커플을 꿈꾸시는 분들에게 좋은 정보가 되리라 생각합니다. 바쁘고 분주한 서울에서. 기념일만큼은 바쁘지 않을 장소입니다. 기념일 역시 바쁘게 보내실 분들은 상관없으시겠지만, 느리고 여유있게 보내실 분들에게는 분명 의미가 있을 것입니다.


프로젝트에 대한 평가

평가단으로부터 발표당일 들었던 평가입니다.


1. 핵심이 잡혀있는 프로젝트다.

2. 숫자를 직관적으로 보여준 것이 인상깊었다.

3. 컨셉을 명확히 했기에 관련 기업에서 바로 활용해도 될만한 내용이다.


저희팀의 경우 다른팀에 비해 기술적으로 뛰어나지는 않았습니다. 그래서 웹페이지를 통해 다양한 그래프와 시각화를 보여줄 수는 없었습니다. 하지만 문제와 의미를 잘 정의했기에 효과적으로 결과를 도출할 수 있었습니다. 회의를 하는 중간중간 전체적인 그림을 그리며 의견을 공유하고 컨셉을 이끌어낸 것이 주효했다고 봅니다.
 


프로젝트를 통해 배운 교훈


0. 고통의 지점에서 출발하면 됩니다.

세상의 모든 문제를 해결하려고 거창하게 접근하기보다. 일상에서 고통을 주는 지점에서의 해결을 위해 접근하는 것이 수월합니다. 데이터는 문제해결을 위한 소스이고 분석과 시각화는 그것을 구체화하기 위한 방법입니다. 스타트업이 Pain Point 를 해결하기 위해 일을 하듯이 데이터분석도 일상의 지점. 곤란하고 문제가 있는 곳에서 출발하면 됩니다. 


1. 가설과 정보디자인이 우선되어야 한다.

가설을 어떻게 세우느냐에 따라 일의 방향과 범위, 그리고 워크 로드가 정해집니다. 필요한 데이터의 양이 얼마만큼인지, 얼마나 정제된 데이터를 구할 수 있는지도 일의 진행에 있어서 중요한 부분이 됩니다. 무작정 데이터를 수집하기보다 문제를 정의하고 해결하는 과정으로의 설계가 우선되어야 합니다.


2. 컨텍스트를 명확히 하여야 한다.

많은 데이터를 확보하는 것도 중요하지만 앞서 말한대로 정의된 문제를 해결하는 데 필요한 수준의 데이터 셋을 확보하는 것이 보다 중요합니다. 문제해결을 위해 맥락을 파악하는 것이 그 핵심입니다. 빅 사이즈가 아니더라도 적당한 규모를 통해서 컨텍스트를 뽑아낼 수 있다면 충분합니다. 분석과 시각화 못지 않게 도메인 지식이 중요한 이유입니다. 문제해결에 대한 배경과 관련된 지식이 있다면 보다 쉽게 문제의 핵심과 해결의 단초를 도출할 수 있습니다.


3. 팀으로서 시너지를 발휘하는 데 중점을 두어야 한다.

한 사람의 슈퍼플레이가 있다면 현실은 그렇지 않은 경우가 대부분입니다. 데이터를 분석하고 관련된 결과를 이끌어내는 것은 각각의 역량의 조합을 필요로 합니다. 대부분의 조직에서 데이터 분석은 팀으로 이루어진다는 것도 염두에 둘 필요가 있습니다. 좋은 커뮤니케이션을 통해 각각의 역할을 조율하고 막바지에는 최대한의 역량을 이끌어내는 퍼실리테이터의 역할이 중요합니다.





1 Comments
댓글쓰기 폼