관리 메뉴

지식을 연주하는 사람

디지털화와 데이터의 연결 본문

Ph.D Course/Data Science

디지털화와 데이터의 연결

지식 연주가 Knowledge Designer 2015.10.29 19:49

데이터과학은 최근에 큰 주목을 받고 있습니다. 데이터시각화, 데이터분석 등이 대표적입니다. 그 중에 링크드 데이터(Linked data) 라는 개념이 있습니다. 웹상에 존재하는 데이터를 개별인자로 식별하고, 링크로 연결해 상호연결된 웹을 지향하는 것입니다. 그 핵심은 데이터를 연결시키고 개방한다는데 있습니다. 그리고 그것은 디지털(Digital)과 개방(Open)에 기반을 두고 있습니다. 데이터과학도 이 커다란 흐름 속에서 변화되어가는 것이 아닌가 생각합니다.



이 글은 데이터과학과 링크드 데이터를 이해하기 위해 디지털 그리고 웹에 대해 일부 다룹니다. 데이터과학에 관심이 있으신 분들이 읽으시면 작게나마 도움이 될 것이라 생각합니다.



디지털을 이야기할 때 반드시 언급되어야 할 인물들이 있습니다. 니콜라스 네그로폰테는 그 중 한 사람입니다. 그는 MIT Media Lab 을 만든 인물이자 WIRED 지의 초기투자자이자 칼럼니스트이기도 합니다. MIT Media Lab 은 상상력의 천국이라 불리며 전세계에서 가장 실험적이고 도전적인 연구가 이뤄지는 곳 중 하나이며, 컴퓨터 인터페이스와 미디어 관련된 첨단 기술이 이곳에서 탄생했습니다. 구호로만 외치는 융합이 아니라 자연스레 분야가 연관되어 새로운 것을 만들어내는 연구가 이곳에서 이루어집니다.


니콜라스 네그로폰테는 기계와 사람 사이의 상호작용을 연구해왔는데, 이는 1985년에 MIT Media Lab 을 만드는 계기가 됩니다. 그의 가장 중요한 업적은 <Being Digital> 이라는 책을 통해 디지털혁명을 예언하고 관련 개념들을 주장한 데 있습니다. 그는 IT 역사상 가장 중요한 잡지 중 하나인 WIRED 의 창간에도 관여했는데, 1993년부터 1998년부터 WIRED 지에 칼럼을 연재하며, 그것을 엮어 책으로 만들게 됩니다. 그것이 'Being Digital'입니다. 국내에는 '디지털이다'라는 이름으로 번역되어 있습니다.



<source=http://www.taezoo.com>


이 책에서 그는 'Move bits, not atoms.' | '앞으로 세상의 최소단위는 원자(atom)가 아니라 비트(bit)다.'라고 말하며 디지털시대에 대해 예측하기도 했습니다. 비트로 구성된 데이터로 사고하고 연결하는 지금에 와서 생각해보면 당연하지만 당시로서는 획기적인 발상이었을 것으로 생각됩니다. 더불어 무선이던 TV와 유선이던 전화가 스위치될 것이라 했고, 이러한 개념은 네그로폰테 스위치라고 명명됩니다. 아래 그림은 네그로폰테가 1993년부터 1998년까지 WIRED 지에 연재한 칼럼의 제목들입니다. 현재에도 의미있는 키워드가 들어있는 것을 볼 수 있습니다.


<source=http://web.media.mit.edu/~nicholas/Wired/>


월과 연도로 주요한 것들을 정리해보았습니다. Talking with Computers(Mar, 1994), Less is more: Interface Agents as Digital Butlers(June, 1994), Bits and Atoms(Jan, 1995), Bit by Bit, PCs Are Becoming TVS. OR is it the Other Way Around(Aug, 1995), Wearable Computing(December, 1995), The Future of Books(Feb, 1996), Affective Computing(Apr, 1996), Pay Whom Per What When(Feb-Mar, 1996), One-Room Rural Schools(Sep, 1998), Pricing the Future(Nov, 1998) 이런 개념들이 1995년에 고안하고 글로 작성한 내용의 키워드입니다. 현재 우리가 화제로 삼고있거나 고민하고 있는 것들도 포함되어 있습니다.


이처럼 니콜라스 네그로폰테가 디지털과 관련된 컨셉을 제안하고 관련한 미래를 그려봤다면 그것을 보다 실체화시킨 것이 있습니다. 바로 인터넷입니다. 디지털화를 이야기할 때 빠져서는 안되는 매우 중요한 축입니다. 다. 고, , 다. 그렇다면 그 인터넷은 누가 그 개념을 제안하고 발전시켰을까요. 현재의 인터넷의 개념의 기초를 만든 사람은 팀 버너스리 경입니다. 그는 CERN 에서 Enquire 를 개발했는데 그것이 현재의 인터넷을 구성하는 WWW(World Wide Web) 개념의 시작입니다.


팀 버너스리 경(Sir Timothy John 'Tim' Berners-Lee) 은 그가 월드와이드웹을 창시한 20년 뒤에 The Next Web 을 모토로 링크드 데이터를 주장합니다. 링크드 데이터는 데이터를 연결의 기준으로 하는 다. 다. 보다 데이터에 접근하기 쉬우며 데이터 중심적이라고 할 수 있습니다. 그는 2009년에 TED에 나와 "정보를 엮는다는 것은 그래서 생각보다 엄청난 것입니다. 정보가 발생하는 출처의 양이 많고 적고가 중요한게 아닙니다. 중요한 건 정보가 연결된다는 것이지요. 정보가 유의미하게 연결되면 그건 곧 "힘"이 됩니다." 라고 말하며, 그가 만들어낸 웹의 구조를 데이터 중심으로 다시 새로히 짜볼 것을 제안합니다.



<source=http://www.ted.com>


개방(Open)의 개념을 웹에 도입한 다. 정확히 말하면 연결의 효과성을 극대화하는 접근입니다. 팀버너스리 경은 1998년에 그가 고안한 시만틱웹(정보와 자원 사이의 관계-의미 정보를 컴퓨터가 처리할 수 있는 온톨로지형태로 표현하고, 이를 컴퓨터가 처리하도록 하는 프레임워크, 기술)을 보다 잘 구현하기 위한 형태를 제안한 것입니다. 현재의 웹은 데이터의 구조를 나타내는 메타데이터(metadata)와 자연어로 기술도니 문장으로 구성되어 있습니다. 메타데이터는 데이터 안에 데이터를 설명하는 데이터가 포함된 것으로 디지털 카메라가 사진을 저장할 때 각종 정보를 포함시켜 하는 것이 대표적인 예입니다.

<source=http://www.linkeddatatools.com>


링크드 데이터는 이러한 메타데이터적 특징을 더욱 강화하는 개념입니다. 링크기능이 강조된 시만틱웹의 형태로 볼 수 있습니다. 아래는 링크드 오픈 데이터를 클라우드 형태로 연결시켜놓은 그림입니다. 데이터가 어떤 모습으로 연결되고 관련되어있는지 보다 쉽게 볼 수 있습니다. 링크드 데이터와 관련된 구분기준이 있습니다. 팀 버너스리 경이 제안한 오픈데이터의 5단계 배포계획이라는 5 Star 념입니다다. 별 다섯개를 기준으로 형태를 구분합니다. 각 별의 단계가 설명하는 내용은 다음과 같습니다.


데이터를 웹 상에 오픈 라이선스로 (포맷에 상관없이) 공개        
구조화된 데이터로 제공(예, 표를 스캔한 이미지 대신 엑셀)        ★★
비독점적 오픈 포맷으로도 제공(예, 엑셀은 물론 CSV)                ★★★
사람들이 가리킬 수 있도록 개체를 나타내기 위해 URI를 사용     ★★★★
데이터의 문맥과 배경을 제공하기 위해 다른 데이터와 링크        ★★★★

<source=http://5stardata.info/ko/>



<source=https://en.wikipedia.org/wiki/Open_data>


링크드 데이터의 개념을 잘 살펴보시려면 다음의 책을 읽어보시길 권합니다. <Linked Data: Evolving the Web into a Global Data Space> 이라는 제목의 책인데, ttp://linkeddatabook.com/editions/1.0/ 에 가면 무료로 다운로드가 가능합니다. 관련된 보고서로는 <Open data Driving growth, ingenuity and innovation>, 맥킨지의 <Open data: Unlocking innovation and performance with liquid information>, OECD의 <Open Government Data Towards Empirical Analysis of Open Government Data Initiatives> 등이 있습니다. 실제로 몇몇 국가에서는 실제 프로젝트로 진행하고 있기도 합니다. 영국은 Where Does My Money Go?, 덴마크는 TAX FREE, 호주는 Research Data Ausralila, 영국은 data.gov 로 관련한 행보를 보이고 있습니다.


이러한 움직임의 기저에는 디지털화와 개방(연결)이 있습니다. 데이터의 형태로 연결시킴으로서 가치를 발견하고 삶의 효용을 높이겠다는 것입니다. 문서를 인쇄해서 주고받고 문서의 형태로 커뮤니케이션하던 것이 얼마 되지 않은 것 같은데 어느덧 그 형태마저 바뀌려고 하고 있습니다. 그야말로 디지털화된 세상에서 모든 것이 디지털 단위의 것입니다. 현재의 디지털환경은 니콜라스 네그로폰테가 <Being Digital>에 상상한 모습과 얼마나 같고 다를까요. 지금의 모습은 분명 그가 당시 이야기한 것보다 빠르게 변화하고 더욱 발전했습니다. 중요한 것은 디지털을 바라보는 그의 시각은 지금도 의미가 있다는 것입니다. 아톰이 아니라 비트가 세상의 최소단위라는 그의 말이 특히 그렇습니다. 비트로 구성된 데이터는 현재 산업과 우리생활에서 매우 중요한 수단이자 자산입니다.




우리가 주목해야 할 것은 디지털화가 진행될수록 데이터가 주목받고 있다는 것입니다. 변화를 일으키는 본류로 들어가 거기에서 가치를 뽑아내려 합니다. 기존에는 데이터가 정보 또는 지식으로 변환되어야 활용가능한 것으로 생각되었는데, 이제는 데이터가 활용가능한 자산으로 인정받고 그러한 활동이 이루어지고 있습니다. 기술의 발전으로 가능해진 것이라 할 수 있습니다. 다. 다. 다.


"읽지 않고 놓아두는 한권의 책은 마른 나뭇잎들을 모아높은 것에 불과하다. 그러나 우리가 그것을 펴 들고 읽게 되면 책은 살아 움직이는 거대한 형태를 드러낸다." 다. 동, 는, 다. 지금도 그렇지만 앞으로는 더욱 그 기저가 데이터가 될 것입니다. 데이터로 웹을 규정하는 링크드 데이터는 그것을 대표적으로 나타냅니다. 거미줄처럼 연결되어질 때 그 영향력과 파급의 힘은 더욱 커질 것입니다.


<source=http://www.cs.uni.edu/>


다. 도 가속화되어 지속될 것입니다. 그리고 그 흐름은 인터넷의 데이터화 또는 데이터의 인터넷화로 명명할 수 있는 링크드 데이터의 형태로 구성되고 새로움을 지펴갈 것으로 보입니다. 개방하는 방향으로 그 모습을 더해갑니다. 디지털과 연결이 만들어내는 미래는 과연 어떤 모양일지. 우리에게 어떠한 메시지를 던질지. 참으로 궁금합니다. 데이터로 그것을 만들어낼 수 있습니다. 우리가 접하고 가공할 수 있는 그 데이터로 말이죠. 데이터 드리븐(Data Driven) 은 어려운 개념이 아닙니다. 데이터가 익숙해지고 데이터가 무언가의 창출원천이 되는 것이 것이며, 데이터의 주소가 연결되면 그것이 링크트 데이터입니다. 기계와 사람, 사람과 기계가 더욱 효과적으로 상호작용하는 세상, 데이터의 연결이 만들어낼 미래입니다. <Being Digital> 의 모습입니다.

0 Comments
댓글쓰기 폼