블록체인, 빅데이터, 인공지능 – 데이터는 왜 인공지능을 필요로 하였는가?

알파고가 이세돌 9단을 상대로 4승 1패를 거두었을 때, 바둑을 아는 사람이건 모르는 사람이건 다들 놀랄 수 밖에 없었다. 그러나 더 놀라운 것은 그 이후로 인류 중 어느 누구도 알파고를 이길 수 없을 것이라는 것을 예상한 사람이 없었다는 사실이다.

그렇다면 인류는 머리를 써서 생각하는 모든 분야에서 인공지능과의 경쟁에 맞닥뜨리게 되는 것일까? 로봇에 의해 블루컬러 일자리가 날아갔다면, 인공지능에 의해 화이트컬러 일자리에도 종말이 온 것인가? 사람들은 우리들 중 누가 직장에서 ‘알파고’를 만나게 될 것인가를 알고 싶어한다.

이제 인공지능이 할 수 있는 것, 그것도 인간보다 훌륭하게 할 수 있는 것은 어떤 것들이고, 지금 왜 인공지능이 잘할 수 있는 일이 ‘가능’해졌고 ‘필요’했던 것인가를 살펴 보기로 하자. 그것을 살피는 것은 ‘데이터가 왜 인공지능을 필요로 했는가?’라는 질문에서 시작된다.

데이터는 왜 지식 적재적(Knowledge-laden)인가?

‘적재성’이라는 단어는 좀 낯설다. 이 단어가 사용된 가장 유명한 사례는, 과학철학 영역에서 ‘관측은 이론 적재적이다’라는 말로, ‘이론 중립적 혹은 독립적 관측은 없다'는 것을 표현한 것이다. 나는 이 말을 분명 그와 유사한 의미로 빌려 쓰고 있다.

인류의 역사에서 데이터가 지식 적재적일 수 밖에 없었던 이유는 분명하다. ‘사회적으로’ 데이터가 생산되기 위해서는 데이터를 생산하는데 들어가는 비용이 ‘정당화’되어야 하는데, 그 ‘정당화’라는 것은 ‘그 데이터가 왜 생산할 가치가 있는지’를 설명하는 것이다. 그러나 어떤 종류의 데이터 생산 프로세스가 ‘설명’될 수 없는 영역에 있다면, 그것은 유지되기 어렵다. 물론 가끔씩은 ‘종교적 제식’(Religious Ritual)인 경우 상당 기간 ‘설명’의 대상이 아닐 수도 있지만, 그것이 오래 유지될 가능성은 매우 낮다.

현대적으로 생산되는 데이터들은 대개 ‘지식에 의존하여 설계된 프로세스’에 의해 생산된다. 이는 그 데이터의 의미가 확정된 데이터들만을 생산한다는 뜻이다. 사회통계나 회계, 평가, 컴퓨팅 시스템 등에서 생산되는 데이터는 가장 전형적인 ‘지식에 의존하여 설계된 프로세스’에 의해 생산된 데이터이다. 그러나 그러한 데이터들은 ‘의미를 생산해 내는 프로세스나 시스템’ 밖으로 나가는 순간 쓰레기가 된다. 마치 컴퓨터의 어떤 시스템 폴더에 들어있는 알 수 없는 기호들이 가득한 시스템 로그 파일을 노트패드로 열어본 것과 비슷한 상황이다.

그런 점에서 ‘데이터의 지식 적재성’은 맥락적이다. 왜냐하면 우리는 가끔 ‘지식’을 떠난 데이터의 기록 매체들과 마주치기 때문이다. 그리고 간혹 그 데이터들은 전혀 다른 의미 생산 체계 안으로 들어가 원래 생산의 맥락에서와는 전혀 다른 의미를 획득하여 살아 남기도 한다. ‘고고학’과 ‘인공지능’은 그것의 전형적 사례다.

컴퓨팅과 ‘의미없는 데이터’들의 탄생

쓰레기(garbage)를 자동으로 치워주는 자바(Java)와 같은 최근의 프로그래밍 언어들은 ‘부주의한 개발자’를 마구 양산한다. 그러나 이것이 나쁘다는 것은 아니다. 지금은 이미 컴퓨팅 자원이 부족해서 데이터를 하나 읽고 쓸때마다 빈 그릇을 치우고 다음 연산을 위해 준비해야 하는 시절이 아니기 때문이다. 하지만 과거의 소프트웨어 엔지니어들은 자신의 코드가 만들어내는 데이터들이 혹시 어딘가에서 메모리를 새나가게 만들지 않는가를 늘 신경써야만 했다. 왜냐하면 사용되지 않는 프로세스와 데이터들이 자원을 잡아 먹는 상황이란 개발자에게 ‘제거해야 할’ 병적 상태이기 때문이다.

하지만 마이크로 컴퓨터는 막 태어났을때부터 쓰레기 데이터와 함께였다. 정신병의 일종으로 분류되는 ‘쓰레기 모으는 병’에 걸린 환자들과 동기는 같다. ‘언젠가 쓰일지 몰라서’ 시스템들은 당장 쓰이지 않는 데이터들을 곳곳에 모아둔다. 가장 전형적 쓰레기는 ‘로그(log)’ 데이터라고 불리는 것인데, 그 데이터들은 때로 컴퓨터를 갖다 버릴 때까지 한번도 사용되지 않을 수도 있다. 시스템들이 이렇게 ‘언제 쓰일지도 몰라서’ 쌓는 데이터를 생산하고 보유하는 이유는 다양하다. 그 중 대표적 이유는 ‘사후 감사적’(audit) 이유다. 시스템이 죽는다거나 해킹되거나 전원이 나가는 상황에서 최대한 자동으로 저장한 데이터를 이용해서 작업 손실 없이 이를 복구하거나 원인을 규명하려는 것이다. 그리고 이 쓰레기들은 시스템 전체에서 ‘심각한 수준’은 아니므로 참아줄 수 있다.

하지만 만약 쓰레기를 모았더니 그것이 제공하는 ‘가치’에 비해 ‘보유비용’이 너무 크다면, 우리는 결정을 내려야 한다. ‘버릴 것인가? 재활용할 것인가?’ 이걸 결정 못하면 ‘병’이 되는 것이다. 구글은 대용량 컴퓨팅의 역사에서 최초로 맞닥뜨린 문제들이 많은데, 그 중 하나가 ‘대규모 쓰레기 처리’다. 서비스 데이터가 커지고 사용자가 늘어난 만큼 쓰레기가 쌓이기 때문이다.

인류는 컴퓨터 시스템이 대중화되기 전까지 한번도 ‘규칙/행위 주도적 데이터’가 ‘지식 적재적 데이터’에 비해 이렇게 많아진 것을 경험한 적이 없다. 왜냐하면 컴퓨터 대중화 이전에 데이터를 만드는 프로세스는 너무 비용이 높았고, ‘가치’는 ‘지식 적재적 데이터’들이 거의 다 차지하고 있었기 때문이다. ‘규칙/행위 주도적 데이터’란 바둑의 기보, 주식 시장의 거래 데이터, 온도계 센서가 기록한 값들, 온라인 서비스의 계정별 로그인 시간 같은 것인데, 그나마 그것은 사람을 통해서 ‘의미’를 얻음으로써 ‘정당화’되는 것들이다. 하지만 그것의 수백 수천배의 데이터가 ‘의미’를 만들어내는 프로세스를 떠나 컴퓨팅 시스템에 쓰레기처러 쌓이고 있다. ‘의미’를 얻지 못한채로. 새로운 ‘의미’를 발견해 줄 누군가를 만나지 못한다면, 데이터들은 그냥 쓰레기가 된다.

쓰레기 더미에서 ‘의미’ 퍼올리기

‘규칙/행위 주도적 데이터’들은 종종 설명을 요구받는다. 그 요구를 견뎌내고 ‘설명’을 성공시키는 일은 쉽지 않다. 인류는 그런 데이터들 안에 ‘의미’가 담겨있다는 것을 오래전부터 알고 있었다. 때로 일부 집요한 사람들은(티코 브라헤 같은) 자신의 지식을 설명하기 위해 매우 큰 수고를 들여 규칙에 따라 모은 데이터를 사용함으로써 자신의 ‘지식’을 정당화했다. 그리고 그 데이터를 얻으려고 데이터를 가진 사람에게 공을 들이거나(케플러), 국가권력을 활용해 아무런 의미가 보장되지 않은 데이터를 ‘규칙’을 가지고 모았다.(고대의 천문 관측이나 근대 과학의 태동기의 학자들 대부분이 해당된다) 그리고 ‘규칙/행위 주도적 데이터’들의 양이 상대적으로 많지 않고, 그것들을 해석함으로써 얻을 수 있는 이익이 큰 경우, 즉 부가가치가 높은 경우에는 그 데이터 곁에 권력으로서의 지식, 즉 학문이 만들어졌다. 대표적인 것이 경제학이나 의학과 같은 학문이다. 그러나 그 데이터를 해석해서 얻을 수 있는 이익이 크지 않은 경우, 인류는 그것을 생산하지 않거나 버리는 것이 합리적이라고 여겨왔다.

하지만 만일 데이터를 해석하는 비용이 매우 낮다면 어떨까? 그것은 데이터를 해석해서 얻을 수 있는 이익 작더라도 ‘해석’이 합리적일 수 있음을 의미하며, 그 데이터를 생성하는데도 거의 비용이 들지 않는다면 그 ‘합리성’의 범위는 더욱 커진다. 구글의 초저비용 대용량 컴퓨팅은 검색엔진을 통해 수집된 ‘범용적’ 조각 데이터의 의미를 해석하는 것 뿐아니라, 사용자 개개인이 남긴 조각 데이터를 모아 사용자에게 ‘개인화된 의미’를 해석함으로써 만들어 낼 수 있는 가치 이하로 비용을 낮추는데 성공했다. ‘서비스의 개인화’의 개념은 다른 누군가가 만들어냈을지 모르지만, 그것을 ‘무료로’ 제공하는 서비스로 확장시킬 수 있는 비용 구조의 컴퓨팅으로 만든 것은 구글이었다. 그리고 그것을 구글만큼이나 잘 활용한 것은 아마존과 페이스북, 애플이었다.

사실 구글은 이 분야에서도 운이 좋았다. 무엇보다 구글이 텍스트 처리 과정에서 텍스트를 N-gram 청크라는 단위로 썰어서 컴퓨팅을 ‘해야만 했던’ 것이 ‘의도하지 않은’ 도움이 됐다. N-gram 청크 컴퓨팅은 쉽게 말하면 문장을 N글자 단위로 잘라서(엄밀하게는 1 바이트씩 이동해가면서 잘라서) 64메가 바이트 단위로 하나의 파일로 만들어서 분산 파일 시스템에 저장해두고 데이터 컴퓨팅을 하는 것을 뜻한다. ‘의미’ 단위로 가지런히 정렬된 DBMS 입장에서 보자면, 이것은 ‘쓰레기’에 가깝다. 그런데 구글에게는 페이지랭크를 만드는 과정에서 생긴 이 ‘쓰레기 더미’를 이용하여 형태소 분석, 아스테리스크(Asterisk : ‘’을 의미한다) 확장 검색, 부울리안 검색 등을 제공하는 기술을 만들어낸 ‘bi-gram의 흑마술사’라고 불린 아미트 싱할(Amit Singhal)이 있었다.*(2016년 우버로 자리를 옮겼으나 구글에서 있었던 일 때문에 짤렸지만..) 인공지능과 기계학습의 대가인 피터 노빅을 입사시킨 것도 훌륭한 선택이었다. 그리고 12년 후 구글은 딮러닝의 난제를 풀어낸 제프리 힌튼 마저 얻었다. 그의 회사를 사들임으로써.

인공지능으로 할 수 있는 것은 무엇인가?

나를 인공지능 전문가로 잘못 알고, 내게 질문하는 사람들은 늘 이것을 묻는다.
‘인공지능으로 어떤 것들을 할 수 있는 것인가?’

그러나 이 질문은 다음과 같이 수정되어야 한다.
‘인공지능을 적용할 수 있는 대상이 갖춰야 할 조건은 무엇인가?’

인공지능을 적용하기 위해서는 매우 낮은 비용으로 많은 양의 ‘규칙/행위 주도적 데이터’를 모을 수 있는 데이터 생성 프로세스가 있어야 한다. 여기서 매우 낮은 비용이란, ‘얻을 수 있을 것이라 기대하는 이익에 비해’ 그렇다는 뜻이다. 그리고 그 데이터 안에 내재된 결정이나 암묵적 규칙들이 인공지능을 통해 얻을 수 있으리라 기대하는 요소를 만들어내고 있다는 판단이 있어야 한다. 그리고 마지막으로 이해관계자들이 ‘의미’가 이해되지 않더라도 ‘결과’를 받아들일 마음의 준비가 되어 있어야 한다. 왜냐하면 인공지능은 자신이 왜 그렇게 했는지를 설명해주지 않기 때문이다.

인공지능의 정체는 ‘인간이 고려하기에는 비용 효율적이지 않은’ 영역에 있는 데이터를 벡터 공간에 뿌려놓고 convexity를 가진 비용함수를 기반으로 이를 ‘분류’하고 그 ‘분류’가 ‘패턴’이 될 수 있음을 되먹임(backward propagation은 결국 일종의 feedback이다)을 통해 재확인하는 컴퓨팅 과정을 초저비용으로 구현한 것이다.

그렇기때문에 인공지능에 적합한 데이터는 ‘규칙’에 의해 생성된 데이터이거나, ‘암묵적 규칙’이 있다고 여겨지는 데이터이다. 바둑이나 게임은 전자에, 주식 시장은 후자의 영역에 해당하는 데이터를 뿜어내는 대상이다. 그림의 스타일이나 특정인의 말소리도 상대적으로 제한된 규칙을 따르는 데이터로 만들 수 있는 영역이다. 오히려 ‘모든 사람의 말소리’로부터 패턴을 추출하는 것은 인공지능에게는 훨씬 어려운 문제가 된다. 특정인의 말소리는 충분한 데이터만 쌓이면 명백한 패턴을 분류할 수 있지만, ‘모든 사람의 말소리’를 듣기 위해 필요로 되는 한두마디만으로도 상대의 발성/발화 패턴을 인지하고 ‘적응적 듣기’(adaptive hearing)와 같은 인간의 능력을 인공지능이 흉내내기는 거의 불가능할 지도 모른다. 왜냐하면 인간의 ‘타인의 말소리 듣기’는 이미 수백만년 동안 인간들이 ‘타인의 말소리를 들은’ 결과로 만들어진 능력이기 때문이다.

그렇다면 현재 인공지능의 등장으로 인해 가장 위험한 상황에 빠진 사람들은 과학자들이다.(이 주장은 과학사학자이자 STS 학자인 홍성욱 선생이 들으면 강하게 반론하시겠지만^^) 인공지능은 지구가 들려주는 소리로부터, 하늘에서 쏟아지거나 환자의 몸에서 빠져나오는 감마선의 산란으로부터 미세한 패턴을 찾을 수 있고 그것을 재현할 수 있지만, 그 데이터들을 다 고려한 ‘과학적 가설’을 만들기에 인간에게 주어진 시간이 너무 제한적이기 때문이다. 인간은 ‘가설’이 있어야 ‘데이터’를 볼 수 있지만 인공지능은 ‘가설없는 과학’을 주창할 것이며, 인간은 ‘예측의 전제로서의 이론’에 집착하는 동안 인공지능은 ‘이론없는 예측’을 내어놓을 것이다. 인간의 ‘지식’에 대한 인공지능의 ‘조립주의적 도전’이 시작되었다. 인간이 인공지능에 대항할 유일한 길은 ‘데이터를 주지 않는’ 것이다.

인공지능으로 사람들이 무언가를 할 수 있게 된 이유는 고속 병렬 데이터 컴퓨팅의 비용이 매우 낮아졌기 때문이다. 구글과 컴퓨팅 기업들은 그 비용을 더 낮추기 위해 TPU(Tensor Processing Unit)를 만들고, 더 많은 데이터를 더 다양하게 모으기 위해 꾸준히 IoT(Internet of Things)라는 기술 캠페인을 한다. 그들은 자신이 해야할 것이 ‘알파고’와 같은 흥행 이벤트라는 것을 알고 있다. 그렇게 하면 각 나라들과 기업들이 몰려들어 데이터를 만들고 자신들에게 ‘공개할 것’이라는 사실도 정확히 알고 있다. 인공지능이 모든 것을 할 수 있을 것 같은 환상을 만들면 가치있는 데이터들이 자신들에게 쏟아져 들어온다면, 그들에게 이보다 효과적 투자는 없다.

과거에는 비용 문제로 고려할 수 없었던 데이터들이 컴퓨팅 비용 이상의 ‘가치’를 만들어줄 수 있는 데이터가 되었다. 그러나 그 ‘가치’는 인간이 가진 욕망의 산물이다. 오프라인에 있는 저효율 프로세스를 온라인 상의 저비용 프로세스로 대체함으로써 사업의 기회를 만드는 것, 인간의 지적 능력만으로 긴 시간과 비용이 들어가던 ‘지불의향이 높은 문제’를 저비용으로 해결하는 방법론을 만들어 시장의 경쟁구도를 흔드는 것, 그렇게 하여 결국 지불 의향이 있는 거의 모든 문제들을 온라인으로 옮겨서(online transform) 풀면 더 싸고 쉽게 풀리는 ‘일반적 공식’을 찾아내는 것이 그들의 목표다.