빅데이타에 대한 장님과 같은 신뢰는 그만두어야 한다

https://www.ted.com/talks/cathy_o_neil_the_era_of_blind_faith_in_big_data_must_end

"빅데이타에 대한 무차별적 신뢰는 그만두어야 한다."

Weapons of Math Destruction의 저자인 캐시 오닐이 태드강연에 나와서 한 이야기입니다.

저자는 하버드대학에서 수학박사학위를 받고, 대학교수로 재임하다, 가장 큰 헷지펀드와 인터넷 데이타 마켓팅회사에서 데이타 사이언티스트로 일하던 중 빅데이타와 AI 마켓팅 뒤에 가려진 불편한 진실들을 경험하면서 이에 대해 문제제기를 하고 있습니다.

한글 자막이 없어서, 강연 내용을 대략 요약해보았습니다.

=====

알고리듬은 어느곳에나 있고, 여러분들을 승리자와 루저들로 정렬시키고 구분짓는다.
알고리듬을 만들기 위해서는 두가지가 필요하다: 데이타 (과거에 일어난 일) 와 성공의 정의(definition of success).

무엇을 성공이라고 정의하는가?
무엇을 성공이라고 정의하는 것은 결국 하나의 의견(opinion)이다.
알고리듬은 코드에 심어진 의견이다(Algorithms are opinions embedded in code).

여러분은 알고리듬이 객관적이고 과학적이라고 생각하는가?
만일 그렇다고 생각한다면 여러분은 마켓팅적인 트릭에 걸려든 것이다.
수학은 믿을만한 것이라 생각하는 반면, 정작 본인은 너무 어려워서 수학을 두려워하는 여러분의 마음을 이용해
수학모델을 이용하는 알고리듬은 뭔가 완벽한 것이라 믿게 만드는 것이다.
빅데이타에 대한 무제한적 신뢰를 하는 것 또한 마찬가지이다.

하지만 알고리듬이 이루려는 "성공"의 정의는 수학적으로 주어지는 것이 아니다.
이것을 이용해 뭔가 이루려고 하는 사람들이 부여한 의견에 불과하다.
그리고 이렇게 정의된 "성공"에 의해서 수집 분석되는 데이타의 선별에도 다시 의견이 들어가고
이렇게 수집된 데이타에 의해 알고리듬의 모델의 정당성은 다시 강화되고, 이 강화된 의견에 의해
데이타는 다시 이 의견에 맞게 수집된다. 모델과 데이타간의 feedback loop이 형성된다(data laundering).

미국 뉴욕시에서 시행된 알고리듬에 의한 고등학교 교사 해고 프로그램의 과정을 보면 이러한 알고리듬의 모델이 얼마나 불투명하고 하나의 편견에 지나지 않음을 쉽게 확인할 수 있다.

만일 머신러닝 알고리듬을 사용해 AI에게 평가할 패턴을 스스로 찾게 한다면 더 공평해질 수 있을까?

이렇게 해도 어떤 교사가 "휼륭한 교사"인가하는 것은 결국 AI가 판단할 수 없다. 모델을 설계하는 사람의 의견이 들어갈 수 밖에 없다.

무엇을 해야되나?

첫째, 데이타 integrity를 체크해야 된다.
둘때, 성공(sucess)에 대한 정의를 살펴보고, 그것을 감사해야 된다.
셋째, 데이타의 정확도에 따른 사회적 고려가 필요하다. 잘못된 데이타로 인해 입게될 사회적 피해에 대한 고려.
마지막으로, 알고리듬의 장기적 효과를 고려해야 된다. 특히 위험에 빠질 feedback loop에 대해서는 말이다.

두가지 메시지가 더 있다.
데이타 사이언디티스들에게:

우리는 진실의 중재인이 되어서는 안된다. 우리는 더 큰 사회에서 일어나게 되는 윤리적 논의의 번역자가 되어야 한다.
(we should not be the arbiters of truth. We should be translators of ethical discussions that happen in larger society.)

일반인들에게:
이것은 수학 테스트가 아니다. 정치적 투쟁이다. 우리는 알고리듬적인 권력자들에게 accountability를 요구해야 한다.
(this is not a math test. This is a political fight. We need to demand accountability for our algorithmic overlords.)

빅데이타에 대한 장님과 같은 신뢰는 이제 끝내야 한다.

https://www.ted.com/talks/cathy_o_neil_the_era_of_blind_faith_in_big_data_must_end

======

블록체인 역시 수학적 모델과 알고리듬을 이용하기 때문에 같은 문제의식의 연장선에서 바라볼 수도 있을 것 같습니다. 하지만, 수학적 모델과 알고리듬이 전부 공개되어서 그 투명성이 보장된다는 점과, 축적되는 데이타에 대한 보다 평등한 접근권이 보장된다는 점에서 프라이빗한 빅데이타 소유구조와는 대비됩니다.