본문 바로가기
청랑 도서 추천

데이터는 예측하지 않는다

by JadeWolveS 2024. 3. 14.
728x90

 

'데이터는 예측하지 않는다'를 읽고 정리한 내용을 공유합니다.

이 책을 선택한 이유

인터넷이 생기고 AI가 발전함에 따라 수많은 데이터가 생기고 언제든지 찾아볼 수 있는 시대입니다. 이 축적된 데이터를 어떻게 선별하고 현명하게 사용할 것인가가 궁금하여 읽게 되었습니다.

[출처 : 교보문고]

책 소개

분석의 목적 정의

데이터 분석을 설명하고자 할 때 가장 먼저 해야 하는 일은 데이터 사이언스를 공부하고자 하는 이유가 어떤 상황 때문인지를(어떤 필요가 있는지) 파악하는 것부터다.

데이터로 문제를 해결해야만 하는 사람

데이터로만 문제 해결이 가능한 분야와 이를 해결하려는 사람을 말한다. 국가의 인구나 주식, 경상수지 같은 각종 경제 지표를 수집하고 분석하는 통계청이라든가, 실험을 통해 얻은 데이터를 분석하여 물질의 성질을 정의하는 실험 물리학자들 같은 경우가 대표적이다. 이때 중요한 것이 데이터의 질인데, 얼마나 양질의 데이터를 갖고 있느냐에 따라 분석 결과의 신뢰성이 결정된다.

데이터의 문제를 해결하는 사람

이미 어떤 형태로든 데이터화 된 정보를 다루는 사람을 뜻한다. 이들에게 중요한 것은 “어떤 식으로 데이터를 구조화(DB화)하느냐?”와 “어떻게 원하는 유효한 값들을 신속하게 계산할 것인가?”이다. 이 분야도 마찬가지로 기본적인 통계 이론을 알면 좋다. 정리하면, 통계학적 이론과 이를 프로그래밍할 수 있는 능력을 갖추고 있다면 최고 능력자로 대우받을 수 있다.

데이터로 설득하려는 사람

사업을 하는 비즈니스맨이거나 마케팅 담당자가 여기에 해당한다. 기본적으로 데이터를 다룰 줄은 알지만, 이들에게 중요한 것은 보여주는 것, 시각화 능력이다. 다만 이런 일들이 진정한 의미의 데이터 사이언스라고 하기에는 어렵다. 시각화는 과학적인 사고나 논리의 결과물을 효과적으로 보여주는 것에 불과한 것이지 시각화가 과학적인 사고나 논리의 결과물 자체는 아니기 때문이다.

 

데이터로 문제를 해결하려는 사람

데이터를 다루는 전공자는 아니지만, 데이터 사이언스에 관심을 갖고서 이를 자신의 영역에 적극 사용하고자 하는 분들이다. 이분들에게 필요한 것은 데이터를 다루는 기술이나 통계학적 지식이 아니라 “문제의 본질을 파악하는 능력”이다. 가설에 따라 수집해야 할 데이터가 결정되고, 이를 정리하고 분석하는 것이 문제 해결의 과정에 해당한다. 이때 가장 중요한 것은 문제의 본질을 얼마나 제대로 파악하고 있는가이다.

데이터 사이언스와 챗gpt

최근의 인공지능 기술에서는 향상된 처리 속도가 빛을 발하는데, 그 이유는 바로 기존의 인공지능 모델들에서는 불가능했던 리즈닝(Reasoning)이 가능해졌기 때문이다. 리즈닝이란 주어진 조건(혹은 데이터)을 가지고서 여러 각도로 추리해서 결과를 생성해 내는 것으로, 인간만이 할 수 있다고 생각한 영역을 이제는 인공지능이 해낼 수 있게 된 것이다. 챗GPT를 사용하는 습관을 만들기 위해서는 “(챗GPT를 이용해) 무엇을 할 것인가?”에 대한 고민이 우선 되어야 한다. 이 고민은 챗GPT와 직접적인 관련은 없다. 챗GPT가 되었건, 달리DALL-E(이미지 생성 인공지능)가 되었건, 에덱셀SDXL(이미지 생성 인공지능)이 되었건 관련 도구들은 “무엇을 할 것인가?”를 정한 다음에 배워야 한다.

인공지능의 비합리성

누구나 인공지능을 활용한다면 어느 수준의 문학 작품을 만들 수 있고, 대중들이 좋아할 만한 그림을 그릴 수 있으며, 음악도 만들 수 있다. 인간만이 할 수 있다고 생각했던 예술 창작 활동이 몇 번의 클릭만으로 가능해졌다. 앞으로의 예술 작품에 대한 가치는 오로지 대중들에게 얼마나 오랫동안 인기가 있느냐 없느냐로 판단이 될 것이다. 챗GPT가 16세기에 나타나 그 당시의 지식을 학습했다고 가정해 보자. 천동설이 주류였던 그 시대의 챗GPT가 내놓는 답은 지동설이 아닌 천동설일 가능성이 높다. 전문가 집단의 좋은 데이터로 학습했다 하더라도 마찬가지 결과가 나왔을 것이다. 대중의 집단 지성이 아니라 극소수의 천재 과학자들의 과학적 사고가 없었다면 지동설은 당분간 세상 밖으로 나오지 못했을 것이다.

인문학적 소양

도구의 가치를 결정짓는 것은 그 도구를 사용하는 내가 어떤 목적으로 무엇을 하는 데 쓸 것인지 여부다. 나에게 필요한 이유를 알고, 이를 위한 도구 선택을 잘하기 위해서는 앞서 얘기한 통찰과 인문학적 소양이 필요하다. 당장 유행하는 기술에 자신의 역량을 너무 쓰기보다 고등학교 때까지 배웠던 기초 지식을 되새김하며 열린 사고를 갖고서 문제의 본질에 접근하는 연습이 훨씬 더 중요하다. 필자는 이러한 사고방식과 연습을 ‘데이터를 읽는 습관’이라고 부르고 싶다. 인문학적 소양이 충분히 쌓인다면 문제를 해결하기 위해 당장 필요한 기술들을 익히는데, 그리 많은 역량이 필요하지 않다. 그리고 새로운 것에 대한 호기심, 열린 사고가 거기에 화룡점정의 역할을 한다.

 

문제의 본질을 깨닫고 해결하려는 기초 지식에 더욱 집중해야 한다는 점이 핵심입니다.
이 책은 과거의 자료에 기반한 확률, 패턴이
미래 결과에 어떤 영향을 가지는 가에 대한저자의 생각을 잘 정립하고 있습니다.
데이터 관련업을 하는 사람 중 문제 제시나 해결을 중점적으로 하는 사람에게 추천하는 책입니다.

 

AI와 관련된 책을 청랑이 추천합니다.
 

AI 2045 인공지능 미래보고서

'AI 2045 인공지능 미래보고서'를 읽고 정리한 내용을 공유합니다. 이 책을 선택한 이유 최근 AI 관련 서적과 19년도에 집필된 이 책의 내용을 비교하여 약 5년 사이에 얼마만큼 기술이 진보되고 우

jadewolves.tistory.com

 

'청랑 도서 추천' 카테고리의 다른 글

나는 왜 꾸물거릴까?  (7) 2024.03.16
가족의 두 얼굴  (9) 2024.03.15
내 운명은 고객이 결정한다  (8) 2024.03.13
돌파매매 전략  (9) 2024.03.12
무기가 되는 글쓰기  (6) 2024.03.11

댓글