R을 활용한 데이터 사이언스

최현희, 최영랑 저

[출간 예정 도서]

이 책은 R의 활용을 비즈니스 문제의 해결을 목적으로 하는 독자들에게 도움을 주고자하는 목적으로 집필되었다. 특히 저자는 본 서를 다양한 상품과 수많은 브랜드를 준비하여 고객 성향이나 니즈 변화를 반영하고 시장의 트랜드와 시즌성에 맞춰서 상품 구색을 확대하거나 감소해야 하는 유통업 비즈니스에서의 상품 추천과 같은 주제를 중심으로 서술하였다.

이 책의 데이터 분석은 유통업의 상품 추천 모델링을 염두에 두고, 기초 통계부터 추천 모델링 까지를 고려한, R을 활용한 데이터 분석 절차를 구현하는 데에 초점이 맞춰져 있다.



도서 상세

분야: [데이터베이스 & 빅데이터]

출간일: Oct 17, 2017

페이지: 200

도서정가: 22,000 원

ISBN: 9791187497103

N 초급 B 초/중급 능숙 C P 숙련 E 전문
부가 정보


이 책의 내용

1장은 전반적인 데이터 분석 프로세스에 대하여 설명하고, R이라는 프로그램의 사용에 어려움이 있는 독자를 위하여 R의 설치부터 R 구동 방법까지의 과정을 설명하였다. 그리고, 비즈니스 요구 사항, 데이터 탐색 결과, 기초 통계 분석 결과에 따른 파생변수를 정의하고 생성된 파생변수에 대한 장표를 만드는 방법을 기술하였다.   

2장에서는 유통업의 업태와 업무 특성을 고려하여 전사 관점의 고객 세분화시 주요변수 선정 및 세분화 방안을 설명하였고, 고객 세분화 이후에 특정 목적인 상세 세분화를 기술하되, 통계 모델 방법인 인자분석, 변수 클러스터링 (hclustvar), 지금까지 문서 분류를 위하여 많이 사용되어 왔던 LDA(잠재 디리슐레 할당) 의 활용 방법을 기술하였다.

3장에서는 개인화 추천을 수행하기 위한 모델링과 이의 검증을 위한 장으로 모델링 방법으로 연관성분석, 순차패턴분석, 협업필터링, 회귀분석을 포함한 확률 예측방법 등과 같은 모델링에 대하여 기술하였다.

4장은 머신 러닝과 알고리즘이라는 제목으로, 1~3장에서 언급되었으나 상세 기술이 없었던 머신 러닝 알고리즘을 간략하게 기술하였다.


추천사

날이 갈 수록 고객들이 생성하는 데이터 양은 기하급수적으로 증가하고 있고, 데이터 기반 의사결정의 중요성은 그만 큼 중요해지고 있다. 개인 또는 기업이나 국가가 당면한 어려운 문제를 보다 효과적으로 해결하고자 한다면, 산재해 있는 모든 것들을 데이터화 하고 분석하는 역량이 필요하다. 또한, 아무리 데이터가 충분히 확보된다고 하더라도 데이터를 바라보는 시각과 기본적인 데이터 사이언스에 대한 활용능력이 바탕이 되지않는다면 원래 데이터가 말하고자 하는 진실을 발견하지 못하거나 곡해하는 우를 범하고 말 것이다.  

저자는 지식과 오랜 경험을 바탕으로 데이터 사이언스를 위한 이론적 배경과 함께, 구현시의 고려점들을 명시하여 독자들이 응용력과 현실성을 가질 수 있도록 배려한다. 손쉽게 접근 할 수 있는 오픈소스인 R 패키지를 활용하여, 데이터로부터 실질적으로 의미 있는 결과를 도출 할 수 있는 구체적인 프로세스를 제시한다. 결과적으로 독자로 하여금 데이터로부터 얻을 수 있는 최종적인 가치인 인사이트를 도출 할 수 있게 한다.

김동철 (데이타솔루션 데이터부문장, 공학박사)


우리는 지금 새로운 시대의 초입에 서 있다. 지금까지 인류는 보다 편안한 생산수단을 가지기 위해서 부단히 노력해왔고, 도구에서 기계로, 자연에서 얻던 힘을 사람이 만들어 내는 등 그 폭을 넓혀왔다. 급기야, 이젠 생각을 위한 재료인 정보를 정리해주는 ICT시대를 넘어서 인간의 추론까지 대신해주는 4차산업혁명이 빠르게 진행되고 있다.

4차 산업혁명의 핵심이라고 할 수 있는 인공지능에서 가장 중요한 것은 바로 데이터이다. 데이터를 얼마나 잘 이해하고, 인공지능이 이러한 결과를 어떻게 만들어내는지를 아는 사람과 단순히 인공지능이 주어주는 정보만 받아들여야 하는 사람과는 미래세계에서 발전성과 성취도에서 큰 차이를 보일 수 밖에 없다.

애플의 성공이 인문학과 과학기술의 교차점에서 이루어졌다면, 데이터분석의 성공은 업에 대한 이해와 수리적 지식, 그리고, 데이터를 다루는 실용적 능력이 모이는 3차원 교차점에서 이루어 질 것이다.

인공지능이나 빅데이터, R에 대한 책들이 홍수처럼 쏟아져 나오고 있지만, 대부분은 개념적으로 접근하거나 추상적인 분석사례를 다루는데 머물거나, 아니면 전통적 의미에서 개발자를 위한 기술부분에 국한되는 경우가 많았다.

본 책은 풍부한 실무경험과 해당분야의 깊은 이해를 가지고 계신 두 분의 저자가 실제 사례와 함께, 분석을 위한 이론배경과 기술 측면까지 상세히 다루고 있다. 이론에 비해 R을 다루는 능력이 부족했던 분, R을 다루는 부분은 탁월했지만 이론이 부족한 분, 자기 분야에서 어떻게 데이터를 다루어 볼 수 있는지에 대한 경험이 부족한 분, 모두에게 더할 나위 없이 좋은 책이라 생각한다.

김종희(대교 CIO)


다양한 전공, 업무 영역에서 자료에 기반한 의사결정을 위해 데이터 분석은 점점 그 중요성과 가치가 증가하고 있다. 데이터 분석의 도구, 통계분석 소프트웨어로서 R은 확장성과 범용성 측면에서 매우 매력적인 도구임에는 분명하지만, 데이터 분석이 낯설거나, C 또는 JAVA와 같은 컴퓨터 언어에 익숙한 경우 R 도입에 진입장벽이 있는 것도 사실이다. 통계학 비전공자의 진입장벽은 R의 자료처리 원칙이 행렬대수학에 기초로하고 있어 “자료 다루기”부터 그 불편함과 자료구조에 대한 학습이 필요한 연유에서 나타난다.

효과적인 데이터 분석을 위해서는 1) 정확한 현업 및 분석목표의 이해, 2) 데이터분석 전체 흐름에 대한 안목 그리고 3) 자유로운 통계분석 소프트웨어 활용 능력 및 고급 통계 방법론이 필수적이다. 본 저서의 제 1장에서는 자유로운 자료 다루기를 위한 필수요소 설명이 전형적인 교과서처럼 장황하지 않으면서도 자세한 설명이 포함되어 있다. 일부 R을 이용한 응용분석 저서에서는 이를 생략하거나 축소했던 것과 비교하면 R 소프트웨어의 이해와 2장 이후의 실제 분석 방법을 터득하는데 중요한 역할을 하며, R의 활용에 부담감을 덜어주는데 기여하고 있다.

본 저서의 또 다른 특징은 통계적 분석방법론 중심의 내용구성이 아닌 유통업 비즈니스의 예를 적용하여 데이터 분석의 과정/흐름 중심의 내용 구성으로 실무 적용이 용이하도록 하는 배치가 돋보인다. 그럼에도 불구하고 최신의 통계적 방법론 이해를 위한 내용이 요소요소에 포함되어 있는 특징이 매우 인상적이다. 이와 같은 내용구성은 독자들이 데이터분석시에 전체 흐름을 파악하는 안목을 기르는데 도움이 될 것으로 기대한다.

이정복(서울아산병원, 울산의대, 의학통계학과 교수)



저자 소개

최현희 : 분석기업인 데이타솔루션내 데이터부문의 수석 컨설턴트로 근무해 왔으며, 고려대학교 통계학과 박사과정을 수료하였다. 데이터 사이언티스트로서 분석 이론 및 분석이론을 실무에 적용하는 데에 필요한 올바른 데이터 수집, 저장, 분석, 정보 제공의 전반적인 과정에 큰 관심을 가지고 있다. 통계학과 전산학의 기반 지식을 활용하여 데이터 마이닝 업무를 실무에 적용함에 있어 독자들에게 도움이 되고자 IBM Korea 의 소프트웨어 연구소 근무 당시 "Intelligent Miner Application Guide(공저)", "eCRM 실무지침(공저)"을 저술한 바 있다. 

최영랑 : 마케팅 전공 및 MIS부전공으로 경희대학교 경영학 박사학위를 받았으며, KMAC연구위원, 한국NCR 및 한국 테라데이타(Teradata) 상무를 거치면서 현재 기업의 대용량데이터(DW)기반의 CRM 전략 수립 및 마케팅 자동화 관련 컨설팅을 수행하고 있으며 최근에는 Big Data & Mobile기반의 개인화 마케팅 컨설팅을 하고 있다. 주요 프로젝트는 백화점(현대, 갤러리아, 롯데, 신세계 등)과 대형 마트 (이마트, 롯데마트, 한화유통 등)의 국내 유통업을 중심으로 보험업(현대해상, 삼성화재, 동부화재, 신동아화재 등)과 금융업(Standard Chartered은행, 우리투자증권 등) 및 기타 삼성전자, KT&G, 철도청, CJ- CGV 등의 제조 및 서비스업과 같은 다양한 업종에서 컨설팅을 수행하였다.  


1 . R기반의 데이터 탐색 및 통계분석

 1.1 데이터 분석 프로세스

  1.1.1 데이터의 이해

  1.1.2 분석 프로세스

 1.2 R과 분석입문

  1.2.1 R의 활용

  1.2.2 데이터의 입출력

  1.2.3 데이터 구조

  1.2.4 데이터 핸들링 33 

 1.3 데이터 탐색

  1.3.1 GIGO(garbage in garbage out)

  1.3.2 그래프를 활용한 탐색

 1.4 통계분석

  1.4.1 교차표(cross table) 

  1.4.2 카이제곱 검정(Chi-square test) 

  1.4.3 분산분석(ANOVA)

  1.4.4 t-검정(평균비교)

 1.5 파생변수 생성 및 분석 데이터 만들기 

  1.5.1 최근성 값은 날짜로 계산하여 생성

  1.5.2 zipcode를 area code로 변경

  1.5.3 구매 시간대 구간화 


2. 고객 세분화 모델링

 2.1 고객세분화

  2.1.1 고객 가치 분석 (RFM 스코어링)

  2.1.2 구매 상품 다양성 분석

  2.1.3 서비스 경험 분석

 2.2상세 세분화(MICRO SEGMENTATION) 모델

  2.2.1 잠재 요인에 따른 변수 군집

  2.2.2 LDA(latent dirichlet allocation)의 활용


3. 모델 구축 유형

 3.1 모델 적용 전 고려해야 할 것들

  3.1.1 모델링을 위한 변수 선택과 유의확률(p-value)

  3.1.2 변수선택을 위한 상관계수 고려

  3.1.3 변수변환

  3.1.4 변수 변환을 통한 이상치 제거

  3.1.5 이상치 검증

 3.2 모델 구축

  3.2.1 연관성(association) 분석과 순차패턴(sequential pattern) 분석

  3.2.2 협업필터링(collaborative filtering)

  3.2.3 회귀분석(regression analysis)

  3.2.4 앙상블(ensemble)

  3.2.5 Adaboost

 3.3 모형검증


4. 머신 러닝 기술과 알고리즘

 4.1 분류

  4.1.1 지지 벡터 기계(SVM)

  4.1.2 임의 숲(random forest)

  4.1.3 로지스틱 회귀(logistic regression)

 4.2 그룹화

 4.3 차원축소

  4.3.1 주성분 분석

  4.3.2 특이값 분해(SVD)

  4.4 시계열 분석 235

찾아보기

데이터 생성