Theory/Data Science

데이터과학이란?

D4tai1 2019. 8. 23.

세상에는 3가지 거짓말이 있습니다.

그럴듯한 거짓말, 새빨간 거짓말 그리고 통계입니다.

- Benjamin Disraeli(벤저민 디즈레일리) - 

 

인공지능의 시대에 통계학이 매우 중요한 학문이 될 것이며,

미래의 종교는 데이터종교가 될 것 입니다.

- Yuval Noah Harari(유발 하라리) -

 

현실에서 보듯이 데이터과학은 

레드불과 같은 각성음료에 의지해 날밤을 새우는 해킹과,

에스프레소에 의해 영감을 받은 통계학의 혼합입니다.

- Metamarket의 CEO, Michael Driscoll(마이스 그리스콜) -

 


 

1. 데이터과학은 무엇일까요?

위키백과에서 말하기를

"데이터 마이닝(Data Mining)과 유사하게 정형, 비정형 형태를 포함한 다양한 데이터로부터 

지식과 인사이트를 추출하는데 과학적 방법론, 프로세스, 알고리즘, 시스템을 동원하는 융합분야"

라고 합니다.

 

[1] 데이터 마이닝(Data Mining) 용어를 알아볼까요?

데이터 마이닝은 금광에서 금을 캐듯이 데이터 내에서 

통계적 규칙이나 패턴을 찾아내는 것을 말합니다.

 

[2] 인사이트(Insight)는 

안을 보는 것!

즉, 데이터를 보고 문제를 찾아내는 것을 말합니다.

예를 들면

반별로 성적(특성)을 알면

수업을 어떻게 해야하는지

알 수 있겠지요?

 

[3] 정형데이터는

데이터베이스 형태의

텍스트데이터를 말합니다.

 

[4] 비정형데이터는

빅데이터시대로 넘어오면서

이미지, 영상, SNS에 올라오는 글들 등

정형화되지 않은 데이터를

비정형데이터라고 합니다.

 

데이터과학을

조금 짧게 줄여보면?

insight를 도출해서 value(가치)를 만들어내는 것

이라고 요약을 할 수 있습니다.

 

2. 드류콘웨이의 데이터과학

[그림1] 드류콘웨이의 벤다이어그램

[1] 해킹스킬(프로그래밍 능력)

해킹은 나쁜짓이라는 인식이 많습니다.

그러나

해킹의 원래 뜻은 컴퓨터에 대한 지식을 의미하지요.

 

[2] 전문영역

특정 분야에 대한 도메인 지식을 의미합니다.

 

[3] 수학과 통계학

수학과 통계학에 대한 지식을 말합니다.

 


 

3. 통계분석을 할 수 있는 프로그램

 

SAS와 SPSS라는 통계분석을 할 수 있는 프로그램이 있지만

R을 많이 사용하는 이유는?

R은 무료입니다^^

 

파이썬도 있지만 통계를 전공하신 분들은

프로그래머가 아니기 때문에

R을 선호한다고 합니다.

 

R은 벨 연구소에서 개발된 S언어를 바탕으로 만들어졌다고 합니다.

뉴질랜드의 오클랜드대학의 로스 이하카와 로버트 젠틀맨에 의해 시작되었고

현재는 R코어 팀에서 개발을 맡고 있다고 합니다.

 

S언어는 통계학을 의미하는 statistics를 따왔으며

로스 이하카와 로베트 젠틀맨의 이름에서

공통으로 들어있는 R이라는 알파벳을 따와서 만들어졌다고 합니다.

 

벨 연구소에서는 C와 유닉스 등을 개발한거로 유명하죠?

알파벳 하나로 이름을 지정하나봅니다.

 


 

4. R사용법

Ctrl+Enter 하면 실행

블록드래그 후 Ctrl+Enter는 여러줄 실행

 

예를 들면

ans<-c(10,20,30,40,50) # 벡터에 데이터를 넣음
names(ans)<-c("짜장면", "짬뽕", "마라탕", "탕수육")
pie(ans, labels=names(ans), col=rainbow(5), main="먹고 싶은 음식은?") 
#차트를 그립니다.

 

[그림2] 먹고 싶은 음식(차트)

'Theory > Data Science' 카테고리의 다른 글

자료의 요약  (0) 2019.08.30

댓글