본문 바로가기

내가 터득한 R 프로그램

[통계] 척도, R 프로그램 패키지 인스톨

척도

일단 저는 R 프로그램을 통계위주로 배웠기 때문에 통계에 대한 사전 지식이 좀 필요하다고 느낍니다. 그래서 이번에는 통계 위주로 포스팅을 해볼까합니다.


통계의 가장 첫단계에서 우리가 알아야 할 것은 '척도'입니다. 척도에는 4가지가 있습니다. Nominal(명목), Ordinal(서열), Interval(등간), Ratio(비율) 척도입니다. 


1. Nominal 의 특징은 '이름 또는 카테고리'입니다.

예를 들어 색깔 이나 성별, 지역명 같은 것 들이죠. 만약에 성별을 구분 짓는다고 하면 0은 여자, 1은 남자 이런식으로 구분 짓는겁니다. 그러니 0과 1 숫자의 값은 아무런 의미를 갖지 않겠죠?


2. Ordinal 의 특징은 등급 또는 서열 이라고 할 수 있습니다.

하나의 값이 서열이 매겨지지만 그 사이의 간격은 알 수 없습니다. 예를 들어 제가 초등학교 다닐때 (지금도 그렇게 하는지는 모르겠지만) 수,우,미,양,가 를 매겼습니다. 이들 사이에는 분명히 서열이 존재합니다. 수가 가장 우수하고 가가 가장 낮은 성적이죠. 하지만 수와 우 사이, 양과 가 사이가 정확하게 얼만큼의 간격인지는 알 수 없습니다.


3. Interval 의 특징은 서열도 있고 그 서열 사이의 간격도 일정하다는 것입니다 하지만 0이 존재하지 않습니다.

예를 들자면 온도가 있습니다. 1도와 2도 사이 30도와 31도 사이는 같습니다. 온도계에도 0도가 있잖아요! 그럼 Interval이 아니잖아요 라고 하실 수 있겠지만 여기서 0은 숫자 0(없음)을 의미하지 않죠. 그 말을 더 자세하게 풀자면, 어제 날씨의 온도는 1도 였는데 오늘은 2도입니다. 그럼 우리가 어제 날씨보다 오늘 날씨가 2배 더 따뜻해! 라고 말할 수 있나요? 우리는 결코 그렇게 느낄 수가 없지요.


4. Ratio의 특징은 서열도 있고, 간격도 일정하며, 0도 존재한다는 것입니다.

예를 들자면 우리나라 신발 사이즈가 있겠지요. 내 아이가 140mm 신발을 신고 내가 280mm 신발을 신는다면 내 발이 내 아이의 발보다 두배 더 길다! 라고 말할 수 있습니다.


통계에서 조사를 하기전에 가장 먼저 정해야할 것이 바로 척도 입니다. 남녀를 구분하는데 엉뚱하게 Interval 척도를 사용할 수는 없겠지요. 그래서 이것을 구분하는게 가장 기본이 됩니다.


패키지 인스톨


앞으로 R 프로그램을 할때 패키지를 사용할 겁니다. R 프로그램은 많은 데이터를 제공해주는데요. 그것들을 무료로 다운받을 수 있습니다. R Studio를 실행해주시고, 거기서 콘솔창에 명령어를 입력합니다.


install.packages("Ecdat")


그러면 R프로그램은 저절로 인터넷에 들어가서 "Ecdat"이라는 패키지 데이터를 여러분의 폴더로 가져오게 됩니다.

그럼 "Ecdat"이라는 패키지에 어떤게 있는지 볼까요?


data(package="Ecdat")


"Ecdat"이라는 패키지 안에 알파벳 순으로 정리된 겁니다.

앞으로 저는 주로 그중에 BudgetFood 라는 데이터를 이용할 건데요. 옆에 설명이 나와있죠? "스페인 가정의 식료품 예산"이라고 되어있는데요. 한번 들여다 봐볼까요?


help(BudgetFood,package="Ecdat")


그러면 오른쪽 하단에 BudgetFood에 대한 설명이 나옵니다. 1980년에 조사를 했고 표본 수는 23972명이고 스페인에서 실행했으며 등등...

데이터를 다운로드 받는다고 그걸 바로 사용할 수 있는건 아니고 그 데이터에 "접근"해야합니다.

먼저 데이터를 불러오구요


library("Ecdat")


그 다음 "접근"을 합니다.


attach(BudgetFood)


그럼 오른쪽 밑에 우리가 help 명령어를 쳤을때와 같은 내용이 나오지요. 거기서 Format을 보면 여러가지 카테고리가 있는데요 거기서 성별을 한번 봐볼까요?



그러면 이렇게 일단 1000명의 대한 성별이 나열됩니다. 전체의 수가 너무 크기때문에 1000명만 보여주는 것이지요.

여기까지 조금 복잡한 것 같지만 R프로그램에 패키지까지 들여다 봤습니다. 그럼 다음부터는 정말 본격적으로 R프로그램을 통해서 통계도 같이 들여다 볼 수 있을 것 같네요~