완전 별 거 아님

2탄 SPSS 회귀분석 – 일본 불매운동에 관한 꼬마논문 쓰기

나름 순조로운 항해 일지를 쓰고 있는 중이다.
저번 글에서는 한 달 동안 지도교수가 답장을 안해줘 슬슬 될 대로 되라 식으로 생각하고 있었다. 그러다가 정말 한 달 쯤이 지났을 때 답장이 왔다. 초반 미팅에서는 일주일 후에 답장이 왔을 때도 미안하다, 깜빡할 수 있으니 리마인드 해 달라는 식으로 얘기하더니만 그런 말도 없다. 어찌 됐든 이번 시간에는 꼬마 논문의 본격적인 진행 과정과 내가 한 SPSS 분석에 대해 소개해 보겠다.


SPSS 분석의 선행과정

SPSS는 Statistical Package for the Social Sciences의 약자로 IBM에서 출시한 통계 분석 툴이다. 약자에서 짐작할 수 있듯이 사회과학 분야에서 곧잘 쓰이는데, 많은 분야에서 통계분석이 활용되는 만큼 정말 다양한 분야에서 쓰이는 듯 하다. SPSS 분석을 하려면 꽤 체계적인 선행과정을 밟아야 한다. 논문이나 조사를 계획할 때부터 통계분석 결과에 대한 가설을 세우며, 설문조사를 통해 데이터를 수집할 때는 어떠한 분석을 실시할 것이며 데이터를 어떻게 정리할 지 등에 대한 생각이 필수불가결하다.

나는 (학사 과정이기도 해서) 비교적 쉽고 대중적인 방법을 택했다. 앞선 글에서 짧막하게 소개했지만, 내가 하려는 주제는 타국에 대한 적대감(Animosity), 불매운동의 제도적 & 비제도적 동기(Instrumental & Non-instrumental motivations), 그리고 불매운동 참여에 따른 비용(Costs for boycotting)이 불매운동 참여자들의 “기간”에 영향을 미치지 않겠냐는 주제다. 즉, 현재 한국에서 진행되는 #노재팬 불매운동의 경우, 일본에 대한 적대감이 더 큰 사람이 단순히 불매운동에 참여할 확률이 높다는 것에서 더 나아가 (이는 기존 몇몇 연구들이 밝혀냈다), 적대감이 비교적 적은 개인들에 비해 불매운동에 오래 참여한다는 가설이다 (불매운동이라는 소비자 행동이 드문 현상인 만큼 시간적 요소를 고려한 논문은 불매운동의 경제적 측면을 제외하고는 전무했다). 이는 제도적 & 비제도적 동기에서도 똑같고 (i.e. 불매운동의 동기가 높을 수록 오래 참여할 것이다), 비용에 대해서는 반대다 (i.e. 불매운동 참여에 따른 비용이 적을 수록 오래 참여할 것이다). 이렇게 조사에 대한 전반적인 구조화가 끝났다면 가설을 검증하고 결론을 이끌어내기 위해 필요한 분석 과정을 고려해야 한다. 분석 과정은 어떠한 주제에, 어떠한 가설을 세웠는지에 따라 특정한 분석 방식이 필수적으로 요구될 수도 있고 정석적인 방식을 따라가야 할 수도 있다. 내가 방금 말한 가설에서도 금방 알 수 있듯이, 내 주제는 딱히 어렵지 않기에 꽤 정석적인 방식을 따랐다. 내 조사의 독립 및 종속변수는 다음과 같다.

독립변수 (Independent variable; 즉, 종속변수에 관해 가설을 검증하려는 분리된 변수들)

  1. 일본에 대한 적대감 (Animosity toward Japan)
  2. 불매운동의 제도적 동기 (Instrumental motivations for boycotting)
  3. 불매운동의 비제도적 동기 (Non-instrumental motivations for boycotting)
  4. 불매운동 참여에 따른 비용 (Costs for boycotting)

종속변수 (Dependent variable; 즉, 독립변수들을 통해 내가 실험해보고자 하는 변수. 어떠한 가설을 세웠느냐에 따라 꼭 하나가 아니어도 된다. 그러면 할 게 굉장히 많아지는 것이고..)

A. 불매운동의 참여 기간 (The length of boycott participation)


SPSS 분석 (회귀분석과 기타 등등)

위 변수들로 알 수 있는 것은 내가 총 4개의 가설을 만들었다는 것이고 (1-A/2-A/3-A/4-A), 앞서 말했듯이 내가 가정한 독립변수들이 얼마나 종속변수를 결정하는지 알고 싶기 때문에 회귀분석(Regression analysis)을 실시해야 한다. 가장 간단한 선형회귀분석(Linear regression analysis)는 독립변수 X가 종속변수 Y와 얼마 만큼의 상관성을 가지고 있는지 측정한다. 약간 더 복잡한 다중회귀분석(Multiple regression analysis)은 단순히 독립변수를 두개 이상으로 늘릴 뿐이다. 따라서 나처럼 4개의 독립변수가 있는 경우에는 다중회귀분석을 실시한다. 여기서 내가 (바보같이) 헷갈리던 부분이 나온다. 나는 애초에 각각 4번의 선형회귀분석을 실시하려고 했었다. 일본에 대한 적대감이 불매운동의 참여 기간에 얼마 만큼의 영향을 미치는지 분석하고, 그 다음으로 넘어가서 제도적 동기와 참여 기간, 그리고 또 다음, 기타 등등.

(그림 1: 내 꼬마논문의 전체적 패러다임 / 귀찮아서 안바꿨는데 H3a랑 H3b는 합쳤음)

하지만 논문에서 그런 식으로 각 가설에 대한 선형회귀분석을 실시하는 것은 단순한 이유 때문에 쓰지 않는 것이 좋다. 신뢰성이 떨어진다. 선형회귀분석은 독립변수를 한 가지만 고려하기 때문에 일종의 ‘실험실 세팅’에서 실험용 쥐들에게 각기 다른 약품을 주사하는 것과 비슷하다. 영화 <나는 전설이다>에서 처럼 각각의 피실험군에게 조금씩 다른 백신을 주사해 효과 있는 백신 하나 만을 찾아내는 것과 우리는 목표 자체가 다르다. 불매운동과 같이 현실에서 직접 일어나는 현상을 효과적으로 예측하기 위해서는 일종의 ‘모델’을 제시해야 한다. 어느 사람이 불매운동에 참여하는 이유는 단순히 일본에 대한 적대감 때문도, 선한 동기 때문도 아니라 여러 가지 요인들이 복합적으로 작용한다. 이 복합적인 작용을 최대한 유의적으로 밝혀내기 위해서 모델이 필요하고, 다중회귀분석이 그 모델을 반영한다. 가령, 내가 논문에서 제시하는 모델은 위 4개의 독립변수가 1개의 종속변수에 영향을 미치지 않겠냐는 것이다.

다중회귀분석을 위한 이러한 이론적 논의가 끝났으면 사실 SPSS의 ‘Analyse’ > ‘Regression’ 탭에 들어가 종속변수와 독립변수 칸에 미리 기입한 데이터를 옮기고 분석만 누르면 끝난다. 하지만 그 전에 당연히 데이터 세트를 미리 만들어 놓아야 하고 몇 가지 분석을 추가로 실시해 준다. 내가 진행한 가장 보편적인 순서는 1. 빈도분석 (Frequency analysis) > 2. 신뢰도분석 (Reliability analysis) > 3. 서술적 분석 (Descriptive analysis) 이다.

  1. 빈도분석 (Frequency analysis)
    – 빈도분석은 별 게 없고, 내 조사와 비슷하게 사람들에게 설문조사를 실시하여 그들의 데이터를 바탕으로 통계분석을 실시할 때 그들의 인구통계학적(Demographic) 정보나 질문들의 답변 분포 등을 퍼센티지(%)로 나타낸다. 나의 경우에 빈도분석은 4개의 가설과 직접적으로 연관관계는 없다. 하지만, 조사 결과에 대한 설명이 필요할 때 혹은 미래 연구에 대한 방향성을 나타내는데 빈도분석의 결과와 함께 유의미한 논의를 펼칠 수 있다. 예를 들어, 설문지 응답자의 몇 퍼센트가 남성이었고, 고등학교 이상의 학력을 가지고 있었으며, 20대 였다, 그리고 이러한 빈도에 비추어 볼 때 왜 해당 가설이 참인지 설명하는 식이다.
    또한, 내가 직접 수집한 데이터가 얼마나 균등하게 분포되었는지를 알려주며, 혹시 남성 응답자가 여성보다 압도적으로 많거나 응답자 대부분이 10대인 경우에는 이에 대한 내 조사의 한계점을 언급하고 미래 연구에는 이러한 한계점의 보완 등을 제시할 수 있다.
  2. 신뢰도분석 (Reliability analysis)
    – 신뢰도분석은 설문조사를 통해 데이터를 수집한 경우, 무조건적으로 필요하다. 설문지의 문항들이 조사 주제에 대해 얼마나 신뢰도가 있는지 알려주는데, 특히 해당 주제에 대해 내가 임의로 질문을 만든 경우에는 신뢰도가 상당히 낮을 수도 있다. 그런 경우에는 다음 분석을 진행하기 전에, 결과를 왜곡할 수 있는 해당 질문들을 삭제하는 것을 고려해야 한다. 어떻게 신뢰도를 측정할까? SPSS에서 ‘Analyse’ > ‘Scale’ > ‘Reliability analysis’를 통해 미리 SPSS에 옮겨 둔 질문들의 신뢰도를 밝혀낼 수 있다. 중요한 것은, 신뢰도를 측정하려는 문항이 최소 2개 이상 존재해야 한다는 것이다. 예를 들어, 내 논문의 ‘불매운동 참여 기간’의 경우 단순히 한 질문으로 구성된다. 그리고 애초에 이러한 질문의 경우 실제 사실에 근거하기 때문에 신뢰도 분석은 의미가 없다. 하지만 ‘일본에 대한 적대감’의 경우 나는 총 9개의 질문을 구상했다. 1번 (나는 일본이나 일본인을 싫어한다), 2번 (나는 과거 일본과의 전쟁에 대해 분노를 느낀다), … 9번 (일본은 한국에서 부정하게 비즈니스를 하고 있다). 이렇게 ‘한 카테고리 or 한 가설’을 구상하는 질문들을 모두 모아 SPSS의 Reliability analysis 칸에 넣는다. 결과는 Cronbach’s Alpha를 통해 나타나는데, 값은 최소 0에서 최대 1까지로 제시된다. 보통 0.7~0.95 정도의 Cronbach’s Alpha 값을 이후 분석을 실시하기 괜찮은 신뢰도 값이라고 생각한다. 신뢰도가 낮은 경우에는 표본이 너무 적거나 (예: 한 카테고리에 대해 묻는 질문이 2~3개 밖에 없는 경우), 어떠한 질문이 잘못 만들어진 경우일 수 있다 (예: 일본의 대한 적대감에 대한 카테고리지만, 질문이 ‘한국 제품이 일본 제품보다 낫다’인 경우). 이러한 경우에는 밑의 서술적 분석이나 회귀분석을 하더라도 결과가 예상한 것과 다르게 나올 수 있고 애초에 전체적인 논문의 설계가 잘못된 경우이기에 그 항목만을 삭제해야 한다.
  3. 서술적 분석 (Descriptive analysis)
    – 서술적 분석은 답변들의 평균치(Mean)와 표준편차(Standard deviation)을 계산함으로써 답변들의 전반적인 경향을 나타낸다. 예를 들어, 7-point 리커트 척도(Likert scale)를 사용하여 1 = 매우 동의하지 않음, 7 = 매우 동의함, 으로 설문지 문항을 설계한 경우 어떠한 카테고리는 상대적으로 낮은 평균치(예: 3.3), 또 다른 카테고리는 상대적으로 높은 평균치(예: 6.1)가 나타날 수 있다. 전자는 사람들이 해당 카테고리에 대해 비교적 동의하지 않는다는 결론을 내릴 수 있고, 후자는 동의하는 응답자가 많다고 생각할 수 있다. 서술적 분석을 실시하는 이유는 이렇게 어떠한 질문 or 카테고리가 ‘매우 동의함’과 가까운 평균값을 가지고 있고, 어떠한 질문이 표준편차가 높아 응답들이 너무 제각각 분포되어 있다는 등의 해석으로 이어갈 수 있다.

    그리고 마지막으로 회귀분석이 있다.
  4. 회귀분석 (Regression analysis)
    – 회귀분석은 위에서 언급했듯이, 2개 이상의 독립변수를 사용한다면 다중회귀분석을 실시해야 한다. SPSS에서는 일반적인 선형회귀분석을 실시하는 것과 같이 ‘Analyse’ > ‘Regression’ > ‘Linear’에 들어가 <dependent> 창에 내가 최종적으로 검증하고자 하는 종속변수를, <independent> 창에 독립변수를 넣으면 된다. 선형회귀분석과의 차이점은 독립변수를 하나 넣느냐, 여러 개 넣느냐의 차이다. 자세히 어떠한 옵션을 선택해야 되는지에 관해서는 유튜브 강의 등을 참조하는 게 나을듯. 어쨋든, 가장 기본적으로 이렇게 변수들만 넣고 분석을 돌려도 내 모델이 얼마나 유의한지(R value)와 각 독립변수들이 종속변수에 얼마만큼의 영향을 미치는지(standardised coefficient beta)와 각 가설이 유의한지(p-value) 등을 한 번에 알 수 있다. 유튜브나 다른 블로그에서 정확히 어떻게 회귀분석을 하는지는 나와 있으니 패스.

나의 SPSS 분석

  1. 빈도분석
(그림 2 좌측 – 응답자의 나이대, 우측 – 나이대에 따른 불매운동 참여기간)
(그림 3 좌측 – 응답자의 성별, 우측 – 성별에 따른 불매운동 참여기간)

2주 동안 인터넷에 설문지를 돌린 결과 총 응답자 161명을 모을 수 있었다. 설문조사 툴은 구글 폼(Google Form)을 이용했는데, 각 질문 별 답변들이 엑셀로 정리되어 데이터를 처리하기 편하고 한번에 SPSS에 옮길 수 있어 편하다. 빈도분석이야 단순히 계산기를 두드려서 퍼센티지를 얻을 수도 있고, SPSS의 ‘Analyse’ > ‘Descriptive’ > ‘Frequency’에서 빈도를 알고자 하는 변수들을 입력해 각 변수나 데이터 집단에 대한 퍼센티지 값을 알 수 있다.

내 설문조사의 결과는 50~59세의 응답자가 가장 많았고, 그 뒤로 20~29세가 뒤따랐다. 주목할 만한 결과가 나온 것은 나이대별 불매운동의 참여 기간을 그래프로 표현한 것인데, 그림 2를 보면 알 수 있듯이 나이대가 높아질 수록 불매운동에 상대적으로 길게 참여하는 사람들이 많았고, 나이대가 낮아질 수록 상대적으로 짧게 참여하는 사람들이 많았다. 성별에 관한 차이는 비교적 미미했다.

2. 신뢰도분석

(그림 4 – 신뢰도분석 표)

보통 신뢰도 분석의 결과를 이렇게 자세하게 보여줄 필요는 없다. 하지만 내 설문조사에 대한 신뢰도 분석을 돌린 결과 한 독립변수(Costs for boycotting)에 대한 신뢰도가 꽤 낮게 나와 신뢰도가 가장 낮은 질문 하나(CO3)를 삭제했고 이후 연구에도 포함시키지 않았다. 물론 정식적인 논문이나 연구의 경우 계획부터 실제 데이터 수집까지 준비가 완벽하게 되어 있기 때문에 100이면 100, 신뢰도가 굉장히 높지만 나 같이 야매로 꼬마 논문을 쓰는 정도면 신뢰도가 낮은 문항이 더러 있을 수 있다.

3. 서술적 분석

(그림 5 – 서술적 분석 표)

서술적 분석은 대부분 평균값(Mean)과 표준편차(Standard deviation)를 구하면 된다. 논문의 Discussion 부분에서 가장 중요한 회귀분석의 결과 뿐만 아니라 이 서술적 분석에 대한 논의도 어느 정도 진행하는데, 특히 어느 가설이 왜 맞고, 왜 틀린지에 대해 근거를 서술해야 하거나 내 설문조사의 특징적인 부분 (e.g., 이 변수는 상대적으로 평균이 높고, 저 변수는 표준편차가 높다~)을 서술해야 할 때 꼭 필요하다.

나의 경우에는 가장 첫번째로 종속변수인 “불매운동 참여 기간”의 평균값은 8.3354가 나왔는데, 이는 설문조사 응답자들이 평균적으로 8.3개월 동안 불매운동에 참여했다는 것을 나타낸다. 또한 그 옆에 표준편차 5.13346은 평균적으로 5개월 정도의 참여 기간에 대한 편차를 가짐을 알 수 있다. 독립변수에 관해서는 “불매운동의 제도적 동기”가 5.3944로 가장 높은 평균값을 보였다. 내 설문조사는 1~7 리커드 척도를 기반으로 했으니 상당히 많은 응답자들이 높은 제도적 동기를 가졌음을 알 수 있다. 다른 특징으로는, 나도 예상했듯이, “일본에 대한 역사적 적대감”이 무려 6.0901의 평균치를 보여 거의 대부분의 응답자들이 높은 역사적 적대감을 가진 것으로 드러났으며, 가장 오른쪽항의 개별질문을 보면, 질문 NIM6이 평균값 3.6460으로 다른 질문들의 평균값을 고려할 때 많은 사람들이 ‘비동의’ 하는 쪽에 답변 했음을 알 수 있다. 이 문항은 ‘나는 사회적인 압박을 느껴 불매운동에 참여한다’ 였으므로, Discussion 파트에서 ‘사회적인 압박은 불매운동의 참여 기간에 상대적으로 낮은 영향을 미친다’는 식으로 논의를 전개할 수 있을 것이다.

4. 회귀분석

(그림 6 – 회귀분석 표)

마지막으로 다중회귀분석의 결과다. 가장 첫번째 (Constant)는 테스트하는 대상인 “불매운동의 참여 기간”, 즉 종속변수를 가르키고, 그 밑의 4개는 독립변수다. 여기서는 3개 정도를 유의하게 논의하면 된다.

첫번째로 표 밑에는 내가 구상한 “모델”에 관한 ANOVA 분석 결과이다. 회귀분석을 돌리면 이 다중회귀분석 모델에 대한 ANOVA 분석 결과도 자동으로 도출되는데, 가장 오른쪽에 R제곱과 Adjusted R제곱 값을 보면 된다. 여기는 0.414와 0.399로, “내가 구상한 4개의 독립변수가 종속변수를 대략 40% 예측할 수 있다” 는 것을 의미한다. 즉, 모델의 정확성을 나타낸다. 두번째로 표 안의 로마자 B로 쓰여진 베타 혹은 Standardised coefficient beta는, 각 독립변수가 종속변수에 미치는 퍼센티지적 영향을 나타낸다. 0.521로 가장 높은 값을 보이는 Costs for boycotting의 경우 독립변수인 불매운동의 참여 기간을 52.1%의 유의확률로서 예측할 수 있다. 반대로 낮기만 할 뿐 아니라 마이너스(-) 값을 가진 Animosity toward Japan은 오히려 독립변수인 불매운동의 참여 기간을 “반대로” 9.5%의 유의확률로서 예측한다는 의미다. 이거는 다시 말해 그냥 실패한 변수라는 말이다. 세번째로 표 안의 p-value는 내가 세운 가설이 유의미한지를 나타낸다. Cut-off 값은 0.05 미만으로, p-value 값이 0.05 미만이여야지만 내가 세운 가설이 참이라는 말이다. 당연히 Animosity toward Japan의 경우 심지어 마이너스의 베타 값을 보여주므로 p-value 또한 0.289, 즉 가설이 유의미하지 않다는 결론이 나온다. 내 조사의 4개 독립변수들 사이에서는 오직 Instrumental motivations과 Costs for boycotting의 p-value가 0.05 미만으로, 내가 예상한 가설이 참이라는 것을 검증할 수 있었다.


저번 글에서는 그저 내 얘기를 하는 식으로 글을 끄적여봤는데, 이번 글은 혹시 내가 나중에라도 기억할 수 있게 혹은 다른 사람들에게 조금이라도 도움이 되고자 하는 마음에서 좀 더 원론적인 내용을 끄적여봤다. 사실 유튜브나 구글에 “SPSS 회귀분석”만 쳐도 어떻게 하는지 자세히 알려주는 유익한 글이 넘쳐나기에, 스크린샷까지 찍어가며 어떻게 하는지 복기하기 보다는 ‘내 경험에 의거’하여 왜 이러한 분석을 사용해야 하는지에 포커스를 맞췄다. 특히 앞서 말했듯이 다중회귀분석 or 선형회귀분석 중 어떠한 것을 사용해야 하는지 갈피를 못잡았을 때, 아무리 검색을 해봐도 속 시원한 해설을 보지 못했던 것이기에 그러한 포인트를 좀 설명해 봤다. 아무래도 이거는 전공자들이 “그냥 다중회귀분석 하세요.. 이유는?.. 그냥 하라면 하세요” 식으로 설명해 주기에 나같이 초급레벨이나 통계에 문외한인 사람들이 좀 더 현실적인 이유에서 회귀분석의 방법론을 알아두었으면 한다.

기본

답글 남기기

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Google photo

Google의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Twitter 사진

Twitter의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

%s에 연결하는 중