/ R

R과 구글 트렌드를 활용한 코로나 관련 검색어 탐구

R과 구글 트렌드를 활용한 코로나 관련 검색어 탐구

1. 개요

확률과 통계 과목을 통해 배운 지식과 도구들로 R과 구글 트렌드를 활용한 코로나 관련 검색어 탐구를 진행합니다. 탐구 주제는 구글트렌드로 알아보는 대한민국의 코로나 바이러스 실태와 실제 국민들은 코로나 바이러스를 어떻게 인식하고 있는지, 정말 전세계적 판데믹 상황으로 받아들이는지 약 1년 반 동안의 휴식으로 인식하는지 또는 어떤 생각을 하고 있는지 연령대 별로 통계를 내서 알아보도록 하겠습니다. 이외에도 네이버 데이터랩의 검색 데이터를 활용하여 검증을 거치도록 하겠습니다. 이때 확률과 통계 과목에서 배운 지식과 통계 기술을 사용하고, 도구로는 R, 엑셀 등을 활용하도록 하겠습니다.

이때, 구글 트렌드와 네이버 데이터 랩은 포털 사이트 구글, 네이버에서 이용자들이 검색한 검색어들을 공개해주는 서비스입니다. ‘모두 거짓말을 한다’라는 책에서는 포털 사이트의 검색창은 모든 사람이 자신의 걱정 혹은 생각들을 숨김없이 드러내는 곳이라고 합니다. 가족 심지어 자신에게 까지 드러내지 못한 감정이나 생각들을 포털 사이트에는 검색하여 정보를 얻는 일이 많기 때문입니다. 이러한 심리를 가설로 설정하고 실제로 국민들이 코로나 바이러스를 어떻게 인식하고 있는지 연구하도록 하겠습니다.

2. 구글트렌드를 통해 검색량 데이터 가져오기

2-1 통계 데이터 가져오기

구글 트렌드는 구글에서 제공하는 특정 검색량에 대한 추이 및 통계입니다. 사용자는 원하는 검색어를 구글트렌드에 입력하면 그 검색어에 대한 원하는 기간에서의 검색량을 csv 파일로 제공해줍니다.

(사진 1.구글 트렌드 ‘코로나’ 검색어 입력 사진)

이번 Term-Paper에서는 이렇게 얻은 검색어에 대한 csv파일을 이용하기 쉽게 엑셀 파일(xlsx)로 변환하여 R Studio 에서 통계 분석을 시행합니다. 통계에 대한 분석 결과를 통해 코로나 바이러스가 우리에게 미친 영향, 코로나 바이러스에 대한 인식의 변화 등을 탐구 하도록 하겠습니다.

(사진2. 구글 트렌드 ‘코로나’ 검색어 엑셀 파일)

2-2 R studio 엑셀 가져와서 출력하기

위의 엑셀 파일을 이용하여 R Studio 에서 분석을 진행합니다. 엑셀 데이터를 R에서 다시 그리고 이 데이터를 활용하여 시각화를 합니다.

먼저 엑셀 파일을 R Studio 프로젝트 폴더에 업로드 합니다. Home\statisticAssignment 경로로 프로젝트 폴더를 만들고 엑셀 파일을 옮겨줍니다.

install.packages(“readxl”)
//엑셀 파일을 다루기 위해 readxl 라이브러리 다운로드 library(readxl)
//readxl 라이브러리 로드 df1_exam_corona <- read_excel(“coronaExcel.xlsx”)
//엑셀 파일을 읽을 변수 생성 df1_exam_corona //엑셀 파일의 데이터 가져오기

위와 같은 과정으로 엑셀 파일의 데이터를 가져와 R Studio 에 그릴 수 있습니다.

(사진3. R Studio에 엑셀 데이터 그리기)

2-3 R studio 엑셀 데이터 시각화하기

df1_exam_corona 변수로 ‘코로나’ 검색어에 대한 통계 파일을 받아왔습니다. 이제 이 파일을 시각화하기 위해 ggplot2 라는 패키지를 다운로드 받습니다. ggplot2 는 R의 대표적인 그래프 그리기 툴입니다.

install.packages(“ggplot2”)
//테이블의 시각화를 위해 ggplot2 라이브러리 다운로드 library(ggplot2)
//ggplot2 라이브러리 로드 df1_exam_corona <- read_excel(“coronaExcel.xlsx”)
//엑셀 파일을 읽을 변수 생성 ggplot(data=df1_exam_corona, aes(x=Day, y=Corona, group=1)) + geom_line() //엑셀 파일의 데이터를 통해 선그래프 그리기

검색어 통계를 보기에 가장 직관적인 선 그래프를 그리기 위해 geom_line()을 통해 선 그래프를 그려주었습니다. 이것으로 ‘코로나’ 검색어에 대한 통계를 가져와 그래프를 그리는 것까지의 과정을 완료했습니다. 지금부터는 ‘코로나’ 이외의 검색어를 구글트렌드로 같은 방법으로 가져와 분석하도록 하겠습니다.  

3-1.‘코로나’검색량 통계

#### 3-1-1 통계 및 정리

(사진4. R Studio ‘코로나’ 검색어 통계 선 그래프)

2 의 과정을 거쳐 R Studio로 검색량 추이 통계 선 그래프를 그리는데 성공했습니다. 위의 그래프는 2019.12.01 ~ 2021.06.06 까지의 코로나 검색어의 검색량 통계입니다. 위 그래프를 통해 코로나 바이러스가 창궐한 2020년 초 코로나 바이러스에 대한 관심이 급증하여 사람들이 코로나 바이러스에 대해 위험 인식을 가지고 경계 하였음을 알 수 있습니다. 그러나 약 1년 후 마스크와 비대면 생활에 익숙해진 사람들은 코로나 바이러스에 대한 관심(검색)이 상대적으로 줄었다는 것을 알 수 있습니다. 한가지 재미있는 것은 시기입니다. 대한민국은 지금까지 3번의 대유행이 있었다. 2020년 3월 신천지에의한 1차 대유행, 2020년 8월 성북구 교회에 의한 2차 대유행, 또, 같은 해 11월 방역 한계와 무증상 감염자에 의한 3차 대유행입니다. 위의 코로나 검색어 그래프는 대한민국의 코로나 바이러스 1, 2, 3차 대유행 기간에 따라 검색어 그래프가 상승 곡선을 그린다는 것도 알 수 있습니다. 따라서 이러한 결과를 통해 코로나 바이러스에 대한 경계의 정도와 관심을 알 수 있습니다.

3-2. 휴일, 휴식 관련 검색량 통계

#### 3-2-1 ‘숙박’ 검색어 통계 및 정리

코로나 검색어 통계와 같은 과정을 거쳐 ‘숙박’이라는 검색어에 대한 구글트렌드 통계를 분석했습니다. 휴일에 나가고 싶어하는 사람들의 심리는 당연한 것이지만 코로나 바이러스 판데믹 상황에서는 자제해야 한다는 걸 모두 알고 있습니다. 따라서 휴일 관련 통계는 사람들의 바이러스 인식과 심리를 잘 나타내 줄 것이라는 가설을 세웠고 이는 꽤 들어 맞았습니다. ‘숙박’이라는 검색어에 대한 통계 그래프는 몇가지 흥미로운 점을 시사합니다. 첫번째로 2019년과 2020년의 경계입니다. 바이러스 창궐 전 2019년 말까지 숙박 검색량을 볼 때 많은 사람들이 여행 계획을 가지고 있었음을 알 수 있습니다. 특히 겨울방학 시점에 최고점을 찍은 것을 알 수 있습니다. 그러나 바이러스 창궐 이후 숙박, 즉 여행에 대한 관심이 크게 떨어졌습니다. 바이러스에 대한 경계심 때문입니다. 이를 통해 사람들이 바이러스에 대해 조심하고 있음을 알 수 있습니다. 두번째로 흥미로운 점은 그래프의 상승 곡선 시기입니다. 3-1에서 다룬 바와 같이 대한민국은 3번의 대유행이 있었습니다. 3월, 8월, 11월 입니다. 놀라운 점은 그래프가 3월, 8월 11월 시기에 상승곡선을 형성한다는 것입니다. 사람들은 대유행 직전 바이러스에 대한 경계가 헤이해졌고 많은 사람들이 참아왔던 여행을 감행한 것으로 이해할 수 있습니다. 물론 교회 발 확산이라는 사실이 가장 큰 이유이겠지만 사람들의 여행에 대한 관심의 급증도 또 하나의 이유가 될 수 있음을 시사하는 그래프입니다.

3-3. 줌’ 등 온라인 기능 이용 통계

#### 3-3-1‘줌’검색어 통계 및 정리

코로나 바이러스가 창궐한 이후 가장 큰 영향을 받은 분야는 분명 교육입니다. 바이러스 확산을 막기 위해 초중고대학교들은 모두 비대면 수업을 강행했고 수업을 위해 줌이나 구글 클래스룸 기능을 이용했습니다. 따라서 학교를 다니는 1020세대의 학생들은 이 둘을 자주 이용할 것입니다. 또한 학생 이외에도 직장인과 같은 사회인 들도 비대면 미팅 프로그램을 자주 이용할 것입니다. 위 그래프는 대표적인 온라인 미팅 프로그램 줌에 대한 구글의 검색량 통계를 그래프로 그린 것입니다. 2019년 까지 거의 이용 및 검색이 없었던 프로그램인 줌은 2020년 코로나 바이러스 창궐 이후 폭발적으로 이용량이 증가했음을 알 수 있습니다.

3-4.‘백신’검색량 통계

#### 3-4-1‘백신’검색량 통계 및 정리

2021년으로 판데믹 상황이 1년 이상 지속된 후 화이자, 아스트로제네카 등 기업에서 백신을 개발했습니다. 개발한 백신으로 현재 미국, 유럽 등은 꽤 높은 접종률을 기록했고 많은 사람들이 마스크 없는 일상을 되찾았습니다. 이는 곧 대한민국의 일상도 되찾아 줄 수 있을 것입니다. 따라서 순차적으로 모두가 백신을 맞는 것이 중요합니다. 위 백신에 대한 검색어 통계 그래프를 통해 사람들의 백신 관심도가 크게 올랐음을 알 수 있습니다. 또한 백신 검색어는 곧 백신 접종 예약을 위한 검색으로 이어지기도 하기 때문에 좋은 현상이라고 볼 수 있을 것 같습니다.

4. 결론

이렇게 많은 사람들의 일상과 행복을 빼앗은 코로나 바이러스 판데믹 상황에 대해 R을 활용하여 검색어의 검색량을 기준으로 분석을 해보았습니다. 확률과 통계 과목에서 배운 R Programming을 활용하여 간단하지만 의미있는 통계 분석을 했습니다. 검색량을 분석하는 것은 굉장히 의미있었습니다. 검색이라는 수단은 사람들로 하여금 자신의 의도와 속을 잘 드러낼 수 있는 방법이었습니다. 따라서 코로나 바이러스라는 민감한 주제에도 검색 만큼은 자신이 판데믹 상황에도 불구하고 하고 싶은 것 혹은 할 것 들을 가감없이 드러냈습니다. 그러한 결과인 검색량은 굉장히 신빙성 있는 통계였습니다. 이를 그래프로 그려 판단해보았을 때에도 실제 한국의 상황과 잘 들어맞음을 알 수 있었습니다.

검색어를 분석하는 것 외에도 R Programming은 데이터의 질과 분석가의 역량에 따라 무궁한 잠재력을 갖고 있습니다. 이번 텀페이퍼를 통해 가치있는 분석을 도출하기 위해 확률과 통계 과목의 기초는 굉장히 중요함을 알 수 있었습니다.