/ PYTHON

관광 요인 분석을 통한 외래 관광객 유치 방안 제시

[PYTHON] 관광 요인 분석을 통한 외래 관광객 유치 방안 제시

기간 : 2021. 07. 01 ~ 2021. 7. 28

업무 : 팀장 업무(스케쥴링, 업무분장 등), LGBM(머신러닝)을 활용한 관광 요인 및 재방문 요인 도출, 신뢰도 검정


사용 데이터 셋

데이터셋 목록표

공공기관에서 제공하는 공공데이터 활용


프로젝트 진행 절차

진행 절차 도식화


신뢰도 검정

신뢰도 검정 데이터 전처리

필요한 열들(분석 및 러신머닝에 사용될 컬럼)만 추출한 후 하나의 데이터 프레임으로 병합. 이상치 및 결측치 처리


신뢰도 검정 리커트 척도 변환

신뢰도 검정을 위해서 데이터를 리커트 척도로 변환. 리커트 척도는 1~5점 설문 척도


신뢰도 검정 측정

크론바흐 알파 계수가 0.86으로 상당히 높은 신뢰도라고 할 수 있음


EDA(탐색적 데이터 분석)

EDA 전처리

1차원적인 데이터 분석 및 시각화를 위한 전처리 과정. 필요한 열만 추출한 후 이상치, 결측치 처리. 그 이후 그룹 별 카운팅


EDA 결과1

신뢰도 검정 데이터 전처리

Plotly 라이브러리를 활용하여 대화형 시각화


LGBM(머신러닝)

LGBM은 머신러닝의 일종으로 빠른 처리속도가 특징과 그만큼 쉽게 과적합되는 것이 특징인 모델

LGBM 데이터 전처리1

머신러닝 모델 구축에 사용할 컬럼들 추출


LGBM 데이터 전처리2

추후 시각화를 위해 컬럼명 변경


LGBM 데이터 전처리3

설문 조사 데이터를 원활하게 활용할 수 있도록 리커트 척도로 변환


LGBM 모델 구축

리커트 척도로 변환한 각 관광 요인(혹은 재방문 요인)을 입력으로, 출력을 전반적 만족도 컬럼으로 한 모델 구축


LGBM 모델 검증

구축한 모델의 성능을 검증. 학습 및 검증 비율은 7:3 혹은 8:2로 정확도 향상에 따라 달라질 수 있음


LGBM 결과

구축한 모델에서 각 변수(요인들) 중요도를 시각화하여 중요한 관광 요인(혹은 재방문 요인)을 도출


LGBM 결과 요약

도합 12개 모델의 결과를 요약


시계열 분석

향후 외래관광객 추이를 파악하고 대략적인 관광객 수를 추측. 새롭게 제안할 정책/사업/서비스 등의 규모 설정에 결과를 활용할 수 있음

시계열 모델 구축

시계열 분석은 Facebook의 fbprophet을 사용. 2019년 자료를 제외한 2005년~2018년 데이터로 학습. 2020~2021은 코로나 기간으로 제외


시계열 분석 결과 추이

향후 3년간 외래관광객 추이는 증가세


시계열 분석 결과

2022년 외래관광객 수는 대략 약 1847만 ±1093610명. 오차 범위 약 ±6


활용 방안

위 단계들을 통해 관광 요인과 재방문 요인 모두 제일 영향력이 큰 요인이 '식도락 관광(맛집 탐방)'임을 알 수 있었음. 식도락 관광에 신규 사업/정책/서비스를 투자하는 것이 제일 효율적이라고 판단할 수 있음

공통 맛집 추천 시스템

외국인과 한국인이 선호하는 식재료, 맛이 다르다는 선행 연구들을 참고하여 자국민과 외국인 모두가 공통적으로 호평한 식당을 추천하는 시스템 제안. 추가적으로 편의성 제공을 위해 식당 영업 시간, 메뉴 평균 가격대 등의 기본 정보를 비롯하여 노 키즈 존, 반려동물 금지 등의 식당 별 특징과 식재료 등의 부가 정보까지 제공


핵심 설명

제공 부가정보


기대효과