1.项目任务介绍
1.1背景介绍
旅游业是香港的核心产业之一,其中来自中国内地的游客更是占全部访港旅客的绝大多数;2019 年,从中国内地入境香港的旅客人数达到了总旅客人数的78.29%。
受到疫情封关的影响,相比于 2019 年,2020 年的访港旅客人数骤减 99.8%,香港旅游业遭受严重打击,许多服务于旅游业的香港人失业。 2023 年 2 月香港与内地通关,游客往来相关和内地无需隔离,政府亦推出一系列吸引游客的措施, 在此情况下,能准确的定位和分析影响香港旅游业的因素显得尤为重要。
分析和预测离不开数据的支持,社交媒体平台是内地访港旅客最常用的分享和交流旅行信息的平台,而慧科拥有丰富的社交媒体数据源和成熟的自然语言处理及数据分析技术。在此项目中,我们意在根据社交媒体大数据来构建一个具备预测能力并能实时更新的旅行热度指标,为香港政府和旅游商业洞悉重要信息,帮助决策。
1.2研究目标: 慧科-港科大旅游指数
慧科-港科大旅游指数是一个直观便捷,并具备实时月度更新性质的预测性指标。慧科-港科大旅游指数拥有完整的理论框架支持,囊括超过 20 种旅行相关的影响因素(如交通,景点等),依靠用户原创内容作为大数据支持,能够为我们的客户提供准确的预测,帮助客户获得及分析未来的旅行相关数字和趋势(如下个月的旅客到访人数等)。
慧科-港科大旅游指数的主要受众为政府和酒店等旅游相关商业。对于政府, 慧科-港科大旅游指数的预测能力能够协助其调整未来的旅游业相关政策并落实到相关部门(如入境处等)。对于旅游相关商业,慧科-港科大旅游指数的实时更新性能够紧跟时事,季节,及假期的变化,为客户提供第一手的预测性商业信息,让其能够根据预测更新或提前安排商业计划。
1.3研究团队
本项目由慧科AI 部门(Wisers AI)与香港科技大学商业及社会资讯分析研究中心合作完成。Wisers AI, 前身为 Wisers AI Lab(慧科AI 实验室)2014 年 7 月成立于香港,专注于以人工智能技术解决中文全媒体资讯自动化分析与大数据情报挖掘。目前拥有 20 余位毕业于欧美及中港台知名院校的 AI 及计算语言学专家。所有成员均拥有硕士以上学位,其中 35% 的成员拥有博士学位。
多年积累的全球数一数二且不断增长的中文全媒体信息数据库及语义资源,以 人工智能与大数据技术为驱动,专注研发面向实际应用的开放领域多元化数据 AI 分析技术,实现从跨媒体的海量数据流中及时发掘与识别对客户最重要、最有价值、及最相关的资讯情报。自主研发的全面涵盖自动化媒体情报处理与挖 掘的自然语言处理及人工智能技术包括:命名实体识别、情感分析、话题分类、文章聚类、图像识别等,拥有 10 多项国际发明专利及奖项。
香港科技大学商业及社会资讯分析研究中心(CBSA)应用最先进的统计、计量 经济学、机器学习和人工智能工具于分析新兴的大数据趋势以产生商业和社会洞察力,并作为协作大学学者、商业组织、非政府组织和智库的研究人员之间的平台,为专业和普通受众分析商业和社会历史,案例及问题。具体来说中心将收集和分析来自传统媒体、文献、及社交网络的用户生成数据,适时进行行业调查和民意调查及分析以提供创新的商业和社会见解。这些见解和建议将有助于香港和大中华地区的经济和社会发展。
2.项目方法论
2.1数据理解和采集
在预测旅游业数据的研究里,最基本也是最重要的步骤之一为定位和分析能够影响未来旅游业数据的关键因素。在此次项目中,慧科团队对大量过往相关文献进行了研究,并注意到,在过去的旅游产业相关学术报告中,尽管不同研究所提出的能够影响旅游业的因素不尽相同,但最为关键的几个因素基本一致。2017 年Reitsamer 等人以旅客问卷方式进行研究,将到访方法,设施,景点,娱乐与当地社群作为关键因素进行分析。在 Lee 等人于 2010 年的研究中,以专家小组分析的方式,将到访方法,设施,景点和辅助服务作为关键旅游因素。同样以专家小组分析进行研究的,Deng 等人在 2002 年的研究中,将交通,便利设施,景点,当地社群和周边景点定位为能够影响旅游业的关键因素。值得注意的是,在 1998 年Kim 以旅客调查采访的方式进行的研究中,除去上述因素外, 还将环境洁净程度,季节性景观等因素加入研究;同时将设施,娱乐等因素进一步细化为休闲设施品质,家庭型旅行设施及其安全性等细分因素。而在最早的 1974 年 Gearing 等人的专家小组研究中,则是以较为概括的概念,分析了食物,自然,社会,历史,及购物五大因素。
综上我们可以看到,尽管在过往的学术研究中,时间和空间的跨度很大,但这 些研究提出的能够影响旅游业的因素大体类似。在此次项目研究中,我们总结 了各文献中通用的旅游业因素,并结合了香港本地特点,定位了六个能够对香 港旅游业起到重大影响的关键因素,分别为到访方法,设施,景点,娱乐活动, 当地社群,和附带因素。