趣数据,五道口吃货指南!

来自专栏 DataHunter

作为宇宙中心,五道口的美食也是相当出名。

对于学院路附近各大学的学生和公司员工来说,每天最发愁的事情可能就是「今天要翻哪家餐厅的牌子」。

小编作为资深吃货,特别想知道还有哪些漏网之鱼待我品尝,所以一个冲动就爬取了大众点评上五道口所有的餐厅数据,所以接下来让我们来完成一次香气四溢的数据可视化分析之旅吧。

一、数据采集

工具:集搜客(相对简单,推荐小白使用,没有收广告费哦)

共采集原始数据742条

二、分析主题

1、哪个菜系的餐馆最多?

2、不同菜系的人均消费分别是多少?

3、哪个餐馆最为火爆,评价人数最多?

4、口味、服务、环境综合评分最高的是哪家餐馆?

三、理解数据

通过观察发现,H列以后的数据,都是与分析主题无关的数据,所以我们可以将它们都隐藏掉。

四、清洗数据

数据清洗的详细步骤和内容,可以参考公众号的上一篇推文,用excel就能完成。

这里说一下针对此文中数据的主要操作:

1、删除重复值

2、格式处理

「总点评数」这一列的数据为文本格式,无法进行计算,所以需要进行格式转换。

首先选中该列,点击「分列」工具,在设置列数据类型时选择「常规」即可。完成后的该列数据格式就会变为「数值」格式。

3、缺失值处理

通过筛选功能,发现一共有112条记录没有人均消费数据,我们将其做删除处理。

4、一致化处理

人均消费、口味、服务、环境的数据,很明显包含很多无用的文字,我利用数据-分列功能将其进行优化,最后得到结果如下:

五、数据分析及可视化

将上述清洗好的数据导入工具备用

工具:DataHunter的数据可视化分析工具Data Analytics

1、将「菜系」分别拖入维度和度量,选择生成文字云,可以很明显看到各菜系的分布情况,其中小吃快餐、面包甜点、咖啡厅、火锅、韩国料理、西餐、烧烤、日本菜的店铺都比较多。

2、将「菜系」拖入维度,「人均消费」拖入度量,选择生成柱状图,就可以看到各个菜系的平均消费情况。

注意:度量中默认的聚合方式是综合,我们将其选择为「平均值」,并选择「降序」,就有了下图。

可以看到,人均消费最高的当属江浙菜,人均消费达到了160元,自助餐也不低,人均消费达到了127元;而人均消费最低的当属小吃快餐和粉面馆,分别为25元和26元。

我们发现了一个有意思的现象:上面菜系最多的餐馆跟人均消费最低的一样,都是小吃快餐。

3、将「餐厅名称」拖入维度,「总点评数」拖入度量,并将其进行降序排序,然后限制显示前10项,所得结果如下图。

被点评最多的前十位餐厅分别为:火炉火(东源大厦店)、局气、水木锦堂、明洞邦、付小姐在成都、麻小麻辣诱惑、火炉火(五道口店)、日昌餐馆、东来顺饭庄和椒鸣椒麻小馆。

怎么样?这十家店,你吃过几家?

4、将「餐厅名称」拖入维度,「口味」拖入度量,同样降序排序并显示前十项,选择生成矩形树图,可以明显看到,口味这项评分最高的是攀成钢小郡肝串串香,为9.2分;当然剩余九项也不错,都是9.1分。

同样的操作,可以看到,服务和环境评分最高的都是鲲记诗酒花茶酸菜鱼,有没有被种草呢?

六、得出结论

1、小吃快餐类的餐馆最多;

2、江浙菜的人均消费最高,小吃餐馆类的人均消费最低;

3、评价人数最多的餐馆为火炉火(东源大厦店);

4、口味评分最高的餐馆为攀成钢小郡肝串串香,服务、环境综合评分最高的都是鲲记诗酒花茶酸菜鱼。

七、拓展

1、哪个菜系的口味评分最高?

2、哪家餐馆的口味、服务、环境平均评分最高?

小编将这次分析所用的数据放到公众号供大家练手,在公众号窗口回复「五道口」,就可以获取。

如果你能完美解答上述两个问题,那么恭喜你,已经基本可以利用Data Analytics进行业务数据分析了哦!


推荐阅读:
相关文章