第一部分 数据来源
小红书是一个生活方式平台和消费决策入口,是当前著名的电商平台。和其他电商平台不同,小红从社区起家。在小红书社区,用户通过文字、图片、视频笔记的分享,记录了这个时代年轻人的正能量和美好生活
用于预测用户可能的购买销售额,帮助企业更好的决策
小红书是中国知名的网络购物和社交平台,它的社区经营模式是目前做的最棒的。
1.数据的导入
2.重复值的检查与处理
3.空值的检查与处理
打印出来有相当多的数据为空值,可能是数据收集或者存储过程出现问题,需要复查,此处直接删除。
4.数据类型的检查与调整
将数据按照年龄进行分组
5.保存清洗后的数据并重新导入清洗后的数据
可以发现原来的数据集包含29452条数据,然后清洗之后的数据集是16716条数据。
可以通过以下几个不同维度的指标来具体分析:
社区营销是否有作用不同年龄段、不同性别的人在小红书的购买记录不同生命周期的人数、消费金额、参与活动的占比以及第三方店铺对小红书的影响 各生命周期年龄、性别、顾客占比以及每天的消费记录过去30天内有参与重点活动的人收入
结论1:参与过活动的人会比未参与过的人消费更多金额。
这一部分用到了matplotlib来进行分析和可视化描述,来展示以下指标分析;它的原理其实跟ps有一点相似,都是画层的一个叠加,具体代码如下:
查看不同年龄段购买商品的人数分布:
查看不同年龄段的顾客的购买平均金额对比:
查看不同年龄段的顾客的购买总金额对比:
综上所述,可以发现:
在小红书购物的人是以平均数为60的正太分布。各年龄段在小红书历史购买金额均值不大,除了分组20岁以下的远超其他分组,原因可能是因为数据过少而导致的失真。结论2:小红书的消费用户和主要营收都来自40岁-70岁的中老年人。
上面的结论与刻板印象(使用小红书的大多是20-30的年轻人)正相反。目前猜测有三个可能:
用户偏向于填写虚假年龄,导致平均年龄偏大。用户分布与消费分布一致,确实是中老年人占绝对多数,印象有偏差。用户确实大多数是20-30居多,但他们的消费能力与意愿并没有40-70岁的人强烈。查看男女消费人数比:
查看不同性别的消费人数以及不同性别的顾客的购买平均金额对比:
结论3:男性顾客的数量远远大于女性,是女性的21倍,男性顾客的平均购买金额远超女性,这说明男性的购买力稍强,(跟想象中的不一样)。
绘制一个一行三列的子图:
查看各个生命周期在第三方消费的比例:
结论4:
入站时间更长的人(即,lifefycle在C的人)不仅人数更多,消费总金额也更多。 新注册的用户(A、B)的最近消费的数量远小于老用户(C),并且用户活跃数量(最近30天有参加讨论数量)也远远不如。 不过各项指标所占的比例大致相同,这说明新注册用户这段时间消费人数的减少是根本原因新客户更倾向于在自营店铺消费,C还是有很多的人会在第三方店铺消费,对于小红书来说肯定是自营更加赚钱且易于管理。不过第三方店铺的购入为0,这是较为反常的现象,可能这也是导致新购买用户逐渐减少的原因之一。查看各生命周期年龄人数占比:
查看各生命周期人数性别占比:
查看各生命周期购买人数占比:
结论5:在查看了各个年龄,和性别中ABC客户群体所占比例后可以了解,并不存在某些年龄或者性别特别低,就是总体流量减少导致消费减少。
总结
参与过活动的人会比未参与过的人消费更多金额。小红书主要的营收都来自于40-70的中老年人,(需要复核)那么应该更多为中老年人提供相应增值服务,如增加朗读功能及增大字号等功能。 男性顾客的数量远远大于女性,是女性的21倍,男性顾客的平均购买金额远超女性,这说明男性的购买力稍强,(跟想象中的不一样)。需要对总注册人数的进一步数据分析。 在查看了各个年龄,和性别中ABC客户群体所占比例后可以了解,并不存在某些年龄或者性别特别低,就是总体流量减少导致消费减少。 最近一个月每天的消费人数都在上涨,不过只有C群体每日都有消费记录,B群体仅有最近5天,C群体仅有最近两天。有数据损坏的可能性,需同比上月销售数据。