为啥用中位数和众数
这事儿得从10年前说起。那时候我在一家互联网公司做数据分析,我们那会儿有个项目,要分析用户在网站上的停留时间。我们团队里有个小年轻,他觉得用平均数最合适,结果数据一出来,全公司的人都说不对劲。
我那时候就说了,这平均数啊,它就像个“水桶”,只要有一个极端值,就能把整体拉偏。记得那次,有个用户在网站上待了1000个小时,平均下来,我们以为大家都在那待了1个小时多,这不扯淡嘛!
后来我就提议用中位数,这玩意儿就像个“中间人”,不管你两边怎么偏,它都在中间。结果一用中位数,数据就靠谱多了,大家都能接受。
再说说众数,这东西更简单,就是最常见的那个数。比如我们分析用户最喜欢的网页,用众数就能很快找出那个最受欢迎的页面。
记得有一次,有个产品经理说,他们那个产品,用户反馈最多的功能是“搜索”,我一听,就用众数分析了用户反馈,果然,搜索功能的问题最多。这方法一用,产品经理高兴得不得了,说我是他的“数据救星”。
不过啊,这俩方法也有局限性,比如有些数据分布不均匀,中位数和众数可能都不太能说明问题。这块儿我就没碰过,不敢乱讲,哈哈。
我那时候就说了,这平均数啊,它就像个“水桶”,只要有一个极端值,就能把整体拉偏。记得那次,有个用户在网站上待了1000个小时,平均下来,我们以为大家都在那待了1个小时多,这不扯淡嘛!
后来我就提议用中位数,这玩意儿就像个“中间人”,不管你两边怎么偏,它都在中间。结果一用中位数,数据就靠谱多了,大家都能接受。
再说说众数,这东西更简单,就是最常见的那个数。比如我们分析用户最喜欢的网页,用众数就能很快找出那个最受欢迎的页面。
记得有一次,有个产品经理说,他们那个产品,用户反馈最多的功能是“搜索”,我一听,就用众数分析了用户反馈,果然,搜索功能的问题最多。这方法一用,产品经理高兴得不得了,说我是他的“数据救星”。
不过啊,这俩方法也有局限性,比如有些数据分布不均匀,中位数和众数可能都不太能说明问题。这块儿我就没碰过,不敢乱讲,哈哈。
这事儿啊,得从数据本身的特点说起。说实话,我以前在做数据分析的时候,也经常跟中位数和众数打交道。先说众数吧,这玩意儿简单,就是一组数据中出现次数最多的那个数。比如说,我之前在一个论坛上统计过,2020年3月,有个关于“如何提高办公效率”的话题,下面回复里提到“使用云协作工具”的次数最多,那“使用云协作工具”就是这个话题的众数。
再说中位数,这玩意儿稍微复杂一点。它是一组数据从小到大排列后,位于中间位置的数。比如,我统计过2021年6月,某城市一个月的气温,取了100天的数据,那么第50天的气温就是那一个月的中位数。这个数能比较准确地反映出一组数据的“平均水平”。
为啥要用这两个呢?主要是因为它们各有各的优势。
首先,众数能直接告诉你,大家普遍是怎么想的,或者大家普遍的做法是什么。就像我刚才说的那个论坛话题,众数就能告诉你,大家普遍认为“使用云协作工具”是提高办公效率的好方法。
然后,中位数呢,它不受极端值的影响。比如说,我统计的那100天气温,如果有一天特别热或者特别冷,极端值就会拉高或者拉低平均数,但中位数不会受影响。所以,中位数能更真实地反映出一组数据的“中间水平”。
总之,用中位数和众数,就是想从不同角度了解数据,一个看普遍情况,一个看中间水平。不过,说实话,我当时也没想明白为什么非要用这两个,可能是因为它们比较直观,容易理解吧。
再说中位数,这玩意儿稍微复杂一点。它是一组数据从小到大排列后,位于中间位置的数。比如,我统计过2021年6月,某城市一个月的气温,取了100天的数据,那么第50天的气温就是那一个月的中位数。这个数能比较准确地反映出一组数据的“平均水平”。
为啥要用这两个呢?主要是因为它们各有各的优势。
首先,众数能直接告诉你,大家普遍是怎么想的,或者大家普遍的做法是什么。就像我刚才说的那个论坛话题,众数就能告诉你,大家普遍认为“使用云协作工具”是提高办公效率的好方法。
然后,中位数呢,它不受极端值的影响。比如说,我统计的那100天气温,如果有一天特别热或者特别冷,极端值就会拉高或者拉低平均数,但中位数不会受影响。所以,中位数能更真实地反映出一组数据的“中间水平”。
总之,用中位数和众数,就是想从不同角度了解数据,一个看普遍情况,一个看中间水平。不过,说实话,我当时也没想明白为什么非要用这两个,可能是因为它们比较直观,容易理解吧。