TOP 20,和流行歌曲排名榜一样, 能反映读者最为之疯狂的形式。 从统计学的角度看, 如果是为了衡量读者的整体好恶, TOP 20和 BOTTOM 20 可以划入 statistical outlier (统计例外) 的范畴。
如果要统计江湖色片子,我觉得最上面10%和最下面的10%去除后做出的统计比较反映真实。这和体育比赛里,有裁判人为因素给分的评判(如体操) 中掐头去尾的做法类似。具体排除的首尾百分比建议由社会艺术统计学家议定。
排除首位后,将所有片子的点击率做成直方图:横轴是点击数分格子, 0-100, 101-200, 201-300。。。 或者50一格 (为观察的直观,可以用最高点和最低击率的差别,然后分隔成20格); 纵轴是落入这个范围的片子数量。
好奇结果会是单模还是多模分布。
所谓单模,就是只出现一个峰值;多模,则是有几个峰。
多模统计比较简单,从各个峰的点击数,随机取20个片子,可以判断读者的口味。
如果是单模,峰值的点击随机取样是读者的一般兴趣。在峰的左右侧 2/3处各取样20,也能大概判断这里读者的好恶。
说了容易,但具体操作的技术实现就难乐。。。。
过节无聊。。供大家苦笑吧。