读者观点的伪科学统计

论坛:江湖色作者:redrocks发表时间:2004-12-27 01:38
TOP 20,和流行歌曲排名榜一样, 能反映读者最为之疯狂的形式。 从统计学的角度看, 如果是为了衡量读者的整体好恶, TOP 20和 BOTTOM 20 可以划入 statistical outlier (统计例外) 的范畴。

如果要统计江湖色片子,我觉得最上面10%和最下面的10%去除后做出的统计比较反映真实。这和体育比赛里,有裁判人为因素给分的评判(如体操) 中掐头去尾的做法类似。具体排除的首尾百分比建议由社会艺术统计学家议定。

排除首位后,将所有片子的点击率做成直方图:横轴是点击数分格子, 0-100, 101-200, 201-300。。。 或者50一格 (为观察的直观,可以用最高点和最低击率的差别,然后分隔成20格); 纵轴是落入这个范围的片子数量。

好奇结果会是单模还是多模分布。

所谓单模,就是只出现一个峰值;多模,则是有几个峰。

多模统计比较简单,从各个峰的点击数,随机取20个片子,可以判断读者的口味。

如果是单模,峰值的点击随机取样是读者的一般兴趣。在峰的左右侧 2/3处各取样20,也能大概判断这里读者的好恶。

说了容易,但具体操作的技术实现就难乐。。。。

过节无聊。。供大家苦笑吧。
标签: 添加标签

0 / 0

发表回复
 
  • 标题
  • 作者
  • 时间
  • 长度
  • 点击
  • 评价

京ICP备14028770号-1