统计辟谣训练营

统计之都 陈丽云
cloudlychen@gmail.com

2012.5.26

学统计学,就是为了不被统计学家欺骗

辟谣三部曲:

选择性样本

初级案例1:你被平均了吗

中国人的平均性伴侣数最多?

(一则旧闻)…2004年杜蕾斯全球性调查报告向社会发布。引人注目的是,报告中显示中国人的平均性伴侣数最多,为19.3人,远远高于全球的平均数10.5人。

如果你有被平均的感觉…

调查方法可靠么?

  1. 调查方法:网络搜集,可能是选择性样本(2004年使用网络的更可能是高收入白领人群,本身便较为活跃)
  2. 回答问卷为主动(不可能强迫网民回答),因此愿意回答问卷的人本身可能就是较为开放的人,再次选择性样本
  3. 数字的真实性:男性可能会夸大自己的性伴侣数量(相反,他们在新结识的妹子面前可能会打折再打折自己前女友的数量)

如果你有被平均的感觉…

指标有意义么?

平均数 or 中位数?

初级案例2:制度的贡献

初级案例3:那么多巧合?

中级案例1:神奇的字母们

5月20号快要到了 如果你在乎的那个人,名字里有W,H,Y,L,X,M,T,C,S,Z 的字母就默默转发。

有那么巧合么?让我们选一个样本…看看COS驻站作者/编辑中,谁最有可能被默默关心到(按COS主站后台用户数据统计):

table(cos_authors_list$percentage, cos_authors_list$role)
##                    
##                     作者 管理员 编辑
##   0                      3         1      0
##   0.333333333333333      4         1      1
##   0.5                    8         1      1
##   0.666666666666667     11         1      1
##   1                     15         4      1
table(cos_authors_list$role)
## 
##    作者 管理员    编辑 
##        41         8         4 

其中全中(20位):

cos_authors_list[(cos_authors_list$percentage == 1), c("name", "role")]
##              name      role
## 2        Chen Zuo    编辑
## 34    Li Yun Chen 管理员
## 42    Tai Yun Wei 管理员
## 46     Yi Hui Xie 管理员
## 47       Xi Xiong 管理员
## 3    Zhi Heng Hao    作者
## 5      Si Zhe Liu    作者
## 7       Han Zhang    作者
## 10 Xiao Yue Cheng    作者
## 11      Yang Chen    作者
## 12   Hao Cheng Li    作者
## 15       Can Yang    作者
## 18    Shi Yuan He    作者
## 19         Yu Hou    作者
## 30         Hao Li    作者
## 35         Yu Lin    作者
## 39    Shuai Huang    作者
## 44   Wu Chong Yun    作者
## 48   Xiao Ling Lv    作者
## 53 Yong Hong Zhao    作者

全不中(4位):

cos_authors_list[cos_authors_list$percentage == 0, c("name", "role")]
##              name      role
## 16  Jian Ning Fan 管理员
## 9  Jing Jing Guan    作者
## 14      Peng Ding    作者
## 23       Qi Jiang    作者

默想概率:

红色:管理员; 灰色:作者; 绿色:名字中全中的(不论管理员还是作者)

没有任何一个人不与绿色的点相连!

如果让我来选若干字母…

我会选:

覆盖了现场 90% 的观众?

依据报名系统里面294个有效姓名样本:

letter_frequence[letter_frequence$hit_names > 2, c("letter", "hit_names", 
    "frequence")]
##    letter hit_names frequence
## 7       y        90        93
## 11      l        56        86
## 12      z        43        72
## 9       h        28        60
## 3       x        21        57
## 6       c        13        53
## 8       w        14        49
## 16      j         8        37
## 19      s         5        37
## 5       m         4        29
## 2       f         4        28
## 15      g         3        22

想到什么了?

名字中带L或Y这个字母的人一生都会很顺利,因为这两个字母两头相遇后就再也没有分开过,如果你生命中遇到一个名字里面带L或Y的人那么就转发吧…

中级案例2:天蝎座的神话

一统IT界?

李彦宏(百度)、马化腾(腾讯)、马云(阿里巴巴)、周鸿祎(360)、杨元庆(联想)、丁磊(网易)、张朝阳(搜狐)、陈天桥(盛大)、雷军(金山)、杨致远(雅虎)、曹国伟(新浪)

与@薛蛮子互动的人中,天蝎座莫名其妙多…

信息源真实吗?

马云(阿里巴巴,实为天枰)、陈天桥(盛大,实为金牛)

人口出生规律?

技巧:选择性样本的罗列

其他星座呢?

古永锵(狮子座,优酷)、柳传志 (金牛座,联想)、李开复(射手)、乔布斯(双鱼 ,apple)、唐骏(巨蟹,盛大/微软)、陈一舟 (狮子,人人/千橡)

Tip:排比修辞 -> 商业文案技巧——罗列各种好的指标,增强威慑力

中级案例3:怎么可能14连号

巧合 -> 必然 -> 因果?

高级案例:COS论坛的小秘密

求助的时候,标题要长长长长长~~~~~~!?

## Loading required package: methods
plot of chunk title-threads
plot of chunk title-threads

回归结果:不显著嘛~

## 
## Call:
## lm(formula = replies ~ title_width, data = cos_threads)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
##  -13.1   -7.8   -5.5   -2.0  423.7 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)
## (Intercept)    6.193      5.746    1.08     0.28
## title_width    0.066      0.106    0.62     0.53
## 
## Residual standard error: 34.1 on 198 degrees of freedom
## Multiple R-squared: 0.00195, Adjusted R-squared: -0.00309 
## F-statistic: 0.386 on 1 and 198 DF,  p-value: 0.535 
## 

要装可怜?

## 
## Call:
## lm(formula = replies ~ title_width + w1 + w2 + w3 + w4 + w5, 
##     data = cos_threads)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
##  -15.1   -8.0   -5.6   -1.5  422.5 
## 
## Coefficients: (4 not defined because of singularities)
##             Estimate Std. Error t value Pr(>|t|)
## (Intercept)   6.9972     5.8659    1.19     0.23
## title_width   0.0755     0.1072    0.70     0.48
## w1TRUE       -3.5683     5.0844   -0.70     0.48
## w2TRUE            NA         NA      NA       NA
## w3TRUE            NA         NA      NA       NA
## w4TRUE            NA         NA      NA       NA
## w5TRUE            NA         NA      NA       NA
## 
## Residual standard error: 34.1 on 197 degrees of freedom
## Multiple R-squared: 0.00444, Adjusted R-squared: -0.00567 
## F-statistic: 0.439 on 2 and 197 DF,  p-value: 0.645 
## 

或许,我应该用第一篇回复等待时间而不是回复的绝对数量?

COS你们是不是自己跟自己玩啊?

## 
## Call:
## lm(formula = replies ~ title_width + manager, data = cos_threads)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
##  -42.8   -4.2   -2.7    0.5  391.3 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   3.5325     5.4542    0.65     0.52    
## title_width   0.0388     0.1005    0.39     0.70    
## managerTRUE  36.3348     7.2895    4.98  1.4e-06 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 
## 
## Residual standard error: 32.2 on 197 degrees of freedom
## Multiple R-squared: 0.114,   Adjusted R-squared: 0.105 
## F-statistic: 12.6 on 2 and 197 DF,  p-value: 6.85e-06 
## 

莫非cos骨灰们问的问题都比较高深?所以需要不停的探讨啊探讨?

因果推断

随机试验

RDD

更高级的?

高级案例2:发改委打飞机

Thanks!