初判断:信息源可靠性
再接触:调查方法
指标选择
选择性样本
深入了解:巧合->关联->因果?
经济学家们在一间黑屋子里找一只本不存在的黑色的猫
,而计量经济学家往往会宣称他们找到了一只这样的猫。
被平均了吗?
(一则旧闻)…2004年杜蕾斯全球性调查报告向社会发布。引人注目的是,报告中显示中国人的平均性伴侣数最多,为19.3人,远远高于全球的平均数10.5人。
平均数 or 中位数?
2001年,Daron Acemoglu, Simon Johnson and James Robinson 在 American Economic Review 发表了一篇论文: The Colonial Origins of Comparative Development: An Empirical Investigation,主要的发现是,制度对不同非洲前殖民地国家经济发展有着很强的解释力。
(我们先不争论里面的IV是不是严格外生的)…可惜,同样的方法,加大样本并对数据重新测算之后,得出的结果就没那么漂亮了。
table(cos_authors_list$percentage, cos_authors_list$role)
##
## 作者 管理员 编辑
## 0 3 1 0
## 0.333333333333333 4 1 1
## 0.5 8 1 1
## 0.666666666666667 11 1 1
## 1 15 4 1
table(cos_authors_list$role)
##
## 作者 管理员 编辑
## 41 8 4
其中全中(20位):
cos_authors_list[(cos_authors_list$percentage == 1), c("name", "role")]
## name role
## 2 Chen Zuo 编辑
## 34 Li Yun Chen 管理员
## 42 Tai Yun Wei 管理员
## 46 Yi Hui Xie 管理员
## 47 Xi Xiong 管理员
## 3 Zhi Heng Hao 作者
## 5 Si Zhe Liu 作者
## 7 Han Zhang 作者
## 10 Xiao Yue Cheng 作者
## 11 Yang Chen 作者
## 12 Hao Cheng Li 作者
## 15 Can Yang 作者
## 18 Shi Yuan He 作者
## 19 Yu Hou 作者
## 30 Hao Li 作者
## 35 Yu Lin 作者
## 39 Shuai Huang 作者
## 44 Wu Chong Yun 作者
## 48 Xiao Ling Lv 作者
## 53 Yong Hong Zhao 作者
全不中(4位):
cos_authors_list[cos_authors_list$percentage == 0, c("name", "role")]
## name role
## 16 Jian Ning Fan 管理员
## 9 Jing Jing Guan 作者
## 14 Peng Ding 作者
## 23 Qi Jiang 作者
默想概率:
红色:管理员; 灰色:作者; 绿色:名字中全中
的(不论管理员还是作者)
没有任何一个人不与绿色的点相连!
我会选:
依据报名系统里面294个有效姓名样本:
letter_frequence[letter_frequence$hit_names > 2, c("letter", "hit_names",
"frequence")]
## letter hit_names frequence
## 7 y 90 93
## 11 l 56 86
## 12 z 43 72
## 9 h 28 60
## 3 x 21 57
## 6 c 13 53
## 8 w 14 49
## 16 j 8 37
## 19 s 5 37
## 5 m 4 29
## 2 f 4 28
## 15 g 3 22
名字中带L或Y这个字母的人一生都会很顺利,因为这两个字母两头相遇后就再也没有分开过,如果你生命中遇到一个名字里面带L或Y的人那么就转发吧…
李彦宏(百度)、马化腾(腾讯)、马云(阿里巴巴)、周鸿祎(360)、杨元庆(联想)、丁磊(网易)、张朝阳(搜狐)、陈天桥(盛大)、雷军(金山)、杨致远(雅虎)、曹国伟(新浪)
马云(阿里巴巴,实为天枰)、陈天桥(盛大,实为金牛)
古永锵(狮子座,优酷)、柳传志 (金牛座,联想)、李开复(射手)、乔布斯(双鱼 ,apple)、唐骏(巨蟹,盛大/微软)、陈一舟 (狮子,人人/千橡)
14连号?
## Loading required package: methods
回归结果:不显著嘛~
##
## Call:
## lm(formula = replies ~ title_width, data = cos_threads)
##
## Residuals:
## Min 1Q Median 3Q Max
## -13.1 -7.8 -5.5 -2.0 423.7
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 6.193 5.746 1.08 0.28
## title_width 0.066 0.106 0.62 0.53
##
## Residual standard error: 34.1 on 198 degrees of freedom
## Multiple R-squared: 0.00195, Adjusted R-squared: -0.00309
## F-statistic: 0.386 on 1 and 198 DF, p-value: 0.535
##
##
## Call:
## lm(formula = replies ~ title_width + w1 + w2 + w3 + w4 + w5,
## data = cos_threads)
##
## Residuals:
## Min 1Q Median 3Q Max
## -15.1 -8.0 -5.6 -1.5 422.5
##
## Coefficients: (4 not defined because of singularities)
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 6.9972 5.8659 1.19 0.23
## title_width 0.0755 0.1072 0.70 0.48
## w1TRUE -3.5683 5.0844 -0.70 0.48
## w2TRUE NA NA NA NA
## w3TRUE NA NA NA NA
## w4TRUE NA NA NA NA
## w5TRUE NA NA NA NA
##
## Residual standard error: 34.1 on 197 degrees of freedom
## Multiple R-squared: 0.00444, Adjusted R-squared: -0.00567
## F-statistic: 0.439 on 2 and 197 DF, p-value: 0.645
##
或许,我应该用第一篇回复等待时间
而不是回复的绝对数量?
##
## Call:
## lm(formula = replies ~ title_width + manager, data = cos_threads)
##
## Residuals:
## Min 1Q Median 3Q Max
## -42.8 -4.2 -2.7 0.5 391.3
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 3.5325 5.4542 0.65 0.52
## title_width 0.0388 0.1005 0.39 0.70
## managerTRUE 36.3348 7.2895 4.98 1.4e-06 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 32.2 on 197 degrees of freedom
## Multiple R-squared: 0.114, Adjusted R-squared: 0.105
## F-statistic: 12.6 on 2 and 197 DF, p-value: 6.85e-06
##
莫非cos骨灰们问的问题都比较高深?所以需要不停的探讨啊探讨?
如果在其他论坛…
文本挖掘 -> 眼球关键字