再次给域名续费了。
一晃,又一年过去了,真快。
一开始的follhouse.cn,嗯,木屋。
再次给域名续费了。
一晃,又一年过去了,真快。
一开始的follhouse.cn,嗯,木屋。
凡事包容,凡事相信,凡事盼望,凡事忍耐。
chapter 1 内在有偏的样本。
有偏样本的极端例子:
案例:假设你发放一个问卷,包含这样一个问题:你乐意回答调查问卷吗?整理所有的答案,你可能看到下面的结论,大多数人选择了乐意——为了证明这个结论有说服力,你还可以详细列出比例。但你发现问题在哪里了吗?是的,所有不乐意的人,早已将调查问卷扔掉垃圾箱里去了。
当数据经过层层统计处理,最后简化为一个带小数点的平均数时,结论似乎闪耀着精确的光芒,但只要仔细留心整个抽样过程,这个光芒就会消逝。
为了确保结论有价值,根据抽样得出的结论一定要采用具有代表性的样本,这种样本才能排除各种误差。
案例:一位心理医生说:每个人都有点神经质。这句话对么?从样本来考虑,医生得出的这个结论显然是从他接触的病人而来,但实际上,心理健全的人,又怎么可能去看心理医生呢?
无形的误差与有形的误差一样容易破坏样本的可信度。也就是说,即使你找不到任何破坏性的误差来源,但只要有产生误差的可能性,你就有必要对结果保留一定的怀疑。
最基本的样本是随机样本,它是完全遵循随机原则从总体中选出的样本。总体即形成样本的母体。
——日常评估是也是要选择随机的样本,某个评估,最好的样本不应该是按站点输出的,而是站点乱序的。
随机样本的验证方法是:总体中的每个名字或每个事物是否具有相同的机率被选进样本?
纯随机样本是唯一有足够把握经受住统计理论审查的样本。但它也有不足之处,很多情况下,获得这种样本的难度很大并且十分昂贵,以至于单纯的考虑成本就会排除它。分层随机抽样是一个更经济的替代品,目前在民意调查和市场研究等领域中得到了广泛的应用。
由哪些组成调查人员会对结果产生有趣的影响。
要承认:所谓的民意调查都带有一定程度的误差。
chapter 2 精心挑选的平均数
算术平均数:将数据加总除以平均数。
中位数:位于中间的数
众数:出现最频繁的数
所以,当你被告知是某个数是平均数时,除非能说出它的具体种类——均值,中位数还是众数,否则你对它的具体涵义仍知之甚少。
在处理诸如人类特征的数据时,各种平均数的数值十分接近。这些数据具有我们常说的正态分布的形态特征,在你用曲线绘制正态分布时,将看到一根钟形的曲线,均值、中位数和众数都落在相同的点上。
当你看到某个平均收入时,首先问问:是什么的平均?包括了哪些人?
chapter 3 没有披露的数据
采用严重有偏的样本几乎能够产生任何人需要的任何结果。
只有在进行了足够多次的实验之后,平均数定律才是一种有用的描述,并可用来预测。
那么,多少才算够呢?这又是一个棘手的问题。它取决于其他的因素,即你采用抽样方式所研究的总体容量有多大、变动程度有多大。值得一提的是,有时样本的规模与看上去的并不一致。
在这里,我们简单的介绍一个易于理解的显著性检验方法。简单的说,它是一种反映检验数据以多大的可能性代表实际的结论、而不是由于机遇产生的其他结论的方法。
——即显著性水平检验。
还有一类没有披露的数据,它的遗漏也同样具有破坏性。这类数据表明了事物的变动范围以及与给定平均数的偏离水平。通常情况下,单凭一个平均数来描述事物过于简单,起不到作用,不管这个平均数是均值还是中位数,也不管平均数的具体类型是否已知。
当遗漏了重要数据时,我们需要对平均数、图表或者趋势保留一些怀疑。
–这章强调的应该是说,当我们给别人展示一些数据的时候,我们要让别人知道,你这个数据是怎么来的,而不是单单的给一个数据。
这里有一个案例可以说明:
你拿到一个数据说某地某段时间的平均温度是20度——显然,单这么看的话,这个数据很好,但实际上,别人没告诉你的是,这个地区的温度波动范围是-10-30,那显然你拿到的这个30度的平均温度很可能就没有参考意义了。
chapter 4 毫无意义的工作
如果你的父亲笨得连IQ是什么都不知道,你的IQ很高又有什么意义呢?
案例:任何单纯的智力测验其实都是毫无价值的,因为这样的测验通常忽略了类似领导的才能、创造性想象力等十分重要的素质;也没有考虑到社交判断力以及音乐、艺术或者其它方面的才能;它也无法测试出诸如勤劳、情感平衡等重要的人格品质。而最主要的是,多数情况下学校进行的智力测验都是简单、低层次的类型,它们极大程度上依赖于阅读能力、测验者反应快慢等因素,不擅长阅读的人根本没有拿高分的希望。
智商值,最好是一个波动的范围。
我们可以定量地衡量你的样本以多大的精度代表总体,那就是:可能误差和标准误差。
只有当差别有意义时才能称之为差别。
chapter 5 一维图形的滥用
柱状图也具有欺骗性:在描述单一物体时,柱体改变宽度改变的同时,长度也发生变化;在描述三维物体时,物体的体积又不容易进行比较,以上任何一种情况都提醒我们应该对柱状图保留一些怀疑。
数字全是2:1,但视觉效果却是4:1,而在大多数时候视觉效果起着决定性作用。
又是一年315时,有人说这是央视每年自己的独角戏,也有人期待它可以起到真正的作用。我没看晚会直播,后来简单的浏览下文字实录以及微博上的讨论,其实还是蛮有趣的。
1)央视有问题并不等于网易没问题,所以因为它是央视的批评所以就说网易一定没问题,或者拍着胸口说我一定要支持网易,这是说不过去的。
2)网易有没问题,我怀疑多数人可能没有真正看我央视的视频,反正就是看到央视就喷呗。我简单浏览了下,跟网易貌似关系不大;但如果说它为不正当获取到用户cookie或者允许第三方在其站点上部署相关代码来达到“央视”口中那个不不可告人的秘密——这个又另当别论了。
事实上,我对网易的有态度其实是无态度,别因为丫的有态度,就把此前的事情都忘记了——这丫的整齐医疗软文来,在几大门户网站中是最狠的,并且多次找他们沟通都无效果。
3)另外一个很火的话题是#8点20分#,目前来看,这个话题可能牵涉的方面包括央视(据说是需求方)、新浪微博(据说是推动者)、三星(据说是幕后主脑,力主黑苹果)、几个大V(毫无疑问的最终执行者)。原本估计是央视315晚会想跟社交媒体配合下,显示显示自己也是跟得上时代潮流的,结果最终执行上,某明星不明所以的把“大概八点二十分发”也当作内容发出来了——实际上,我们可以看出这句话原本的意思,这不打紧;关键是现在微博上的人可聪明了,瞅了几个大v发的类似微博都是在那个时间段,结果就引起轩然大波了。作为马后炮,当然只能由衷的表示“不怕神一样的对手,就怕猪一样的队友”,而至于阴谋论,咱就不多说了。
a. 这是一个典型的在微博发端的时效性事件,通常传统网页搜索很难覆盖,最主要的原因还是数据的缺失;未来类似这样的事件,可以预见的将会更多,这对传统搜索引擎来说真是一个挑战。这里牵涉到的另外一个问题是,微博数据的价值以及类似微博的搜索会不会对传统搜索引擎造成挑战——近期专门写下。
b. 从事件本身来看,大V们是否收钱确实不是事件的关键,主要的问题在于这一的做法是否合适,大多数人似乎将焦点集中因为他们替央视说苹果所以鄙视之,重点还是在“替央视”上。我的看法是,将大v们看作一个广告平台吧,那么作为一个广告平台的话,我倒是觉得替谁说话并不重要,关键是说的话是否真实——这就需要广告主作一定审核了。
c. 从另一个层面来看,这个事件也意味着从现在开始的将来,权威会越来越受到挑战更质疑,例如原来我们认为央视够权威了吧,当时在微博里头人们显微镜式的监督观察下,谎言站不住脚;又例如,曾经人们也认为老师所说的话的正确性毋庸置疑,但在网络中,在搜索引擎里头,学生也已经很容易的可以通过自己的渠道来验证老师答案是否靠谱——这样的例子真是太多了。总而言之,类似搜索引擎、微博以及知乎这样的产品不断的在冲击“权威性与专业主义”,这当然是好事。只是作为被挑战者,得做好准备。
好吧,315晚会,咱明年见。
[singlepic id=17 w=640 h=320 float=center]
结束应该结束的,开始应该开始的;向前看,希望之光在前方。
一男一女
猫
狗
阳台
花
书架
[singlepic id=16 w=320 h=640 float=center](图片来源于网络)
《甲骨文:一次占卜当代中国的旅程》,这本书是何伟(点击过去是维基百科关于他的介绍)三部曲中的第二本,其它两本分别是《江城》、《寻路中国》,后面两本都在大陆出版了,但第一本目前仍然还是禁书——当然,这并不妨碍我们可以去阅读这本书,现在网上流传的版本,是从译言这个地方出来的。译者在后记中提到说,大概上去了1300个敏感的字眼。
从我的感受来说,可能之前是期待值比较高,整个阅读下来它并没有给我预想之外的惊喜。但我得说它仍值得一读——从一个外国人的视角来看中国社会的变迁。这其实是一个非常宏大的主题,从我们接受的教育来看,新中国的历史发展其实比较鲜明,比如建国初期三大改造建立起社会主义制度——>第一个五年计划——>三年自然灾害——>十年文革——>打到四人帮结束文革开始改革开放——>小平南巡——>进入新世纪。虽则比较鲜明,但背后的凶险与波澜壮阔,因为众所周知的原因,其实多数我们了解的并不全面。这可能容易陷入两个极端,一个是尽信史书,即相信党的伟光正,另一个则是一棍子打死,否定一切。而何伟的这本书中并没有直接给出结论,而是通过记录一些寻常的人,观察他们身上发生的事情与变化,来让我们自己去思考这个答案。所以我们得以看到他的一些学生在改革开放浪潮下的奋斗与挣扎、看到维吾尔族人波拉特想尽办法逃往美国、看到远在台湾的石教授仍关注着中国安阳考古的进展、看到李学勤对自己过去文革行为的反思,甚至你可以在这里看到姜文的电影理念…….如果从事件的维度来看,这里涉及了包括但不仅仅限于文字改革(繁体简体化)、文革、改革开放、法轮功、北约轰炸中国驻南斯拉夫大使馆、中美撞机、奥运会等等这样的事情。至于这本书具体是如何来叙述这些事情的,就留待大家自己阅读了。
关于历史
在历史面前,作为独立的个体真的有足够的机会去做旁的选择吗?例如,文革时候的红卫兵,在那个大历史环境之下,除了红卫兵是否有其它更好的选择?又如反右派斗争中的人人揭发,那么在这个时候你不揭发也注定要被别人揭发。于我们今天看了,那些举动自然是疯狂的泯灭人性的,我们作为旁观者可以毫无顾忌的去批判他们过去说犯下的错误——但我常常怀疑,他们并非不知道,只是毫无选择。在那些个时候,人的本能是“活着”。
另外一个层面,我们常说“以史为鉴,可知兴替”——那错误的有选择的历史是否会有误导作用呢?更具体的说,是因为客观造成了我们不了解那些历史还是本身我们就疏于去思考过去,一切都来得太快了,我们甚至来不及审视过去——这是否意味着,不久的将来,某些错误仍然会再犯?
关于教育
教育的重要性不言而喻,多数人也意识到了我们的教育出了问题,例如上面提及的历史教育从人本身的角度来看是有问题的(当然,短期内对这个政权可能没啥问题)。何伟在重启涪陵师范的经历其实给了他一个很好的实验及观察的范本,观察他们在毫无束缚的情况下的思想,观察他们说关心的问题,观察他们进入社会之后的表现。当然,这一切若要以结果来衡量,又是谈不上成功,但隐隐觉得,那样才是教育应该采取的方式。
关于民族
中国是一个多民族的国家,但多数人对这个多民族并没有很深的概念,大概也就是记得中国有56个民族,汉族是最大的民族之一。所以,我们真的无法深切去感受民族问题的复杂性。他们的文化是否真正得到了尊重,他们的传统是否真正得到了保护,他们的诉求是否真正得到了理解?这一切似乎是个谜。经济发展是一辆重型压路机,所经过之处,碾为平地。留下几株杂草顽强的风中飘扬,多年以后,大概会被遗忘吧。
关于新闻
先来看这个帖子:“美国之音”不能对美国国内广播的真正原因。初初看到说美国受政府资助的广播节目是不能在美国本土广播还真是诧异——心想美国大叔你肿么了,咋的连自己出钱的节目都不能在国内播出,后来查了些资料才知道老美真是高瞻远瞩的。与之相反的是中国,大概仍然是这个世界上新闻管制最为严厉的几个国家之一,有很多高压线不能碰,一碰就是G点就要高潮。即便是有互联网也不管事,WJ牛逼的很,有专门的队伍来搞这些——说的这些话其实有点没营养,但我之所以说这些其实是想感谢在中国的那些在背后默默试图冲破封锁线的新闻工作者,这是一个吃力不讨好的事情,但总得有人站出来充当勇士,我们都知道不容易的。
以上,胡乱记之,是为“甲骨文”之读后。