短视频、短信息时代蒸蒸日上,改变了公众话语的内容和意义,政治、宗教、教育、体育、商业和任何其他公共领域的内容,都逐渐以“短娱乐”的形式出现,并成为一种文化习惯。
然而这种容易传播的短视频、短信息,大量参杂着真话和谬误。
基思·斯坦诺维奇说,伪科学的传播所导致的代价是巨大的。如何在错综复杂的信息上面,去伪存真,帮助自己剖析判定,须要我们有一定的思辨能力,去辨识信息中的垃圾信息。
一、如何辨识垃圾信息?1.大话、空话;让人不知所云
在抒发中使用一堆假大空的词汇,每位词你都认识,组合在一起也如同说得都对,并且就是不晓得对方在说哪些。例如各类黑话手册:
并不是说只要有这种词汇,就是垃圾信息。而是抒发者通过一顿组合测量平均速度实验反思,让你不晓得所云,只有套话的,肯定是垃圾信息。诸如:
此次我们要以价钱为契机,纵向打通品类覆盖,还要增强内容可复制性,重视投放颗粒度,覆盖消费升级到下沉市场的全域流量,加码打出一套组合拳。
看完以后,一脸问号,他在说啥?
向飙说:“社会生活里有好多问题都是老问题,一定要把老问题吃透。不要制造新的词汇,没有太大的意思”。
2.缺位的信息
之前文章《如何正确读数和更优决策》,讲了一个关于缺位数据做决策的故事。赛车队成员须要决定是否要参与一场重要的球赛。根据之前的经验,24场联赛中有7场车辆引擎出现故障,故障情况和天气湿度之间的关系如右图:
图片来始于《成长边界》
团队上面大部份人的判定都是要参赛。并且当我们把缺位的赛事数据补足时,我们看见:
图片来始于《成长边界》
40华氏度引擎出问题的机率很高,参赛的结果可想而知。赛车队故事背后是NASA真实的案例。1986年,在一次灰熊发射风波中,NASA的高层基于部份数据,对于密封湖人推进器一个联接处的O型圈失效可能性作出了判别。最终结果是,剧烈燃烧的二氧化碳直接从联接处冲向外部,“挑战者号”在升空73秒后就爆燃了,7位宇航员全部遇难。
当有人和你揭示数据和观点的时侯,你可以思索以下几个问题:
3.错把关联当因果
还有一类常常被你们弄错的是,误把关联关系当做因果关系。
多年前,日本地区有一个研究表明,家用家电的数目和避孕工具的使用最相关。并且你应当不会有这样的看法,在小学领取免费的烤炉以解决青年早孕的问题。由于这两个变量存在相关,并且没有因果关系。
例如你发觉车辆儿童坐椅销量变高,同时小孩出生数目也在变高,是一个正相关的关系。并且不能说,由于儿童坐椅销量变高了,所以造成新生儿出生率变高。这是逻辑是谬误。
造成两个变量之间形成欺骗性关联的第三变量,有时侯很容易看下来。例如,披萨卖得越多,落水就越多。是由于吃披萨的人好多,游泳的人也好多,所以落水的人才好多。
我们在研究一个现象的时侯,会带着自己的预设偏见理解为,两个相关诱因是因果关系。而相关关系之所以形成,可能是由于这两个变量都与某个甚至仍未被检测的第三变量相关。
读数据的时侯,当我们听到相关关系,须要继续提问或则反省,背后的缘由是哪些,是否还有其他可能性。
4.当心平均值和中位数
平均数代表一个样本的平均水平。并且当你在查看平均值的时侯要留心,样本上面是否有极值(极大值,极小值这种),倘若有的话,平均值都会不准。据悉,假如你的样本小,也容易形成更多极端的值。这个时侯用中位数更合适。如右图:
图片来始于B站公开课程
5.正确理解p值
哪些是p值?
我们来说一个故事。假定你是一个律师,如今法院要审判一起杀人案件,而你的辩护人被指认谋杀。并且案发时,你当事人在面包房上面做面包,并不在案发觉场。如今你要为他辩护。
庭上法院掏出DNA检查报告表明,案发觉场凶器上的DNA和你当事人DNA完全吻合。所以你的当事人才被指认。
作为律师你说,“等一等,法院你确定DNA匹配不是巧合?”
法院说,“当然,DNA匹配机率是百万分之一。你的当事人是嫌犯无疑。”
你说,“别急,我们来画一个图。百万分之一的可能性抒发的是所有人群上面,错误辨识的可能性。并且我们这儿应当要看的是,辨识下来的结果上面,被误辨识的可能性。”
图片来始于B站公开课程
“虽然对于整体样本来说,检错机率很低,为百万分之一。并且在判定为主谋的结果里,总共5个人,只有1个是真正的主谋,其他4个都是错判,只有20%的正确率。没有办法判定我当事人就是主谋。”
这则小故事告诉你不能绝对相信p值。由于p值不是拿来告诉你假定的正确性的。而是拿来告诉你,在整个群体中检查错误的可能性有多大。
所以对于一个很低的p值,不要觉得这事就肯定创立了。
6.欺骗性座标轴(axes)
数据可视化可以减少看数据的难度,并且在数据以图表的形式呈现下来以后,我们也须要去关注一些细节。由于图表会给出一些诱导性的抒发形式,影响我们判别。例如欺骗性座标轴(axes)。
以右图为例,作者给你看的图是这样的,我们会快速觉得,yes和no的比列是5/5开。并且细看我们会发觉,这两个分类一侧的y轴并不一样,根本不是5/5开的关系。
图片来始于B站公开课程
7.操作箱规格
图表也可以操控每位袋子的规格大小来抒发他想要的意思。例如下文是华尔街一篇臭名昭著的报导。这张图乍一看中间部份的y值最大。
图片来始于B站公开课程
然而当我们放大横坐标的时侯仔细一看,会发觉,横座标根本不是等分的。从最开始的每5k一个间隔,到前面5百万一个单位。
图片来始于B站公开课程
8.过度装潢
过度装潢的图被叫做dataducks。ducks本意是用在建筑领域指过度装潢的建筑。图表也是这么测量平均速度实验反思,好的图表不要过度装潢,过度装潢反倒会丧失了他原本想要抒发的内容。由于ducks会妨碍信息的交流。
(假新闻&过度装潢)图片来始于B站公开课程
(画个人形,读数反倒显得很困难)图片来始于B站公开课程
(视觉注意力都被大披萨和苏打水夺走了)图片来始于B站公开课程
(用嘴型来抒发家庭的财务安全度)图片来始于B站公开课程
(非要用围栏抒发房子价钱,让人看不懂)图片来始于B站公开课程
(过度装潢&欺骗性座标轴)图片来始于B站公开课程
9.科学的可复制和可重复性
你看见的信息能够被复制和重复,这也是推论是否科学的一个重要判定诱因。要将一个研究发觉认定为确凿的科学事实,它的可重复性至关重要。由于科学理论的一个重要定义就是可证伪性。
可证伪性标准申明,一个理论要有用,对其所做的预测必须是具体的。它在告诉我们什么事情会发生的同时,必须强调什么事情不会发生。若果不会发生的事情确实发生了,我们就得到了一个明晰的讯号,这个理论有问题。
越具体的预测在被否认后,给我们的打动越大。预测越具体,越精确,有可能证伪它的观察现象就越多。
只有当一个理论并不企图预知一切,而是作出具体的预测,提早告诉我们世界上会发生哪些具体的事情时,该理论才能进步。
所以伪科学/信息的另外一个特点就是不可证伪。不管如何解释它,都对的。
这种不可证伪理论有着巨大心理吸引力,其奥秘在于它们解释一切的能力。预先晓得无论发生哪些,你都能理解它,除了给你一种把握知识的觉得,并且更重要的是,给你应对这个世界所须要的情绪上的安全感。
然而这些安全感是以知识发展的停滞为代价的。例如我们经常痴迷的占卜、星座解释、通灵术等。
二、最后
Pink说过:活着好过死亡,健康好过癌症,富足好过短缺,自由好过胁迫,幸福好过苦难,知识好过迷信和无知。
在这个不确定性极高的后疫情时代,多多提升自己对信息的分辨能力,更好的生活,从指责垃圾信息开始。
参考资料:
《大数据时代,怎样辨识》,
《The》2020on,
《成长边界》
《这就是心理学》
#专栏画家#