大数据时代下，怎样辨识垃圾信息？

2023-09-20 21:55:25教育资讯61

短视频、短信息时代蒸蒸日上，改变了公众话语的内容和意义，政治、宗教、教育、体育、商业和任何其他公共领域的内容，都逐渐以“短娱乐”的形式出现，并成为一种文化习惯。CnG物理好资源网(原物理ok网)

然而这种容易传播的短视频、短信息，大量参杂着真话和谬误。CnG物理好资源网(原物理ok网)

基思·斯坦诺维奇说，伪科学的传播所导致的代价是巨大的。如何在错综复杂的信息上面，去伪存真，帮助自己剖析判定，须要我们有一定的思辨能力，去辨识信息中的垃圾信息。CnG物理好资源网(原物理ok网)

一、如何辨识垃圾信息？1.大话、空话；让人不知所云CnG物理好资源网(原物理ok网)

在抒发中使用一堆假大空的词汇，每位词你都认识，组合在一起也如同说得都对，并且就是不晓得对方在说哪些。例如各类黑话手册：CnG物理好资源网(原物理ok网)

并不是说只要有这种词汇，就是垃圾信息。而是抒发者通过一顿组合测量平均速度实验反思，让你不晓得所云，只有套话的，肯定是垃圾信息。诸如：CnG物理好资源网(原物理ok网)

此次我们要以价钱为契机，纵向打通品类覆盖，还要增强内容可复制性，重视投放颗粒度，覆盖消费升级到下沉市场的全域流量，加码打出一套组合拳。CnG物理好资源网(原物理ok网)

看完以后，一脸问号，他在说啥？CnG物理好资源网(原物理ok网)

向飙说：“社会生活里有好多问题都是老问题，一定要把老问题吃透。不要制造新的词汇，没有太大的意思”。CnG物理好资源网(原物理ok网)

2.缺位的信息CnG物理好资源网(原物理ok网)

之前文章《如何正确读数和更优决策》，讲了一个关于缺位数据做决策的故事。赛车队成员须要决定是否要参与一场重要的球赛。根据之前的经验，24场联赛中有7场车辆引擎出现故障，故障情况和天气湿度之间的关系如右图：CnG物理好资源网(原物理ok网)

图片来始于《成长边界》CnG物理好资源网(原物理ok网)

团队上面大部份人的判定都是要参赛。并且当我们把缺位的赛事数据补足时，我们看见：CnG物理好资源网(原物理ok网)

图片来始于《成长边界》CnG物理好资源网(原物理ok网)

40华氏度引擎出问题的机率很高，参赛的结果可想而知。赛车队故事背后是NASA真实的案例。1986年，在一次灰熊发射风波中，NASA的高层基于部份数据，对于密封湖人推进器一个联接处的O型圈失效可能性作出了判别。最终结果是，剧烈燃烧的二氧化碳直接从联接处冲向外部，“挑战者号”在升空73秒后就爆燃了，7位宇航员全部遇难。CnG物理好资源网(原物理ok网)

当有人和你揭示数据和观点的时侯，你可以思索以下几个问题：CnG物理好资源网(原物理ok网)

3.错把关联当因果CnG物理好资源网(原物理ok网)

还有一类常常被你们弄错的是，误把关联关系当做因果关系。CnG物理好资源网(原物理ok网)

多年前，日本地区有一个研究表明，家用家电的数目和避孕工具的使用最相关。并且你应当不会有这样的看法，在小学领取免费的烤炉以解决青年早孕的问题。由于这两个变量存在相关，并且没有因果关系。CnG物理好资源网(原物理ok网)

例如你发觉车辆儿童坐椅销量变高，同时小孩出生数目也在变高，是一个正相关的关系。并且不能说，由于儿童坐椅销量变高了，所以造成新生儿出生率变高。这是逻辑是谬误。CnG物理好资源网(原物理ok网)

造成两个变量之间形成欺骗性关联的第三变量，有时侯很容易看下来。例如，披萨卖得越多，落水就越多。是由于吃披萨的人好多，游泳的人也好多，所以落水的人才好多。CnG物理好资源网(原物理ok网)

我们在研究一个现象的时侯，会带着自己的预设偏见理解为，两个相关诱因是因果关系。而相关关系之所以形成，可能是由于这两个变量都与某个甚至仍未被检测的第三变量相关。CnG物理好资源网(原物理ok网)

读数据的时侯，当我们听到相关关系，须要继续提问或则反省，背后的缘由是哪些，是否还有其他可能性。CnG物理好资源网(原物理ok网)

4.当心平均值和中位数CnG物理好资源网(原物理ok网)

平均数代表一个样本的平均水平。并且当你在查看平均值的时侯要留心，样本上面是否有极值（极大值，极小值这种），倘若有的话，平均值都会不准。据悉，假如你的样本小，也容易形成更多极端的值。这个时侯用中位数更合适。如右图：CnG物理好资源网(原物理ok网)

测量平均速度实验感受_测量平均速度实验反思_平均测量反思实验速度的方法 CnG物理好资源网(原物理ok网)

图片来始于B站公开课程CnG物理好资源网(原物理ok网)

5.正确理解p值CnG物理好资源网(原物理ok网)

哪些是p值？CnG物理好资源网(原物理ok网)

我们来说一个故事。假定你是一个律师，如今法院要审判一起杀人案件，而你的辩护人被指认谋杀。并且案发时，你当事人在面包房上面做面包，并不在案发觉场。如今你要为他辩护。CnG物理好资源网(原物理ok网)

庭上法院掏出DNA检查报告表明，案发觉场凶器上的DNA和你当事人DNA完全吻合。所以你的当事人才被指认。CnG物理好资源网(原物理ok网)

作为律师你说，“等一等，法院你确定DNA匹配不是巧合？”CnG物理好资源网(原物理ok网)

法院说，“当然，DNA匹配机率是百万分之一。你的当事人是嫌犯无疑。”CnG物理好资源网(原物理ok网)

你说，“别急，我们来画一个图。百万分之一的可能性抒发的是所有人群上面，错误辨识的可能性。并且我们这儿应当要看的是，辨识下来的结果上面，被误辨识的可能性。”CnG物理好资源网(原物理ok网)

图片来始于B站公开课程CnG物理好资源网(原物理ok网)

“虽然对于整体样本来说，检错机率很低，为百万分之一。并且在判定为主谋的结果里，总共5个人，只有1个是真正的主谋，其他4个都是错判，只有20%的正确率。没有办法判定我当事人就是主谋。”CnG物理好资源网(原物理ok网)

这则小故事告诉你不能绝对相信p值。由于p值不是拿来告诉你假定的正确性的。而是拿来告诉你，在整个群体中检查错误的可能性有多大。CnG物理好资源网(原物理ok网)

所以对于一个很低的p值，不要觉得这事就肯定创立了。CnG物理好资源网(原物理ok网)

6.欺骗性座标轴（axes）CnG物理好资源网(原物理ok网)

数据可视化可以减少看数据的难度，并且在数据以图表的形式呈现下来以后，我们也须要去关注一些细节。由于图表会给出一些诱导性的抒发形式，影响我们判别。例如欺骗性座标轴（axes）。CnG物理好资源网(原物理ok网)

以右图为例，作者给你看的图是这样的，我们会快速觉得，yes和no的比列是5/5开。并且细看我们会发觉，这两个分类一侧的y轴并不一样，根本不是5/5开的关系。CnG物理好资源网(原物理ok网)

图片来始于B站公开课程CnG物理好资源网(原物理ok网)

7.操作箱规格CnG物理好资源网(原物理ok网)

图表也可以操控每位袋子的规格大小来抒发他想要的意思。例如下文是华尔街一篇臭名昭著的报导。这张图乍一看中间部份的y值最大。CnG物理好资源网(原物理ok网)

图片来始于B站公开课程CnG物理好资源网(原物理ok网)

然而当我们放大横坐标的时侯仔细一看，会发觉，横座标根本不是等分的。从最开始的每5k一个间隔，到前面5百万一个单位。CnG物理好资源网(原物理ok网)

图片来始于B站公开课程CnG物理好资源网(原物理ok网)

8.过度装潢CnG物理好资源网(原物理ok网)

过度装潢的图被叫做dataducks。ducks本意是用在建筑领域指过度装潢的建筑。图表也是这么测量平均速度实验反思，好的图表不要过度装潢，过度装潢反倒会丧失了他原本想要抒发的内容。由于ducks会妨碍信息的交流。CnG物理好资源网(原物理ok网)

测量平均速度实验反思_平均测量反思实验速度的方法_测量平均速度实验感受 CnG物理好资源网(原物理ok网)

（假新闻&过度装潢）图片来始于B站公开课程CnG物理好资源网(原物理ok网)

（画个人形，读数反倒显得很困难）图片来始于B站公开课程CnG物理好资源网(原物理ok网)

（视觉注意力都被大披萨和苏打水夺走了）图片来始于B站公开课程CnG物理好资源网(原物理ok网)

（用嘴型来抒发家庭的财务安全度）图片来始于B站公开课程CnG物理好资源网(原物理ok网)

（非要用围栏抒发房子价钱，让人看不懂）图片来始于B站公开课程CnG物理好资源网(原物理ok网)

（过度装潢&欺骗性座标轴）图片来始于B站公开课程CnG物理好资源网(原物理ok网)

9.科学的可复制和可重复性CnG物理好资源网(原物理ok网)

‍你看见的信息能够被复制和重复，这也是推论是否科学的一个重要判定诱因。要将一个研究发觉认定为确凿的科学事实，它的可重复性至关重要。由于科学理论的一个重要定义就是可证伪性。CnG物理好资源网(原物理ok网)

可证伪性标准申明，一个理论要有用，对其所做的预测必须是具体的。它在告诉我们什么事情会发生的同时，必须强调什么事情不会发生。若果不会发生的事情确实发生了，我们就得到了一个明晰的讯号，这个理论有问题。CnG物理好资源网(原物理ok网)

越具体的预测在被否认后，给我们的打动越大。预测越具体，越精确，有可能证伪它的观察现象就越多。CnG物理好资源网(原物理ok网)

只有当一个理论并不企图预知一切，而是作出具体的预测，提早告诉我们世界上会发生哪些具体的事情时，该理论才能进步。CnG物理好资源网(原物理ok网)

所以伪科学/信息的另外一个特点就是不可证伪。不管如何解释它，都对的。CnG物理好资源网(原物理ok网)

这种不可证伪理论有着巨大心理吸引力，其奥秘在于它们解释一切的能力。预先晓得无论发生哪些，你都能理解它，除了给你一种把握知识的觉得，并且更重要的是，给你应对这个世界所须要的情绪上的安全感。CnG物理好资源网(原物理ok网)

然而这些安全感是以知识发展的停滞为代价的。例如我们经常痴迷的占卜、星座解释、通灵术等。CnG物理好资源网(原物理ok网)

二、最后CnG物理好资源网(原物理ok网)

Pink说过：活着好过死亡，健康好过癌症，富足好过短缺，自由好过胁迫，幸福好过苦难，知识好过迷信和无知。CnG物理好资源网(原物理ok网)

在这个不确定性极高的后疫情时代，多多提升自己对信息的分辨能力，更好的生活，从指责垃圾信息开始。CnG物理好资源网(原物理ok网)

参考资料：CnG物理好资源网(原物理ok网)

《大数据时代，怎样辨识》，CnG物理好资源网(原物理ok网)

《The》2020on,CnG物理好资源网(原物理ok网)

《成长边界》CnG物理好资源网(原物理ok网)

《这就是心理学》CnG物理好资源网(原物理ok网)

#专栏画家#CnG物理好资源网(原物理ok网)

PREV ARTICLE机械效率的数学教学反省

NEXT ARTICLE学科化学考研高校排行