多重比较问题
Posted: Thu Jan 02, 2025 9:42 am
理论上,你可以记录每一条推文,从而发表有关公众舆论的声明。然而,如果我们看看美国皮尤研究中心2013年的互联网项目,就会发现Twitter的用户主要是生活在城市里的年轻人。并不能真正代表全体人口。
街头碰撞
另请查看Street Bump,这是一款在波士顿使用的移动应用程序。 Street Bump 提供“N=All”,因为在纸面上每部手机都能够记录恶劣的路面。一方面,可以说 Street Bump 产生的数据为市政当局提供了实时信息。可以解决问题和进行长期投资的信息。另一方面,你可以说该应用程序有利于年轻的智能手机用户。
样本误差和样本偏差
然后还有偶然性和偶然性的因素。与许多人声称的相反,这些因素并没有被大数据集排除。例如,我们知道样本错误:由于偶然性,随机选择的意见样本并不代表总体的真实观察结果的风险。样本错误有一个危险的弟弟,称为样本偏差。如果样本不是随机选择的,就会出现抽样偏差。找到一个无偏见的样本是极其困难的。 Street Bump 是非随机选择样本的一个很好的例子。
4. 科学或统计模型不是必需的,因为对于大数据集,数字不言而喻。
2005 年,流行病学家 John Ioannidis 发表了一项重要的科学研究:“为什么大多数发表的研究结果都是错误的”。这项研究揭示了多重比较问题:当研究人员研究多种模式时就会出现这种问题。
假设正在研究维生素对小学生的影响。在这项研究中,一些儿童接受维生素,其他儿童接受安慰剂。你现在学习的效果如何?研究人员可以了解维生素的使用是否会影响生长、体重、牙齿侵蚀、课堂行为 阿曼电报数据 或报告成绩。
然后您可以分析一些组合。维生素对贫困儿童与富裕儿童、男孩与女孩有何影响? Ioannidis 说,当你测试不同的相关性时,随机结果会掩盖“真实”结果。 “这个问题在大数据集中甚至更大,”约安尼迪斯说。如果有足够的数据,数字就能说明一切,这种想法是天真的。特别是在可能有多种模式并且可以建立多个连接的数据集中。
多重比较问题导致很难建立联系
多重比较问题导致很难建立联系
看来成功故事被夸大了
看来,上述有关大数据的说法并不成立,而且大数据的成功故事也被夸大了。剑桥大学教授David Spiegelhalter表示,我们不应该忘记大数据是一种新资源。新的来源并不总是能保证新的答案。数据分析结果的难点仍然是洞察力。大数据仍然存在同样的瓶颈。
照片介绍由 Fotolia 提供。
街头碰撞
另请查看Street Bump,这是一款在波士顿使用的移动应用程序。 Street Bump 提供“N=All”,因为在纸面上每部手机都能够记录恶劣的路面。一方面,可以说 Street Bump 产生的数据为市政当局提供了实时信息。可以解决问题和进行长期投资的信息。另一方面,你可以说该应用程序有利于年轻的智能手机用户。
样本误差和样本偏差
然后还有偶然性和偶然性的因素。与许多人声称的相反,这些因素并没有被大数据集排除。例如,我们知道样本错误:由于偶然性,随机选择的意见样本并不代表总体的真实观察结果的风险。样本错误有一个危险的弟弟,称为样本偏差。如果样本不是随机选择的,就会出现抽样偏差。找到一个无偏见的样本是极其困难的。 Street Bump 是非随机选择样本的一个很好的例子。
4. 科学或统计模型不是必需的,因为对于大数据集,数字不言而喻。
2005 年,流行病学家 John Ioannidis 发表了一项重要的科学研究:“为什么大多数发表的研究结果都是错误的”。这项研究揭示了多重比较问题:当研究人员研究多种模式时就会出现这种问题。
假设正在研究维生素对小学生的影响。在这项研究中,一些儿童接受维生素,其他儿童接受安慰剂。你现在学习的效果如何?研究人员可以了解维生素的使用是否会影响生长、体重、牙齿侵蚀、课堂行为 阿曼电报数据 或报告成绩。
然后您可以分析一些组合。维生素对贫困儿童与富裕儿童、男孩与女孩有何影响? Ioannidis 说,当你测试不同的相关性时,随机结果会掩盖“真实”结果。 “这个问题在大数据集中甚至更大,”约安尼迪斯说。如果有足够的数据,数字就能说明一切,这种想法是天真的。特别是在可能有多种模式并且可以建立多个连接的数据集中。
多重比较问题导致很难建立联系
多重比较问题导致很难建立联系
看来成功故事被夸大了
看来,上述有关大数据的说法并不成立,而且大数据的成功故事也被夸大了。剑桥大学教授David Spiegelhalter表示,我们不应该忘记大数据是一种新资源。新的来源并不总是能保证新的答案。数据分析结果的难点仍然是洞察力。大数据仍然存在同样的瓶颈。
照片介绍由 Fotolia 提供。