简单的直线是行不通的,因为您必须为每个因素分配权重才能得出房价预测。也许最大的因素是房屋大小和地块大小,但客厅、卧室和浴室都应该有一定的权重(这些都将被视为新的“输入”)。
即使现在,我们的工作仍然很简单。影响房价的另一个主要因素是位置。华盛顿州西雅图的价格与德克萨斯州加尔维斯顿的价格不同。一旦您尝试在全国范围内构建此算法,并使用位置作为附加输入,您就会发现它开始成为一个非常复杂的问题。
您可以使用机器学习技术来解决这三类问题中的任何一类。在每个示例中,您将收集大量示例数据集(称为训练示例),并运行一组程序来设计适合数据的算法。它允许您收集新的输入并使用算法来预 东北移动数据库 测输出(在本例中为价格)。使用这样的训练示例就是所谓的“监督机器学习”。
分类问题
这是一类特殊的问题,其目的是预测特定结果。例如,假设我们想要估计新生儿身高至少 6 英尺的概率。您可以想象输入可能是:
如果人矮于 6 英尺,则该算法的输出可以为 0;如果人大约为 6 英尺或更高,则该算法的输出可以为 1。使其成为分类问题的原因在于,您将输入项放入一个特定的类别或另一个类别中。对于我所描述的高度预测问题,我们并不是试图估计精确的高度,而是简单预测小于 6 英尺的高度。
更复杂的分类问题的一些示例是手写识别(识别字符)和垃圾邮件识别。