当前位置:首页 > 移动开发

使用机器学习前,企业需要做的10项准备工作

作者:it技术知识网 阅读次数: 时间:2019-06-24 08:41:10

摘要:并不是每一个问题可以通过机器学习来解决,而不是每家公司都准备好AI的应用。例如,企业应确定具体的应用场景,是否有足够的数据来分析,建立需要进行定义模式和人才培养模式的预测模型,人员和工具。还有很多。因此,本文介绍的具体使用人工智能,机器学习和学习的深入,企业需要做的准备工作10。-1-足够的数据有足够的数据是预测和模式识别的必要条件。那么,企业到底有多少数据需要?无论是一般的统计预测,或机器学习或深度学习,更多的因素需要考虑,需要更多的数据。总的来说,本机

  并不是每一个问题可以通过机器学习来解决,而不是每家公司都准备好AI的应用。

  例如,企业应确定具体的应用场景,是否有足够的数据来分析,建立需要进行定义模式和人才培养模式的预测模型,人员和工具。还有很多。

  因此,本文介绍的具体使用人工智能,机器学习和学习的深入,企业需要做的准备工作10。

  足够的数据-1-

  的必要条件是在预测和模式识别足够的数据。那么,企业到底有多少数据需要?无论是一般的统计预测,或机器学习或深度学习,更多的因素需要考虑,需要更多的数据。总体而言,机器学习需要比统计预测更多的数据,以及所需的数据是呈指数更深入的学习。

  销售预测的问题,例如,由于季节性很强的零售行业,这就要求企业积累多年的数据的重要月度统计意义,为了能够纠正每月的周期性变化和建立年度发展趋势,为了使标准的时间序列分析模型。

  例如,公司可以通过统计模型进行分析5年月全国连锁衬衫销售的,基于总销量预测下个月的衬衫,以及作为一个地方的衬衫销售额为总销售额的百分比,例如上作为蓝色短袖衬衫衬衫销售比例占销售总额更具体数字。当然,在这个过程中,企业还需要特别注意的差距实际结果和模型预测之间。

  如果还考虑外部因素如天气和流行趋势。公司也可以引入到历史气象数据模型试验。当然,在时间序列统计模型可能更困难的事,但你可以尝试使用决策树回归模型来实现。

  如上图所示,企业可以尝试回归其他七个机器学习模型,然后每个与去年的实际结果相比,“成本”(归一化误差函数)的模型,并找到最好的模式。

  例如,当企业想知道下个月的海军蓝色礼服销售比去年更好或更坏?你可以看到所有的宝蓝色服装和每月销售预测每年的流行趋势,它可以被引入到机器学习模型进行分析。此外,企业还可以根据时尚媒体上获得的信息,该模型的手动更正。

  在这个过程中,通过创建一个深层神经网络,从而实现更好的预测。你甚至可能会发现,对于每添加一个隐藏层,可以增加几个百分点会返回一个错误,未来逐渐增加,直到一个不能再提高,直到效果。其中,主要的收益递减,可能是因为没有更多的功能模型可以被识别,或者也可能是因为没有足够的数据来支持的提升空间。

  数据科学家-2-

  当然,企业必须能够建立一个模型,上面提到的所有的人。他需要足够的经验,直觉,可编程性和统计背景。

  即使目前的很多机器学习的产品和服务的提供者,“任何人”或“任何商业作用”可以被训练使用他们的预申请机器学习模型。但现实的情况是,企业的数据可能并不适用于现有的模型。因此,我们需要数据分析和数据科学家来指导和帮助训练模式。

  -3-跟踪和收集相关的重要数据变量

  此外,企业还需要有数据相关的变量,从多个维度收集和使用数据,从而避免在统计学上说,“原因不明的变异”。

  当然,一些独立变量(E。G。,天气)的测量和采集是困难的,昂贵的或不切实际。在化学领域中,例如,当你引线上的镀铜,温度和浓度,可以测量氟硼酸电镀溶液,并在正记录的电压。但这需要含有肽溶液适量,从而获得良好的粘附性。否则,你可以不知道这样做的主要催化剂的数量,则不能使用其他变量来解释在电极板的质量变化。

  -4-想方设法清理和转换数据

  通常情况下,数据是非常复杂的,其质量往往参差不齐。例如,在收购过程中,可能会丢失一个或多个值,各个值可能超出范围或与其他值不一致,回答问题的人可能不明白的问题或答案,等会弥补。

  而这一点,就意味着过滤的数据分析过程需要的大部分能量,这甚至可能占80%至总分析时间90%的。如果ETL(提取,转换和加载)将处理所有保留在数据仓库或数据湖的数据的,或不相关的可以使数据的高品质不能被保存。

  当然,即使滤波数据转换的精度后,也可能被要求是一个很好的分析。类似的统计方法,在每个可能的状态类似的参数,我。?。当所有的变量,机器学习模型的效果最好的一个属性的范围。因此,企业必须找到更好地清理和转换数据。

  -5-再检查所有的变量和数据的相关性

  接下来,我们需要后退一步,看看所有的变量及其相关。

  探索离群数据分析可以迅速显示的所有变量的范围和分布是相关的变量,其中,集群,其中可存在之间相互依赖或独立物质的。当公司有高度相关的变量,一般删除一个或多个变量,从分析是有用。公司也可以执行类似的逐步多重线性回归的方法,以确定最佳变量选择。

   但是,这并不意味着最终的模型是线性的,只是引入更多的复杂因素之前需要尝试简单的线性模型; 如果有太多的商业模式,在技术方面,这将是由多种因素的系统模型的产生。

  -6-发现通过试错的最佳模式

\

  - 尝试所有这些模型是:只有找到一个给定数据集的最佳模式的一种方式。

  如果目标公司正在探索一个强大而充满挑战的领域(如图像字符识别和语音识别),它可能只尝试所谓的“最佳”模式。然而,这些模型通常是计算最密集的深学习模型,E。g。在的情况下具有用于长期存储器中的卷积图像识别和声音识别的层(LSTM)层。如果企业需要训练神经网络这些深度,我们需要比办公环境更多的计算能力。

  -7-具有计算能力需要深入的培训学习模式

  更大的数据集,更深度的学习模式,为不再需要的神经网络训练时间。

  关于训练时间的问题,有使用通用图形处理单元(GPU)来解决的方法。K80 GPU具有CPU,这是可以仅使用CPU来实现的训练率通常为5?10倍。如果企业能对整个网络的“核心”集成到GPU的本地存储器,然后列车速度可以达到仅使用CPU甚至100倍。

  除了单GPU此外,企业还可以建立一个协调网络的CPU和GPU能够解决在较短的时间更大的问题。除非你愿意花大量的时间整整一年来训练深度学习模式,并拥有庞大的预算,否则你会发现,在云聘请GPU是选择最划算。几个深学习帧包括CNTK,MXNet和TensorFlow支持,包括CPU和GPU的并行计算,并与合理的缩放因子,GPU可被用于支持大的虚拟机(VM)实例的网络。

\

  -8-学会调整或尝试不同的方法

  为供试品企业模型标准的制定简单的统计模型,通过机器学习和深入学习操作。但是,如果你不能使用给定的模式,提高分析水平,应调整或尝试不同的方法,例如,您可以设置超参数调整算法的控制下多个并行模型训练,并使用一个阶段的指导下最好的结果。

  -9-预测模型的部署

  最后,受过训练的模型可以部署和服务器,云中运行,个人计算机或手机实时企业应用上。深学习框架提供了嵌入在Web和移动应用程序模型选项。亚马逊,谷歌和微软也展示了他们的做法在这方面,甚至有可能消费电子设备和通过语音识别操作的智能手机应用程序。

  -10-定期更新模型

\

  当然,你也可以发现,即使是受过训练的模型,数据将通过适当的时候有所不同,所以错误率模型将随时间增加。例如,企业销售模式将发生变化,竞争对手的变化,款式变化,经济形势将发生变化 。

  出于这个原因,大部分的深度学习框架,可以选择旧的数据再培训,并与预报服务的新模式所取代。如果你经常每月更新一次,基本上就能跟上时代。否则,你的模型将最终成为太旧,不可靠。

本文链接:使用机器学习前,企业需要做的10项准备工作

友情链接:

大悲咒经文 佛经 观音心经