注册 / 登录

机器学习/深度学习在错误/故障分析\时间序列异常检测的实际应用案例

分会场:  数据科学/人工智能/数据驱动

分享时间: 2017年11月9日 - 12日

案例来源 :

案例讲师

谭涛

Apple 总监

现任Apple总监。经验丰富的IT/互联网技术管理专业人士,热衷于搭建开拓性的产品及服务。目前工作是近实时大数据分析私有云,AI/机器学习的应用。在苹果工作十二年,组建了一个35位工程师的全球团队。团队构建了近实时大数据分析,机器学习和B2B供应链交互平台。团队成员包括斯坦福、南加大的博士。招募了一流工程师,建立凝聚团队的理想和目标,培养团队内的领导能力。决定关键的产品服务功能及所用技术,对公司内外的用户推广团队的解决方案。

扫描二维码分享案例

 

案例简述

 

AI/机器学习的初衷就是用智能机器把人从简单,重复,无创造性的工作中解放出来。AI 和 DevOps 在自动化方面的宗旨是一致的。其区别在于现有的 DevOps 是建立在 programming 的模式之上,是确定性的(deterministic)。而机器学习是基于从已有数据中了解模式,从而对新的情况进行判断,是推断性的(inferred)。 把机器学习推断性的能力应用到 DevOps 领域无疑使其自动化的进程上了一个新的台阶。
我们在机器学习 DevOps 领域作了一些有成效的工作,其中包括通过异常检测进行运维监控,及测试错误原因分析。 这两个项目成为我们下一代 DevOps 的助推器。在这次交流中,我将展开讨论两个项目的实施细节。介绍我们在 DevOps 所遇到的挑战和机会,机器学习在 DevOps 应用架构,基础数据分析,介绍相关的算法及算法选择的策略,数据管道及结果评估。希望对相关领域的业界人士提供参考和借鉴。

 

案例目标

 

我们有海量的机器生成的数据,其中包括产品设计验证测试,生产线质量检测,数据中心各种软件,服务器,网络设备的日志文件等等。运用这些数据,我们通过机器学习实现了(1)错误/故障根本原因的分析,(2)时间序列模式异常检测。通过对这两个案例的解析,探讨机器学习项目选项,团队构成。提供我们机器学习系统的工程架构,算法选择,支持环境,以及所遇到的问题和对策。

 

成功(或教训)要点

 

启动并交付了时间序列异常检测,设计及制造错误分析等的机器学习应用。苹果新产品上线的一些流程已采用了我们实施的错误分析,取得了惊人的投资回报。异常检测成为了支持苹果互联网服务和零售运维顶梁柱之一。

 

案例ROI分析

 

通过异常检测进行运维监控,及测试错误原因分析。 这两个项目成为我们下一代 DevOps 的助推器。

 

案例启示

 

更新中...