注册 / 登录

直播平台的运维保障实践

分会场:  运维体系/AIOps&DevOps/区块链

 

案例来源 :

案例讲师

张观石

虎牙直播 直播业务运维负责人

10余年网站开发、架构、运维经验;目前关注互联网服务可靠性系统工程、运维平台的规划建设、网站高可用架构等方面;在音视频传输质量评估、微服务运维方面积累了丰富的经验。

扫描二维码分享案例

 

案例简述

 

本案例会讲到
虎牙是如何从0到1建立音视频质量全链路监控、感知、保障,已经评估我们的质量。直播流程是从主播端->推流点->CDN转推收流点->转码->分发->观众端(各省市、运营商、各种端),整个链路长、实时性要求高,环节多。
如何做全链路质量数据采集、上报、存储、展示和告警;
如何在直播过程中快速发现某条流的卡顿问题,快速修复直播故障,帮助我们从多个方面提升整个组织的效率;
如何帮助提升直播平台的音视频的传输质量,提升主播和观众的观看直播的体验。

 

案例目标

 

相对于Web服务,直播音视频的运维更特殊,业界没有很好的参考的经验,刚接手时,这方面运维的挑战比较大。一方面,虎牙直播目前是异构多云的架构,从整个链路看,任何观众都可以看到任何线路上任何主播的情况,复杂度高。另一方面,相对来说,研发同学以及各个团队会比较关注自己环节上的事情,所以在我们引入了多CDN以后,不仅技术和管理复杂性大幅提高,而且视频流路径在这么复杂的场景下,必须深入音视频运维工作,这对运维质量和运维人员技能提出了更高的要求。

 

成功(或教训)要点

 

直播音视频的传输质量评估体系
音视频质量数据的全链路监控、
我们在互联网服务可靠性系统工程的思考

 

案例ROI分析

 

运维效率的提升
直播质量的提升

 

案例启示

 

由于直播平台不同以往任何架构的特殊性,以及当时视频板块技术的有限性,促使我们必须尽快找到运维的着力点。后来,我们接轨了近年来一直倡导的DevOps和SRE解决了这一困局。

 

案例在团队中的意义

 

以全链路的思维进行音视频质量感知和评估,以SRE的工程方式进行运维工作。