12月2日-3日,ArchSummit全球架构师峰会在北京召开,来自国内外的近百位技术专家共聚一堂,为现场数千名与会者分享了各自领域的成就和经验。网易视频云CTO邱似峰受邀出席,并在活动现场分享了视频直播架构的演进之路。 直播无疑是2016年最受关注的领域,但如何搭建一个稳定高效的直播系统却并非一日之功。邱似峰从数据采集、音视频预处理、音视频编码、流媒体传输、音视频解码、画面显示等视频直播的一整套技术进行了详细的讲述。
而网易视频云又是如何完成直播架构从0到1再到100演进的呢?
为了帮助听众更好的理解直播架构,邱似峰将直播过程分为六个部分,即采集、预处理、编码、传输、解码和服务端录制。而这些模块又是如何影响直播的清晰度、流畅度、延时和首屏时间的,邱似峰进行了一一讲述。
邱似峰介绍说,传统的直播解决方案具有2-6秒的延时,比如编码和预处理、队列发送、网络接收队列、接流节点等都是造成时延的原因,但1-4秒的首屏缓冲确实时延的罪魁祸首。除此之外,国内电信联通南北分离的网络环境、高峰时期的延时波动等也是导致直播体验差的元凶之一。为了解决时延问题,网易视频云自主研发了“首屏秒开”功能,并在拥塞恢复、追赶延时、QOS策略等直播卡顿问题进行了一系列优化。
互联网进入直播时代,除了满足用户猎奇、窥视、社交等各种心理需求,移动化也让网络直播更加多维。教育、娱乐、新闻、电商等不同领域所面向的直播人群不同,平均观看人数不同,对直播功能之外的个性化服务也有所不同,如何解决这种差异化的需求,已然成为视频直播架构设计的一部分。
邱似峰介绍说,为了解决视频传输过程中的丢包、带宽利用率低等问题,网易视频云在架构上采用了新的视频传输协议和新的带宽估算算法,而音视频分离技术则是解决这些问题的又一举措。音频数据和视频数据分别发送,在网络拥塞的情况下可以优先发送音频数据,视频数据根据网络情况进行重传,最后将音视频数据再次混合,并融合了融合了视频画面增强、音频回声消除、自动增益、智能降噪等技术。
目前,互动直播业已成为视频直播架构的重要组成部分。相比于当下流行的单一直播模式,互动直播打破了主播和观众之间的互动门槛,比如多位主播和观众的面对面互动,对直播在电商、教育、金融、泛娱乐等领域的应用有进一步的促进作用。同时,邱似峰分享了这样一组数据,网易视频云的互动直播实现了低于200ms的延时,且支持1000万人以上并发观看。
截止到目前,网易视频云已经服务了包括网易新闻、网易云音乐、BoBo美女主播、网易云课堂、宝宝树等知名互联网产品,并针对泛娱乐、在线教育、视频电商、在线金融等场景提供了一体化的直播、点播和互动直播服务。