最近,各大视频平台实时更新着冬奥赛场上的精彩瞬间集锦,谷爱凌、武大靖、苏翊鸣等运动健儿们勇闯佳绩,可喜可贺!在为中国体育的强大实力感动、欣喜的同时,我们也关注到了体育竞技背后的一些 AI 产业应用,比如通过动作识别技术辅助运动员日常训练和比赛打分,利用智能分类与自动化剪辑等 AI 技术大幅降低体育视频内容处理的人力和时间成本等。

为了让大家深入了解这些 AI 技术在产业中的应用,降低 AI 落地门槛,百度飞桨、百度智能云、大连理工大学刘胜蓝副教授联合推出产业实践范例,在花样滑冰动作识别、多模态体育视频分类、足球视频精彩片段剪辑三个经典场景,提供了从数据准备,方案设计,模型优化部署的全流程教程,深入浅出详解产业落地方案,手把手教用户进行代码实践。

花样滑冰的运动轨迹复杂性强、速度快、类别多,这对识别任务来说是极大的挑战。本范例首次将基于人体骨架关键点的人类动作识别算法 ST-GCN(时空图卷积网络模型),运用于花样滑冰动作识别,可以实时地识别视频中花样滑冰运动员的技术动作并添加标注予以分类,在比赛和训练过程中做辅助打分以及动作质量评估。

如花样滑冰动作有跳跃、旋转、托举、步伐及转体、燕式步,其中跳跃是最重要的动作要素之一,选手起跳与落冰所用冰刃方式与空中旋转周数分为多种,因此可以产生多种组合,这就增加了分类的难度。

为了解决以上问题,技术方案选型的思考是什么呢?本范例通过选择 ST-GCN,并在已发布的论文基础上改进了网络结构,为解决基于人体骨架关键点的人类动作识别问题提供了新颖的思路,也取得了较大的性能提升。下图为本项目中构建的 ST-GCN 网络结构图。

近日,各类冰雪运动视频受到人们的广泛关注。为了提炼出用户真实的兴趣点和高层次语义信息,企业需要对视频所带文本、音频、图像多模态数据多角度理解。飞桨联合百度云带来多模态分类任务,给视频打多个描述内容的标签,用于内容圈选、投放等多个推荐系统场景,可谓是文娱媒体工作者的福音。

视频标签具有高层语义特点,单模态特征难以表达,高质量视频分类数据有限,对应的图像、音频、文本高语义特征提取困难;

不同模态之间存在语义鸿沟,模态之间交互存在挑战,不同模态可能存在互相干扰情况;

视频主题混杂以及长视频处理困难问题,单模态可能存在较大噪声和缺失情况,对模型的鲁棒性有较高要求。

基于以上难点,实践范例融合文本、视频图像、音频三种模态进行视频多模特征抽取,再进行特征融合,最后进行多标签分类,相比纯视频图像特征,显著提升高层语义标签效果。

本次范例总结了多种优化经验,基于融入实体信息的强大预训练 ERNIE,提升文本表征能力,固定住 ERNIE 的参数,后置 TextCNN 网络学习领域内知识,加速模型训练,多模态 cross attention 提升不同模态的交互能力,最终达到85.59%的模型精度。

体育比赛集锦类视频需要快速高质量的自动化剪辑工具对视频快速处理。专业体育训练需要大数据支撑,通过比赛或日常训练视频回放熟悉自己和对手,进行战术演练,媒体行业也需要工具提取需要的视频内容,产出高时效性的新闻素材。

为解决以上问题,我们最终选取 TSN+BMN+LSTM 作为基础模型方案,保障片段提取的准确度。优化策略包括使用用于提取视频图像特征的飞桨特色模型 PP-TSM、TSN 和 TSM,数据扩充和扩展时序行为 proposal。最终准确率达到91%,F1-score 达到76.2%。

飞桨产业实践范例,致力于加速 AI 在产业落地的前进路径,减少理论技术与产业应用的差距。范例来源于产业真实业务场景,通过完整的代码实现,提供从数据准备到模型部署的方案过程解析,堪称产业落地的“自动导航”。

真实产业场景:与实际具有 AI 应用的企业合作共建,选取企业高频需求的 AI 应用场景如智慧城市-安全帽检测、智能制造-表计读数等;

完整代码实现:提供可一键运行的代码,在“AI Studio 一站式开发平台”上使用免费算力一键 Notebook 运行;

详细过程解析:深度解析从数据准备和处理、模型选择、模型优化和部署的 AI 落地全流程,共享可复用的模型调参和优化经验;

直达项目落地:百度高工手把手教用户进行全流程代码实践,轻松直达项目 POC 阶段。

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注