您的当前位置:首页正文

Python如何对音视频文件进行解析详解

2024-11-16 来源:个人技术集锦

前言

作为一个学完Python基础知识的测试,终于可以像RD们自己写脚本处理任何场景吧,如何优雅地写出来代码,接下来开启进阶版的Python。

在我们工作中,涉及的多媒体文件相关的测试,总逃不掉要使用工具查看多媒体文件相关的信息,上百次甚至上千次的打开关闭操作,工作是非常低效。

本期,我们一起来实现如何使用Python解析多媒体文件获取信息,一起来涨知识吧~

问题背景

当我们遇到进行多媒体测试,总会遇到各种各样不同编码、后缀、多音轨的多媒体文件。那么问题来,在这个测试过程我们总是打开多媒体文件-查看文件编码等信息,此过程如此往复。在测试一个项目下来,累计打开查看多媒体文件信息至少也有上百次~

  • 在这里补充一下,通常对于多媒体测试来说,常用的分析工具是****
    • 是一款开源的多媒体分析工具
    • 可以支持多种视频和音频文件格式
    • 支持多种格式查看方式如xml、text、tree等

做测试真是体力活,惰性是提高工作效率的第一次动力,动动脑筋,在网上查找一番Python提供了关于多媒体解析的库pymediainfo库控制MediaInfo工具

2.安装依赖库

2.1 pymediainfo库

Pymediainfo 是专门对多媒体文件进行解析的开源第三方Python库,目前维护作者是Louis Sautier。可以支持Linux、MAC OS和Windows系统。

Pymediainfo 模块中调用mediaInfo工具,解析文件并返回详细信息->空白备注的信息。

2.2 安装pymediainfo库

  • 第三方库,安装直接使用Python提供的pip工具
    • pip install pymediainfo
  • 如果安装遇到下载失败,则可以添加其他服务器资源进行下载。如清华大学源
    • pip install pymediainfo -i https://pypi.tuna.tsinghua.edu.cn/simple

3. 测试解析效果

查看 pymediainfo 库源代码pymediainfo/init.py内容,可以看到pymediainfo主要有两个类:

  • Track:从mediaInfo对象输出指定属性的值
  • Medianfo:解析多媒体文件,获取详细信息

根据官网文档的介绍,简单使用pymediainfo库方法,解析movie1.mp4文件:

from pymediainfo import MediaInfo
media_info = MediaInfo.parse(filename)
print(media_info.to_json())

终端输出非常详细的信息,如下部分打印截图:

我们看到输出的内容是Json格式的,存在两个问题:

  • 数据字段多
  • 数据字段间距拥挤

介于以上问题,对解析的Json数据,要进行格式化处理输出,怎么做到输出形式如mediainfo 软件GUI效果一样呢?

4. 格式化解析信息

我们获取到的media_info信息,怎么格式化输出与GUI界面显示的一样的内容,最直接的思路大概如下:

  • 查看JSON数据内容,多媒体文件信息主要包含三个部分:

    • General:movie、music、picture必有
    • Video:movie必带,music和picture无
    • Audio:movie和music必带,picture无
  • 三种类型的多媒体文件字段内容也不尽相同,其中movie文件字段最多

根据GUI上对每种文件展示详细内容字段,总体是一致的,可以使用map方式,将GUI上展示的字段名和JSON字段建立映射表output_type来存储。

获取到解析信息后,使用for循环将tracks所有属性字段, 根据创建output_type截取字段来进行打印输出到new_file文件中。

在此过程中,当指定的字段值为None时,则进行跳过。

注:mediaInfo GUI界面 text展示的是左对齐,因此可以使用format格式输出

"{key1:[填充字符][对齐方式][宽度]}".format(key1)
# *<40:左对齐,总共40个字符,不够用*填充
# *>40:右对齐,总共40个字符,不够用*填充
# *^40:居中,总共40个字符,不够用*填充

根据以上思路,代码就非常容易实现啦demo代码如下

终端打印效果如下所示:

5. 批量解析操作

回到开头我们面对一堆的多媒体文件需要查看分析详情的时候,大概的解决思路如下:

  • 我们可以继续使用os.path模块获取指定目录下所有多媒体文件列表media_files。
  • 遍历将每个mediafile使用mediainfo方法解析出信息mediainfo.to_json()存储在list中,为什么不每一次解析内容就写入到文件中,原因如下:

    每次解析后频繁打开写入文件操作,消耗系统资源

    对于mediainfo内容还需要进行格式化后内容写入到目标文件中

  • 将统一的格式化内容一一写入到指定文件中,可以为后续查找和分析提供资料

6. 总结

本期,我们在工作遇到要频繁地查看和查找多媒体文件信息,学习到了使用python中第三方库pymediainfo模块便捷快速解析指导的多媒体文件。

根据不同场景和需求,个性化解析出想要的多媒体详细信息,提高我们工作效率,更多的时间学习其他新知识啦~

显示全文