• 1.摘要
  • 2.基本信息
  • 3.基本概念
  • 3.1.音频
  • 3.2.数字化声音
  • 3.3.常见格式
  • 4.音频数据处理
  • 4.1.音频数据存取
  • 4.2.音频数据录制
  • 4.3.音频数据播放
  • 5.音频数据空间特征模型
  • 5.1.提出
  • 5.2.空间特征模型
  • 6.视音频数据处理
  • 6.1.捕获
  • 6.2.回放
  • 6.3.压缩和解压缩

音频数据

数字化的声音数据就是音频数据。

数字化声音的过程实际上就是以一定的频率对来自microphone 等设备的连续的模拟音频信号进行模数转换(ADC)得到音频数据的过程;数字化声音的播放就是将音频数据进行数模转换(DAC)变成模拟音频信号输出。在数字化声音时有两个重要的指标,即采样频率(Sampling Rate)和采样大小(SamplingSize)。

采样频率即单位时间内的采样次数, 采样频率越大, 采样点之间的间隔越小, 数字化得到的声音就越逼真, 但相应的数据量增大, 处理起来就越困难;采样大小即记录每次样本值大小的数值的位数, 它决定采样的动态变化范围, 位数越多, 所能记录声音的变化程度就越细腻, 所得的数据量也越大。

基本信息

  • 中文名

    音频数据

  • 外文名

    voice data

  • 实质

    数字化的声音数据

  • 常见格式

    wave

  • 播放

    模转换为模拟音频数据输出

  • 录制

    MCI指令低音频函数

基本概念

音频

音频是多媒体中的一种重要的媒体,是声音信号的形式。作为一种信息的载体,音频可分为语音、音乐和其它声音三种类型。不同的类型将具有不同的内在特征,这些内在特征可划分为三级,即就是最低层的物理样本级,中间层的声学特征级和最高层的语义级。物理样本级包含的特征有采样频率、时间刻度、样本、格式、编码等;声学特征级包含的特征有感知特征和声学特征,其中感知特征有音调、音高、旋律、节奏等,声学特征包含能量、过零率、LPC 系数及音频的结构化表示等;语义级包括音乐叙事、音频对象描述、语音识别文本等。

数字化声音

传统的声音处理方法是通过话筒等设备把声音的振动转化成模拟的电流, 经过放大和处理, 然后记录到磁带或传至音箱等设备发声。这种方法失真较大, 且消除噪音困难, 也不易被编辑和修改。声音卡的出现解决了模拟方法中存在的问题, 它采用数字化方法来处理声音。数字化的声音数据就是音频数据。

数字化声音的过程实际上就是以一定的频率对来自microphone 等设备的连续的模拟音频信号进行模数转换(ADC)得到音频数据的过程;数字化声音的播放就是将音频数据进行数模转换(DAC)变成模拟音频信号输出。在数字化声音时有两个重要的指标,即采样频率(Sampling Rate)和采样大小(SamplingSize)。采样频率即单位时间内的采样次数, 采样频率越大, 采样点之间的间隔越小, 数字化得到的声音就越逼真, 但相应的数据量增大, 处理起来就越困难;采样大小即记录每次样本值大小的数值的位数, 它决定采样的动态变化范围, 位数越多, 所能记录声音的变化程度就越细腻, 所得的数据量也越大。

常见格式

数字化的声音数据这里称音频数据, 可在内存中被编辑或修改, 也可以文件形式存放在磁盘上, 称为wave 文件, 其扩展名为“ .wav” , 它采用Microsoft 定义的资源互换文件格式(RIFF 格式), 具体结构如图1 。

 图1 WAVE 文件结构

整个文件可以看成是一个RIFF块, 该RIFF 块的形式类型为“WAVE” , 共包含了两个子块即“ fmt ” 和“data”子块。文件的开始4 个字节为字符串“ RIFF” ,接着的4 个字节为RIFF 块的大小, 即“ fmt ” 子块和“ data”子块所占字节之和, 然后的4 个字节是字符串“WAVE” 。“fmt” 子块的偏移地址为0CH -23H, 开始的4 个字节为字符串“ fmt ” , 接着的4 个字节是“ fmt ”子块的大小, 为10H 或12H ,“ fmt ” 子块的数据为组成PCMWAVEFORMAT 的数据。PCMWAVEFORMAT结构如下:

typedef struct {

WAVEFORM AT wf ;

WORD wBitsPerSample ;//样本值位数

}PCM WAVEFORMAT

typedef struct {

WORD  wFormatT ag ; //WAVE 格式

WORD nChannels ;//声道数

DWO RD nSamplesPerSec ;//采样频率

DWO RD nAvgBytesPerSec;//每秒数据量