编码方式

所谓编码方式就是指通过特定的压缩技术，将某个视频格式的文件转换成另一种视频格式文件的方式。目前视频流传输中最为重要的编解码标准有国际电联的H.261、H.263，运动静止图像专家组的M-JPEG和国际标准化组织运动图像专家组的MPEG系列标准，此外在互联网上被广泛应用的还有Real-Networks的RealVideo、微软公司的WMT以及Apple公司的QuickTime等。

概述

音频数字化主要有压缩与非压缩两种方式。较早出现的数字音频播放机，如CD唱机和DAT录音机，均采用线性PCM编码来存储音乐信号，为非压缩方式。在高质量要求的音频工作站和数字录像机（如DVCPRO）上，现在也采用非压缩的格式。

我们目前常见的MPEG、Dolby Digital、DTS等则为压缩方式。压缩分为有损压缩和无损压缩。有损压缩的目的是提高压缩率，降低占用系统资源。可以根据实际需要选用不同的采样速率、样本分辨力（精度）和数据率。

世广数字卫星广播系统的信源编码技术采用MPEG-2.5第三层声音编码算法。第三层编码算法最复杂、延时最大、效率最高。因此对一定的数据速率，第三层协议得到的音质最好。当然，用户可根据需要选择8—128Kbps范围的不同速率。声音质量可达到CD音质。

分类

非压缩编码（PCM）　　声音之所以能够数字化，是因为人耳所能听到的声音频率不是无限宽的，主要在20kHz以上。按照抽样定理，只有抽样频率大于40kHz，才能无失真地重建原始声音。如CD采用44.1kHz的抽样频率，其他则主要采用48kHz或96kHz。

图片

PCM（脉冲编码调制）是一种将模拟语音信号变换为数字信号的编码方式。主要经过3个过程：抽样、量化和编码。抽样过程将连续时间模拟信号变为离散时间、连续幅度的抽样信号，量化过程将抽样信号变为离散时间、离散幅度的数字信号，编码过程将量化后的信号编码成为一个二进制码组输出。

压缩编码

PCM虽然为无损压缩，但由典型的音频信号表示的信号特性没有达到最佳，也没有很好的适应人耳听觉系统的特定要求。PCM的数据量过高，从而造成存储和传输方面的障碍，因此必须使用相应的技术降低数字信号源的数据率，又尽可能不对节目造成损伤，这就是压缩技术。

方式

搞清常用编码特性是解决字符集编码问题的基础。字符集编码的识别与转换、分析各种乱码产生的原因、编程操作各种编码字符串（例如字符数计算、截断处理）等都需要弄清楚编码的特性。了解一种字符集编码主要是要了解该编码的编码范围，编码对应的字符集（都包含哪些字符），和其他字符集编码之间的关系等。

ASCII　　ASCII码是7位编码，编码范围是0x00-0x7F。ASCII字符集包括英文字母、阿拉伯数字和标点符号等字符。其中0x00-0x20和0x7F共33个控制字符。

图片

只支持ASCII码的系统会忽略每个字节的最高位，只认为低7位是有效位。HZ字符编码就是早期为了在只支持7位ASCII系统中传输中文而设计的编码。早期很多邮件系统也只支持ASCII编码，为了传输中文邮件必须使用BASE64或者其他编码方式。

GB2312　　GB2312是基于区位码设计的，区位码把编码表分为94个区，每个区对应94个位，每个字符的区号和位号组合起来就是该汉字的区位码。区位码一般用10进制数来表示，如1601就表示16区1位，对应的字符是“啊”。在区位码的区号和位号上分别加上0xA0就得到了GB2312编码。

区位码中01-09区是符号、数字区，16-87区是汉字区，10-15和88-94是未定义的空白区。它将收录的汉字分成两级：第一级是常用汉字计3755个，置于16-55区，按汉语拼音字母/笔形顺序排列；第二级汉字是次常用汉字计3008个，置于56-87区，按部首/笔画顺序排列。一级汉字是按照拼音排序的，这个就可以得到某个拼音在一级汉字区位中的范围，很多根据汉字可以得到拼音的程序就是根据这个原理编写的。

GB2312字符集中除常用简体汉字字符外还包括希腊字母、日文平假名及片假名字母、俄语西里尔字母等字符，未收录繁体中文汉字和一些生僻字。可以用繁体汉字测试某些系统是不是只支持GB2312编码。

GB2312的编码范围是0xA1A1-0x7E7E，去掉未定义的区域之后可以理解为实际编码范围是0xA1A1-0xF7FE。