0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

mp4和mkv有什么區(qū)別?什么是H.264?什么是mpeg?

Linux愛好者 ? 來源:Linux愛好者 ? 2023-02-07 15:41 ? 次閱讀

前言

說到視頻,大家自己腦子里基本都會想起電影、電視劇、在線視頻等等,也會想起一些視頻格式 AVI、MP4、RMVB、MKV等等。但是我們?nèi)绻J(rèn)真思考這些應(yīng)該就有很多疑問,比如以下問題:

mp4 和 mkv有什么區(qū)別 ?

視頻封裝格式 和 解碼格式 有什么區(qū)別?

什么是H.264 ?什么是 mpeg ?

等等很多疑問,我們不知道這些問題的答案是因?yàn)槲覀儧]有去了解他們背后的東西,下面我會給大家分享當(dāng)初我學(xué)習(xí)時(shí)候的整理的一些知識。

一、光與顏色

1,光和顏色光是一種肉眼可以看見(接受)的電磁波(可見光譜)。在科學(xué)上的定義,光有時(shí)候是指所有的電磁波。光是由一種稱為光子的基本粒子組成。具有粒子性與波動性,或稱為波粒二象性。人類肉眼所能看到的可見光只是整個(gè)電磁波譜的一部分。電磁波之可見光譜范圍大約為390~760nm(1nm=10-9m=0.000000001m)。

在這個(gè)世界如果沒有光,我們就無法生存。顏色是視覺系統(tǒng)對可見光的感知結(jié)果,研究表明人的視網(wǎng)膜有對紅、綠、藍(lán)顏色敏感程度不同的三種錐體細(xì)胞。紅、綠和藍(lán)三種錐體細(xì)胞對不同頻率的光的感知程度不同,對不同亮度的感知程度也不同。自然界中的任何一種顏色都可以由R,G,B 這 3 種顏色值之和來確定,以這三種顏色為基色構(gòu)成一個(gè)RGB 顏色空間。

顏色=R(紅色的百分比)+G(綠色的百分比)+B(藍(lán)色的百分比),只要其中一種不是由其它兩種顏色生成,可以選擇不同的三基色構(gòu)造不同的顏色空間。如圖所示,適當(dāng)?shù)募t光和綠光能合成黃光;適當(dāng)?shù)木G光和藍(lán)光能合成青光;適當(dāng)?shù)乃{(lán)光和紅光能合成品紅色的光;而適當(dāng)?shù)募t、綠、藍(lán)三色光能合成白光。因此紅、綠、藍(lán)三種色光被稱為色光的“三原色。”

33973662-a44a-11ed-bfe3-dac502259ad0.jpg

2,顏色的度量飽和度(saturation)

是相對于明度的一個(gè)區(qū)域的色彩,是指顏色的純潔性,它可用來區(qū)別顏色明暗的程度。完全飽和的顏色是指沒有滲入白光所呈現(xiàn)的顏色,例如僅由單一波長組成的光譜色就是完全飽和的顏色。

明度(brightness)是視覺系統(tǒng)對可見物體輻射或者發(fā)光多少的感知屬性。它和人的感知有關(guān)。由于明度很難度量,因此國際照明委員會定義了一個(gè)比較容易度量的物理量,稱為亮度(luminance) 來度量明度,亮度(luminance)即輻射的能量。明度的一個(gè)極端是黑色(沒有光),另一個(gè)極端是白色,在這兩個(gè)極端之間是灰色。

光亮度(lightness)是人的視覺系統(tǒng)對亮度(luminance)的感知響應(yīng)值,光亮度可用作顏色空間的一個(gè)維,而明度(brightness)則僅限用于發(fā)光體,該術(shù)語用來描述反射表面或者透射表面。

3,顏色空間

33a6d8a6-a44a-11ed-bfe3-dac502259ad0.jpg

顏色空間是表示顏色的一種數(shù)學(xué)方法,人們用它來指定和產(chǎn)生顏色,使顏色形象化。顏色空間中的顏色通常使用代表三個(gè)參數(shù)的三維坐標(biāo)來指定,這些參數(shù)描述的是顏色在顏色空間中的位置,但并沒有告訴我們是什么顏色,其顏色要取決于我們使用的坐標(biāo)。

下面介紹幾種常見的顏色空間:

RGB: 用途:主要用來在LCD、CRT顯示器上用的。RGB色彩模式是工業(yè)界的一種顏色標(biāo)準(zhǔn),是通過對紅(R)、綠(G)、藍(lán)(B)三個(gè)顏色通道的變化以及它們相互之間的疊加來得到各式各樣的顏色的,RGB即是代表紅、綠、藍(lán)三個(gè)通道的顏色。目前的顯示器大都是采用了RGB顏色標(biāo)準(zhǔn),在顯示器上,是通過電子槍打在屏幕的紅、綠、藍(lán)三色發(fā)光極上來產(chǎn)生色彩的。電腦屏幕上的所有顏色,都由這紅色綠色藍(lán)色三種色光按照不同的比例混合而成的。一組紅色,綠色,藍(lán)色就是一個(gè)最小的顯示單位。屏幕上的任何一個(gè)顏色都可以由一組RGB值來記錄和表達(dá)。顯像管內(nèi)電子槍射出的三個(gè)電子束,它們分別射到屏上顯示出紅、綠、藍(lán)色的熒光點(diǎn)上,通過分別控制三個(gè)電子束的強(qiáng)度,可以改變?nèi)珶晒恻c(diǎn)的亮度。由于這些色點(diǎn)很小又靠得很近,人眼無法分辨開來,看到的是三個(gè)色點(diǎn)的復(fù)合.即合成的顏色。

以RGB24為例,圖像像素?cái)?shù)據(jù)的存儲方式如下:

33bf7cbc-a44a-11ed-bfe3-dac502259ad0.jpg

RGB的格式:

33d6b7e2-a44a-11ed-bfe3-dac502259ad0.jpg

RGB16 RGB24 RGB32 等等這些到底格式有什么區(qū)別呢 ?

總的來說區(qū)別就是一個(gè)像素所使用的位數(shù)不同,顯示出來的色彩豐富度不同,位數(shù)越大,色彩越豐富。計(jì)算機(jī)使用的都是二進(jìn)制,因此所有的數(shù)量級都是建立在二進(jìn)制的基礎(chǔ)上的,無論是存儲空間,運(yùn)算速度,文件大小等等。

如果要表示顏色,每一個(gè)對應(yīng)的顏色都需要一個(gè)二進(jìn)制代碼來表示,使用8位的二進(jìn)制, 可以表示 2^8 (2的8次方) , 也就是256種色彩。使用16位的二進(jìn)制,可以表示 2^16 (2 的16次方),也就是65536種色彩。使用24位的二進(jìn)制,可以表示 2^24 (2的24次方) ,也就是16,777,216種色彩。一般稱24bit以上的色彩為真彩色,當(dāng)然還有采用30bit、36bit、42bit的。使用的色彩代碼越長,同樣像素的文件的文件大小也就相應(yīng)的成冪次級增長。使用超過16位以上的色彩文件在普通的顯示器,尤其是液晶顯示器上看不出任何區(qū)別,原因是液晶顯示器本身不能顯示出那么多的色彩。但是對于彩色印刷就非常有用,因?yàn)橛湍狞c(diǎn)非常的細(xì),同時(shí)由于印刷尺幅的放大原因, 更大的文件可以在印刷的時(shí)候呈現(xiàn)出更細(xì)膩的層次和細(xì)節(jié)。

YUV:用途:主要用于視頻信號的壓縮、傳輸和存儲,和向后相容老式黑白電視。在生理學(xué)中,有一條規(guī)律,那就是人類視網(wǎng)膜上的視網(wǎng)膜桿細(xì)胞要多于視網(wǎng)膜錐細(xì)胞,說得通俗一些,視網(wǎng)膜桿細(xì)胞的作用就是識別亮度,而視網(wǎng)膜錐細(xì)胞的作用就是識別色度。所以,人眼對亮度分辨率的敏感度高于對色彩分辨率的敏感度

33e47f9e-a44a-11ed-bfe3-dac502259ad0.jpg

從上圖我們可以看出,我們更容易識別去除色彩的圖像,而對于單獨(dú)剝離出的只有色彩的圖像,不好識別。YUV色彩模型就是利用這個(gè)原理,把亮度與色度分離,根據(jù)人對亮度更敏感些,增加亮度的信號,減少顏色的信號,以這樣“欺騙”人的眼睛的手段來節(jié)省空間,從而適合于圖像處理領(lǐng)域。YUV三個(gè)字母中,其中"Y"表示明亮度(Lumina nce或Luma),也就是灰階值;而"U"和"V"表示的則是色度(Chrominance或Chroma),作用是描述影像色彩及飽和度,用于指定像素的顏色。使用YUV的優(yōu)點(diǎn)有兩個(gè):一、彩色YUV圖像轉(zhuǎn)黑白YUV圖像。如果只有Y信號分量而沒有U、V分量,那么這樣表示的圖像就是黑白灰度圖像。因此可兼容老式黑白電視。二、YUV是數(shù)據(jù)總尺寸小于RGB格式。因?yàn)閅UV,可以增加亮度的信號,減少顏色的信號,用于減少體積。

YCbCr :在技術(shù)文檔里,YUV經(jīng)常有另外的名字, YCbCr ,其中Y與YUV 中的Y含義一致,Cb , Cr 同樣都指色彩,只是在表示方法上不同而已,Cb Cr 就是本來理論上的“分量/色差”的標(biāo)識。C代表分量(是component的縮寫)Cr、Cb分別對應(yīng)r(紅)、b(藍(lán))分量信號,Y除了g(綠)分量信號,還疊加了亮度信號。

YCbCr模型來源于YUV模型,算是YUV的壓縮版本,不同之處在于Y'CbCr用于數(shù)字圖像領(lǐng)域,YUV用于模擬信號領(lǐng)域,MPEG、DVD、攝像機(jī)中常說的YUV其實(shí)是Y'CbCr。

其中Y與YUV 中的Y含義一致,Cb , Cr 同樣都指色彩,,只是在表示方法上不同而已,Cb Cr 就是本來理論上的“分量/色差”的標(biāo)識。C代表分量(是component的縮寫)Cr、Cb分別對應(yīng)r(紅)、b(藍(lán))分量信號,Y除了g(綠)分量信號,還疊加了亮度信號。

再YUV 家族中, YCbCr 是在計(jì)算機(jī)系統(tǒng)中應(yīng)用最多的成員, 其應(yīng)用領(lǐng)域很廣泛,JPEG、MPEG均采用此格式。一般人們所講的YUV大多是指YCbCr。

YCbCr 有許多取樣格式, 如4∶4∶4 , 4∶2∶2 , 4∶1∶1 和4∶2∶0:

44

33f92688-a44a-11ed-bfe3-dac502259ad0.jpg

YUV三個(gè)信道的抽樣率相同,因此在生成的圖像里,每個(gè)象素的三個(gè)分量信息完整。

42

34083c04-a44a-11ed-bfe3-dac502259ad0.jpg

每個(gè)色差信道的抽樣率是亮度信道的一半,所以水平方向的色度抽樣率只是44的一半

41

3419b43e-a44a-11ed-bfe3-dac502259ad0.jpg

41的色度抽樣,是在水平方向上對色度進(jìn)行4:1抽樣。對于低端用戶和消費(fèi)類產(chǎn)品這仍然是可以接受的。

40

342b7660-a44a-11ed-bfe3-dac502259ad0.jpg

40并不意味著只有Y,Cb而沒有Cr分量。它指得是對每行掃描線來說,只有一種色度分量以2:1的抽樣率存儲。相鄰的掃描行存儲不同的色度分量,也就是說,如果一行是40的話,下一行就是42,再下一行是40...以此類推。對每個(gè)色度分量來說,水平方向和豎直方向的抽樣率都是2:1,所以可以說色度的抽樣率是4:1。對非壓縮的8比特量化的視頻來說,每個(gè)由2x2個(gè)2行2列相鄰的像素組成的宏像素需要占用6字節(jié)內(nèi)存。

4,顏色空間的轉(zhuǎn)換:不同顏色可以通過一定的數(shù)學(xué)關(guān)系相互轉(zhuǎn)換:

RGB轉(zhuǎn)YUV:Y = (0.257 * R) + (0.504 * G) + (0.098 * B) + 16 Cr = V = (0.439 * R) - (0.368 * G) - (0.071 * B) + 128 Cb = U = -( 0.148 * R) - (0.291 * G) + (0.439 * B) + 128

YUV轉(zhuǎn)RGB:B = 1.164(Y - 16) + 2.018(U - 128) G = 1.164(Y - 16) - 0.813(V - 128) - 0.391(U - 128) R = 1.164(Y - 16) + 1.596(V - 128)

二、電視制式

1,介紹 電視信號的標(biāo)準(zhǔn)簡稱制式,可以簡單地理解為用來實(shí)現(xiàn)電視圖像或聲音信號所采用的一種技術(shù)標(biāo)準(zhǔn),就是用來實(shí)現(xiàn)電視圖像信號和伴音信號,或其它信號傳輸?shù)姆椒?,和電視圖像的顯示格式,以及這種方法和電視圖像顯示格式所采用的技術(shù)標(biāo)準(zhǔn)。只有遵循一樣的技術(shù)標(biāo)準(zhǔn),才能夠?qū)崿F(xiàn)電視機(jī)正常接收電視信號、播放電視節(jié)目。就像電源插座和插頭,規(guī)格一樣才能插在一起,中國的插頭就不能插在英國規(guī)格的電源插座里,只有制式一樣,才能順利對接。嚴(yán)格來說,電視制式有很多種,對于模擬電視,有黑白電視制式,彩色電視制式,以及伴音制式等。目前世界上現(xiàn)行的彩色電視制式有三種:NTSC 制、PAL 制和SECAM 制。中國大部分地區(qū)使用PAL制式,日本、韓國及東南亞地區(qū)與美國等歐美國家使用NTSC制式,俄羅斯則使用SECAM制式。

2,制式說明

NTSC電視標(biāo)準(zhǔn):NTSC電視標(biāo)準(zhǔn)主要用于美、日等國家和地區(qū)。NTSC電視標(biāo)準(zhǔn)的特性:(1) 525 行/幀,每秒29.97幀(簡化為30幀) (2)電視掃描線為525線。(3)隔行掃描,一幀分成2 場(field),262.5 線/場 (4)24比特的色彩位深。(5)高寬比:電視畫面的長寬比(電視為4:3;電影為3:2;高清晰度電視為16:9) (6)場頻為每秒60場( 幀數(shù)30 * 2 = 60 ) 它是1952年由美國國家電視標(biāo)準(zhǔn)委員會指定的彩色電視廣播標(biāo)準(zhǔn),它采用正交平衡調(diào)幅的技術(shù)方式,故也稱為正交平衡調(diào)幅制。優(yōu)點(diǎn)是電視接收機(jī)電路簡單,缺點(diǎn)是容易產(chǎn)生偏色,因此NTSC制電視機(jī)都有一個(gè)色調(diào)手動控制電路,供用戶選擇使用;

PAL電視標(biāo)準(zhǔn):PAL電視標(biāo)準(zhǔn)主要用于中國、歐洲等國家和地區(qū)。PAL電視標(biāo)準(zhǔn)的特性 (1)625 行(掃描線)/幀,每秒25幀. (2)電視掃描線為625線 (3)隔行掃描,2 場/幀,312.5 行/場 (4)24比特的色彩位深 (5)畫面的寬高比為4:3。(6)場頻為每秒50場( 幀數(shù)25 * 2 = 50 ) 它是西德在1962年指定的彩色電視廣播標(biāo)準(zhǔn),它采用逐行倒相正交平衡調(diào)幅的技術(shù)方法,克服了NTSC制相位敏感造成色彩失真的缺點(diǎn)。

SECAM電視標(biāo)準(zhǔn):SECAM是法文的縮寫,意為順序傳送彩色信號與存儲恢復(fù)彩色信號制,是由法國在1956年提出,1966年制定的一種新的彩色電視制式。它也克服了NTSC制式相位失真的缺點(diǎn),但采用時(shí)間分隔法來傳送兩個(gè)色差信號。PAL制式和SECAM制式可以克服NTSC制容易偏色的缺點(diǎn),但電視接收機(jī)電路復(fù)雜,要比NTSC制電視接收機(jī)多一個(gè)一行延時(shí)線電路,并且圖像容易產(chǎn)生彩色閃爍。因此三種彩色電視制式各有優(yōu)缺點(diǎn),互相比較結(jié)果,誰也不能戰(zhàn)勝誰,所以,三種彩色電視制式互相共存已經(jīng)五十多年。

三、照相機(jī)與攝像機(jī)

視頻最早是由攝像機(jī)拍攝的制作而成的,攝像機(jī)的發(fā)明又是在照相機(jī)的基礎(chǔ)之上的,所以說在這里,就不得簡單說明下照相機(jī)與攝像機(jī)。

1,照相機(jī)基本原理現(xiàn)實(shí)中照相機(jī)和攝像機(jī)的成像原理都是基于小孔成像為基礎(chǔ)的。我們知道,光在同一均勻介質(zhì)中、不受引力作用干擾的情況下,沿直線傳播;因此它在遇到阻隔物上的孔洞時(shí)會穿過它,并能在孔后一定距離內(nèi)的對應(yīng)平面上投射出一個(gè)倒立的實(shí)影;只要投影面周圍的環(huán)境足夠暗,影像就能被人眼所觀看到。相信學(xué)生時(shí)代,大家都曾在自然常識課上做過“小孔成像”的試驗(yàn),老師也肯定提到過這一原理與相機(jī)之間密不可分的關(guān)聯(lián);

343ed822-a44a-11ed-bfe3-dac502259ad0.jpg

照相技術(shù)的發(fā)明者正是利用光的這一的特性與傳遞原理,以光子為載體,把某一瞬間被攝景物的光信息以能量方式通過設(shè)在相機(jī)上“孔洞”傳遞給后方的感光材料。

3456365c-a44a-11ed-bfe3-dac502259ad0.jpg

照相機(jī)的基本工作原理就是——將景物影像通過光線的各種傳播特性準(zhǔn)確地聚焦在具有感光能力的成像平面上,通過各種輔助手段控制光線的流量,從而獲得符合用戶要求的影像畫面,最后通過不同的手段保存下來。最早的照相機(jī)結(jié)構(gòu)十分簡單,僅包括暗箱、鏡頭和感光材料?,F(xiàn)代照相機(jī)比較復(fù)雜,具有鏡頭、光圈、快門、測距、取景、測光、輸片、計(jì)數(shù)、自拍等系統(tǒng),是一種結(jié)合光學(xué)、精密機(jī)械、電子技術(shù)和化學(xué)等技術(shù)的復(fù)雜產(chǎn)品。

2,攝像機(jī)的發(fā)明過程攝像機(jī)的發(fā)明,起源于一個(gè)有趣的故事。1872年的一天,在美國加利福尼亞州一個(gè)酒店里,斯坦福與科恩發(fā)生了激烈的爭執(zhí):馬奔跑時(shí)蹄子是否都著地?斯坦福認(rèn)為奔跑的馬在躍起的瞬間四蹄是騰空的;科恩卻認(rèn)為,馬奔跑時(shí)始終有一蹄著地。爭執(zhí)的結(jié)果誰也說服不了誰,于是就采取了美國人慣用的方式打賭來解決。他們請來一位馴馬好手來做裁決,然而,這位裁判員也難以斷定誰是誰非。這很正常,因?yàn)閱螒{人的眼睛確實(shí)難以看清快速奔跑的馬蹄是如何運(yùn)動的。于是富翁請來了英國攝影師愛德華.麥布里奇來作實(shí)驗(yàn)。

麥布里奇把24架照相機(jī)的快門連上24根線,在極短的時(shí)間里,使照相機(jī)依次拍下24張照片,再將這些照片一張一張地依次按次序看下去,以便觀察馬兒是怎么樣躍進(jìn)的,又是怎么樣著地的。為了這一實(shí)驗(yàn),麥布里奇和助手們吃盡了苦頭,付出了大量的勞動,歷時(shí)六年的工夫,終于拍出了一套寶貴的"馬跑小道"的珍貴資料,同時(shí)也證實(shí)了這個(gè)美國富翁的預(yù)言是正確的。然而,麥布里奇的成功又向人們提出了一個(gè)新的問題:如何解決連續(xù)攝影的問題,因?yàn)樗?4架照相機(jī)僅僅只能拍攝奔馬的一段動作,如果奔馬跑一公里的長距離,就得用成千上萬架照相機(jī),膠卷的長度將會繞地球一周了。所以,如何運(yùn)用一架單鏡頭的攝影機(jī)來代替多鏡頭的攝影機(jī)或者一組攝影機(jī),就成了解決連續(xù)攝影的關(guān)鍵問題。

1874年,法國的朱爾·讓桑發(fā)明了一種攝影機(jī)。他將感光膠片卷繞在帶齒的供片盤上,在一個(gè)鐘擺機(jī)構(gòu)的控制下,供片盤在圓形供片盒內(nèi)做間歇供片運(yùn)動,同時(shí)鐘擺機(jī)構(gòu)帶動快門旋轉(zhuǎn),每當(dāng)膠片停下時(shí),快門開啟曝光。讓桑將這種相機(jī)與一架望遠(yuǎn)鏡相接,能以每秒一張的速度拍下行星運(yùn)動的一組照片。讓桑將其命名為攝影槍, 這就是現(xiàn)代攝影機(jī)的始祖。

3,視頻經(jīng)過哪些步驟,存儲到計(jì)算機(jī)中?

(1)成像 主要靠鏡頭來完成,拍攝主體反射的光線通過鏡頭進(jìn)入相機(jī)后聚焦,形成清晰圖像。

(2)光電轉(zhuǎn)換 圖像落在CCD/CMOS光電器材上,通過光電轉(zhuǎn)換形成電信號。

(3)記錄

347322d0-a44a-11ed-bfe3-dac502259ad0.jpg

經(jīng)處理器加工,進(jìn)行編碼壓縮,然后把信號記錄在磁帶或存儲卡上。

四、聲音

1,聲音介紹

3487b9ac-a44a-11ed-bfe3-dac502259ad0.jpg

聲音:聲音是一種物理現(xiàn)象。物體振動時(shí)產(chǎn)生聲波通過空氣傳到人們的耳膜經(jīng)過大腦的反射被感知為聲音。聲音有頻率和振幅的特征,頻率對應(yīng)于時(shí)間軸線,振幅對應(yīng)于電平軸線。聲音以波的形式振動(震動)傳播,聲音作為一種波,頻率在20 Hz~20 kHz之間的聲音是可以被人耳識別的。

音的高低:是由于物體在一定時(shí)間內(nèi)的振動次數(shù)頻率而決定的。振動次數(shù)多音則高,振動次數(shù)少音則低。

音的長短:是由于音的延續(xù)時(shí)間的不同而決定的,音的延續(xù)時(shí)間長音則長,音的延續(xù)時(shí)間短音則短。

音的強(qiáng)弱:是由于振幅音的振動的幅度的大小決定的。振幅大音則強(qiáng)振幅小音則弱。

音色:即聲音的特色是由發(fā)聲體的材料、結(jié)構(gòu)以及泛音的多少決定的。

種類:按照頻率分類:頻率低于20Hz的聲波稱為次聲波;頻率在 20Hz~20kHz的聲波稱為可聞聲;頻率在 20kHz~1GHz的聲波稱為超聲波;頻率大于1GHz的聲波稱為特超聲或微波超聲。

2,聲音存儲的發(fā)展,從 “模擬錄音” 到 “數(shù)字錄音”

談到錄音,不得不談到愛迪生發(fā)明的現(xiàn)代錄音設(shè)備的鼻祖:留聲機(jī)。留音機(jī) 最初是1877年偉大的世界發(fā)明大王愛迪生發(fā)明的,在一次調(diào)試話筒時(shí)因?yàn)槁犃Σ缓?,愛迪生用一根針來檢驗(yàn)傳話膜的震動,不料針接觸到話膜后隨著聲音的強(qiáng)弱變化產(chǎn)生一種有規(guī)律的顫動,而這一現(xiàn)象就成了他發(fā)明的靈感。

因?yàn)槲覀兌贾?,發(fā)送和接受是兩個(gè)相對應(yīng)的過程。說話的快慢高低能使短針發(fā)生相應(yīng)的不同顫動,那么反過來,這種顫動也能發(fā)出原來的說話聲音,可以將聲波變換成金屬針的震動,然后將波形刻錄在圓筒形臘管的錫箔上。當(dāng)針再一次沿著刻錄的軌跡行進(jìn)時(shí),便可以重新發(fā)出留下的聲音。于是他就用這一原理制作出了他的第一臺留音機(jī)。隨著歷史的發(fā)展慢慢經(jīng)過了 :機(jī)械錄音(以留聲機(jī)、機(jī)械唱片為代表)----- 光學(xué)錄影(以電影膠片為代表)----- 磁性錄音(以磁帶錄音為代表)等模擬錄音方式,直到二十世紀(jì)七、八十年代逐漸開始進(jìn)入了數(shù)字錄音(數(shù)字音頻)的時(shí)代。

3,數(shù)字音頻什么是音頻?音頻(Audio)指人能聽到的聲音包括語音、音樂和其它聲音如環(huán)境聲、音效聲、自然聲等。

為什么要存在數(shù)字音頻 ?由物理學(xué)可知,復(fù)雜的聲波由許許多多具有不同振幅和頻率的正弦波組成。代表聲音的模擬信息是個(gè)連續(xù)的量,不能由計(jì)算機(jī)直接處理,必須將其數(shù)字化。經(jīng)過數(shù)字化處理之后的數(shù)字聲音信息能夠像文字和圖形信息一樣進(jìn)行存儲、檢索、編輯和其它處理。

什么是數(shù)字音頻?數(shù)字音頻是指使用數(shù)字編碼的方式也就是使用0和1來記錄音頻信息,它是相對于模擬音頻來說的。在CD光盤和計(jì)算機(jī)技術(shù)未出現(xiàn)之前都是模擬音頻(如錄音帶),其中數(shù)字/模擬轉(zhuǎn)換器簡稱:DAC、模擬/數(shù)字轉(zhuǎn)換器簡稱:ADC. 我們知道聲音可以表達(dá)成一種隨著時(shí)間的推移形成的一種波形:

3497ec0a-a44a-11ed-bfe3-dac502259ad0.png

但是如果想要直接描述這樣的一個(gè)曲線存儲到計(jì)算機(jī)中,是沒有辦法描述的。假如描述也只能是這樣表達(dá):曲線下去了,上去了,又下去了,又上去了,顯然這樣是很不合理的。人們想到了一個(gè)辦法:

34af1222-a44a-11ed-bfe3-dac502259ad0.jpg

每隔一個(gè)小小的時(shí)間間隔,去用尺子量一下這個(gè)點(diǎn)的位置在哪里。那么只要這個(gè)間隔是一定的,我們就可以把這個(gè)曲線描述成:{9,11,12,13,14,14,15,15,15,14,14,13,12,10,9,7...} 這樣描述是不是比剛才的方法要精確多了?

如果我們把這個(gè)時(shí)間間隔取得更小,拿的尺子越精確,那么測量得到的,用來描述這個(gè)曲線的數(shù)字也可以做到更加地精確。然后我們可以把這些電平信號轉(zhuǎn)化成二進(jìn)制數(shù)據(jù)保存,播放的時(shí)候就把這些數(shù)據(jù)轉(zhuǎn)換為模擬的電平信號再送到喇叭播出,就可以了。用專業(yè)的術(shù)語來說,我們每兩次測一下位置的時(shí)間間隔,就是所謂的采樣率。采樣率等于多少,就意味著我們每秒鐘進(jìn)行了多少次這樣的測量。所謂音質(zhì),就是指最后我們描述這個(gè)曲線的數(shù)字,到底和真實(shí)的曲線誤差有多大。數(shù)字聲音和一般磁帶、廣播、電視中的聲音就存儲播放方式而言有著本質(zhì)區(qū)別。相比而言,它具有存儲方便、存儲成本低廉、存儲和傳輸?shù)倪^程中沒有聲音的失真、編輯和處理非常方便等特點(diǎn)。

4,從“模擬信號”到“數(shù)字化”的過程:模擬信號到數(shù)字化的過程需要三個(gè)步驟:

34c67296-a44a-11ed-bfe3-dac502259ad0.jpg

(1)采樣:所謂采樣,即以適當(dāng)?shù)臅r(shí)間間隔觀測模擬信號波形不連續(xù)的樣本值替換原來的連續(xù)信號波形的操作,又稱為取樣。采樣的過程就是抽取某點(diǎn)的頻率值,很顯然,在一秒中內(nèi)抽取的點(diǎn)越多,獲取得頻率信息更豐富。采樣的基本定理:為了復(fù)原波形,一次振動中,必須有2個(gè)點(diǎn)的采樣,人耳能夠感覺到的最高頻率為20kHz,因此要滿足人耳的聽覺要求,則需要至少每秒進(jìn)行40k次采樣。

(2)量化:在數(shù)字音頻技術(shù)中,把表示聲音強(qiáng)弱的模擬電壓用數(shù)字表示,如0.5V電壓用數(shù)字20表示,2V電壓是80表示。模擬電壓的幅度,即使在某電平范圍內(nèi),仍然可以有無窮多個(gè),如1.2V,1.21V,1.215V…。而用數(shù)字來表示音頻幅度時(shí),只能把無窮多個(gè)電壓幅度用有限個(gè)數(shù)字表示。即把某一幅度范圍內(nèi)的電壓用一個(gè)數(shù)字表示,這稱之為量化。

34ddf98e-a44a-11ed-bfe3-dac502259ad0.jpg

(3)編碼:

計(jì)算機(jī)內(nèi)的基本數(shù)制是二進(jìn)制,為此我們也要把聲音數(shù)據(jù)寫成計(jì)算機(jī)的數(shù)據(jù)格式,這稱之為編碼。

34f625d6-a44a-11ed-bfe3-dac502259ad0.jpg

5,數(shù)字音頻的分類:數(shù)字音頻主要包括兩類:波形音頻 和 MIDI音頻:** 波形音頻:** 波形音頻文件是通過聲音錄入設(shè)備錄制的原始聲音,直接記錄了原始真實(shí)聲音信息的數(shù)據(jù)文件,通常文件較大。MIDI音頻:譯作樂器數(shù)字化接口,是為了把電子樂器與計(jì)算機(jī)相連而制定的一個(gè)規(guī)范,是數(shù)字音樂的國際標(biāo)準(zhǔn)。數(shù)字式電子樂器的出現(xiàn),為計(jì)算機(jī)處理音樂創(chuàng)造了極為有利的條件。MIDI聲音與數(shù)字化波形聲音完全不同,它不是對聲波進(jìn)行采樣、量化和編碼,而是將電子樂器鍵盤的彈奏信息記錄下來,包括鍵名、力度、時(shí)值長短等,這些信息稱之為MIDI消息,是樂譜的一種數(shù)字式描述。當(dāng)需要播放時(shí),只需從相應(yīng)的MIDI文件中讀出MIDI消息,生成所需要的樂器聲音波形,經(jīng)放大后由揚(yáng)聲器輸出。

五、視頻相關(guān)專業(yè)術(shù)語

(1)視頻:連續(xù)的圖象變化每秒超過24幀(Frame)畫面以上時(shí),根據(jù)視覺暫留原理,人眼無法辨別單幅的靜態(tài)畫面,看上去是平滑連續(xù)的視覺效果,這樣連續(xù)的畫面叫做視頻。r

35062e7c-a44a-11ed-bfe3-dac502259ad0.jpg

(2)幀(Frame):是影像中常用的最小單位,相當(dāng)于電影中膠片的每一格鏡頭,一幀就是一副靜止的畫面,連續(xù)的幀就形成了視頻。

(3)幀速率(FPS):每秒鐘所傳輸圖片的個(gè)數(shù),也可以理解為處理器每秒刷新的次數(shù),通常用FPS標(biāo)識,當(dāng)然幀數(shù)越高,畫面也就越流暢。

(4)轉(zhuǎn)碼 :指將一段多媒體包括音頻、視頻或者其他的內(nèi)容從一種編碼格式轉(zhuǎn)換成為另外一種編碼格式。(原視頻 -- 解碼 -- 像素?cái)?shù)據(jù) -- 編碼 -- 目標(biāo)視頻)(原音頻 -- 解碼 -- 音頻數(shù)據(jù) -- 編碼 -- 目標(biāo)音頻)

(5)視頻編碼:講到視頻編碼,大家可能都會問為什么視頻要編碼?--- 要知道,采集的原始音視頻信號體積都非常大,里面有很多相同的、眼看不到的、耳聽不到的內(nèi)容,比如,如果視頻不經(jīng)過壓縮編碼的話,體積通常是非常大的,一部電影可能就要上百G的空間。--- 專業(yè)的來說,視頻編碼也就是文件當(dāng)中的視頻所采用的壓縮算法,視頻編碼的主要作用是將視頻像素?cái)?shù)據(jù)(RGB,YUV等)壓縮成為視頻碼流,從而降低視頻的數(shù)據(jù)量。

(6)視頻解碼:有了編碼,當(dāng)然也需要有解碼。因?yàn)閴嚎s(編碼)過的內(nèi)容無法直接使用,使用(觀看)時(shí)必須解壓縮,還原為原始的信號(比如視頻中某個(gè)點(diǎn)的顏色等),這就是“解碼“或者”解壓縮“。

(7)采樣頻率:指錄音設(shè)備在一秒鐘內(nèi)對聲音信號的采樣次數(shù),它用赫茲(Hz)來表示,比如44.1KHz采樣率的聲音就是要花費(fèi)44000個(gè)數(shù)據(jù)點(diǎn)來描述1秒鐘的聲音波形。原則上采樣率越高,聲音質(zhì)量越好。

351bf54a-a44a-11ed-bfe3-dac502259ad0.jpg

(8)采樣位數(shù):表示了計(jì)算機(jī)度量聲音波形幅度(音量)的精度,就是通常所說的聲卡的位數(shù)。就像表示顏色的位數(shù)一樣(8位表示256種顏色,16位表示65536種顏色),有8位,16位,24位等。這個(gè)數(shù)值越大,解析度就越高,錄制和回放的聲音就越真實(shí)。每一個(gè)采樣點(diǎn)都需要用一個(gè)數(shù)值來表示大小,這個(gè)數(shù)值的數(shù)據(jù)類型大小可以是:8bit、16bit、32bit 等等,位數(shù)越多,表示得就越精細(xì),聲音質(zhì)量自然就越好,而數(shù)據(jù)量也會成倍增大。我們在音頻采樣過程中常用的位寬是 8bit 或者 16bit。

(9)比特率(碼率):表示單位時(shí)間(1秒)內(nèi)傳送的比特?cái)?shù),一般我們用的單位是kbps,其英文是 Kilobits per second,意即“千位每秒”(根據(jù)發(fā)音亦譯作“千比特每秒”),意思是說每過一秒鐘,有多少千比特的數(shù)據(jù)流過,因此碼率也經(jīng)常被稱為“比特率”。---音頻中碼率:就是音頻文件或者音頻流中1秒中的數(shù)據(jù)量,如1.44Mbps,就是1秒鐘內(nèi)的數(shù)據(jù)量1.44Mbits 。

碼率越高,傳送的數(shù)據(jù)越大,音質(zhì)越好,聲音比特率 = 采樣率(Hz) x 采樣位數(shù)(bit) x 聲道數(shù).---視頻中碼率:原理與聲音中的相同,都是指由模擬信號轉(zhuǎn)換為數(shù)字信號后,單位時(shí)間內(nèi)的二進(jìn)制數(shù)據(jù)量,通俗來講就是把每秒顯示的圖片進(jìn)行壓縮后的數(shù)據(jù)量。視頻比特率(位/秒)= (畫面尺寸彩色位數(shù)(bit)幀數(shù))** 假設(shè)有一張標(biāo)準(zhǔn)音樂CD光盤容量是746.93MB(注意大B是字節(jié),小b是位。一字節(jié)(B)等于8位(b)。) CD音頻是以采樣率為44.1KHZ,采樣位數(shù)為16位,左右雙聲道(立體聲)進(jìn)行采樣的。而一張標(biāo)準(zhǔn)CD光盤的時(shí)長是74分鐘。那么容量計(jì)算公式為:(44100 x 16 x 2)/8 x (74 x 60)=783216000字節(jié) 轉(zhuǎn)為MB為 783216000/1024/1024=746.93MB(兆字節(jié)) *

*(9)場頻:場頻又稱為刷新頻率,即顯示器的垂直掃描頻率,指顯示器每秒所能顯示的圖象次數(shù),單位為赫茲(Hz)。一般在60-100Hz左右 場頻也叫屏幕刷新頻率,指屏幕在每秒鐘內(nèi)更新的次數(shù)。人眼睛的視覺暫留約為每秒16-24次左右,因此只要以每秒30次或更短的時(shí)間間隔來更新屏幕畫面,就可以騙過人的眼睛,讓我們以為畫面沒有變過。實(shí)際上每秒30次的屏幕刷新率所產(chǎn)生的閃爍現(xiàn)象我們的眼睛仍然能夠察覺從而產(chǎn)生疲勞的感覺。所以屏幕的場頻越高,畫面越穩(wěn)定,使用者越感覺舒適。另外:熒光屏上涂的是中短余輝熒光材料,如果電子槍不進(jìn)行不斷的反復(fù)“點(diǎn)亮”、“熄滅”熒光點(diǎn) 的話,就會導(dǎo)致圖像變化時(shí)前面圖像的殘影滯留在屏幕上。

一般屏幕刷新率場頻在每秒75次以上人眼就完全覺察不到了,所以建議場頻設(shè)定在75Hz-85Hz之間,這足以滿足一般使用者的需求了。場頻越大,圖象刷新的次數(shù)越多,圖象顯示的閃爍就越小,畫面質(zhì)量越高。注意,這里的所謂“刷新次數(shù)”和我們通常在描述游戲速度時(shí)常說的“畫面幀數(shù)”是兩個(gè)截然不同的概念。后者指經(jīng)電腦處理的動態(tài)圖像每秒鐘顯示顯像管電子槍的掃描頻率。場頻與圖像內(nèi)容的變化沒有任何關(guān)系,即便屏幕上顯示的是靜止圖像,電子槍也照常更新。掃描頻率過低會導(dǎo)致屏幕有明顯的閃爍感,即穩(wěn)定性差,容易造成眼睛疲勞。早期顯示器通常支持60Hz的掃描頻率,但是不久以后的調(diào)查表明,仍然有5%的人在這種模式下感到閃爍,因此VESA組織于1997年對其進(jìn)行修正,規(guī)定85Hz逐行掃描為無閃爍的標(biāo)準(zhǔn)場頻。

常見疑問:

(1)為什么視頻需要壓縮?未經(jīng)壓縮的數(shù)字視頻的數(shù)據(jù)量巨大,存儲困難,一張DVD只能存儲幾秒鐘的未壓縮數(shù)字視頻。如果不進(jìn)行壓縮,1兆的帶寬傳輸一秒的數(shù)字電視視頻需要大約4分鐘。

(2)為什么常見的CD,都是為44.1kHz ?人耳能夠感覺到的最高頻率為20kHz,因此要滿足人耳的聽覺要求,則需要至少每秒進(jìn)行40k次采樣,用40kHz表達(dá),但是為什么大部分都是44.kHz 呢. 最開始,人們采用錄像帶當(dāng)做數(shù)碼設(shè)備當(dāng)時(shí)世界上錄像機(jī)主要有兩大制式:歐洲的PAL制式和美國日本的NTSC制式。適用于PAL制式錄像機(jī)的編碼器,其采樣頻率就是44.1kHz。適用于NTSC制式錄像機(jī)的編碼器,其采樣頻率就是44.056 ,后來統(tǒng)一到44.1kHz了。當(dāng)時(shí)PAL 制式的錄像機(jī) :3個(gè)采樣點(diǎn) x 245條掃描線 x 60Hz場頻 ( 3 x 245 x 60 = 44100) ** --- 總的來說就是歷史原因 --- **

(2)奈魁斯特(NYQUIST)采樣定理是?用2倍于一個(gè)正弦波的頻率進(jìn)行采樣就能完全真實(shí)地還原該波形,因此一個(gè)數(shù)碼錄音波的采樣頻率的取值直接關(guān)系到它的最高還原頻率指標(biāo)。例如用44.1KHZ的采樣頻率進(jìn)行采樣,則可還原為最高22.05KHZ的頻率——這個(gè)數(shù)值略高于人耳的聽覺極限。

(3)無損壓縮和有損壓縮的區(qū)別是什么?

有損壓縮:相當(dāng)于一本書頁數(shù)特別多,文字特別多,加入我們把書中修飾詞去掉,啰嗦的情節(jié)去掉,雖然去掉這些,但是核心思想還沒變,這就是類似于有損壓縮。

無損壓縮:相當(dāng)于一本書特別長,我們把里面重復(fù)出現(xiàn)的人名,地名,用符號代替,然后書中標(biāo)注上所有這些符號所代表的人名或地名,這樣就短了些,這種就類似于無損壓縮 。

六、視頻的構(gòu)成

353a5a76-a44a-11ed-bfe3-dac502259ad0.jpg

一個(gè)完整的視頻文件是由音頻和視頻2部分組成的,而視音頻又是由封裝格式和編碼格式構(gòu)成,我們在表面看到的如AVI、RMVB、MKV、WMV、MP4、3GP、FLV等文件其實(shí)只能算是一種封裝標(biāo)準(zhǔn),一個(gè)外殼。外殼里面核心還有一層是編碼文件,編碼文件經(jīng)過封裝后,才成為我們現(xiàn)在看到的.mp4 .avi等視頻。如H.264、mpeg-4等就是視頻編碼格式, MP3、AAC等就是音頻編碼格式。

例如:將一個(gè)H.264視頻編碼文件和一個(gè)MP3視頻編碼文件按AVI封裝標(biāo)準(zhǔn)封裝以后,就得到一個(gè)AVI后綴的視頻文件,這個(gè)就是我們常見的AVI視頻文件了。部分技術(shù)先進(jìn)的容器還可以同時(shí)封裝多個(gè)視頻、音頻編碼文件,甚至同時(shí)封裝進(jìn)字幕,如MKV封裝格式。MKV文件可以做到一個(gè)文件包括多語種發(fā)音、多語種字幕,適合不同人的需要。1,封裝格式

35497c2c-a44a-11ed-bfe3-dac502259ad0.jpg

(1)封裝格式(也叫容器)就是將已經(jīng)編碼壓縮好的視頻軌和音頻軌按照一定的格式放到一個(gè)文件中,也就是說僅僅是一個(gè)外殼,可以把它當(dāng)成一個(gè)放視頻軌和音頻軌的文件夾也可以。 (2)通俗點(diǎn)說視頻軌相當(dāng)于飯,而音頻軌相當(dāng)于菜,封裝格式就是一個(gè)碗,或者一個(gè)鍋,用來盛放飯菜的容器。 (3)封裝格式和專利是有關(guān)系的,關(guān)系到推出封裝格式的公司的盈利。 (4)有了封裝格式,才能把字幕,配音,音頻和視頻組合起來。 (5)常見的AVI、RMVB、MKV、ASF、WMV、MP4、3GP、FLV等文件都指的是一種封裝格式。

舉例MKV格式的封裝:

3556cff8-a44a-11ed-bfe3-dac502259ad0.jpg

2,編碼格式

編碼格式指的是對封裝格式中視頻流數(shù)據(jù)的壓縮編碼方式的一種描述。視頻不進(jìn)行壓縮的話,體積會非常大。

視頻壓縮,主要壓縮了哪些東西:空間冗余:圖像相鄰像素之間有較強(qiáng)的相關(guān)性 時(shí)間冗余:視頻序列的相鄰圖像之間內(nèi)容相似 編碼冗余:不同像素值出現(xiàn)的概率不同 視覺冗余:人的視覺系統(tǒng)對某些細(xì)節(jié)不敏感 知識冗余:規(guī)律性的結(jié)構(gòu)可由先驗(yàn)知識和背景知識得到

356cb688-a44a-11ed-bfe3-dac502259ad0.jpg

常見的編碼格式有以下視頻編碼格式:

357f1878-a44a-11ed-bfe3-dac502259ad0.jpg

音頻編碼格式:

3594fe04-a44a-11ed-bfe3-dac502259ad0.jpg

國際上制定視頻編解碼技術(shù)的組織有兩個(gè):1,“國際標(biāo)準(zhǔn)化組織(ISO)” 它制定的標(biāo)準(zhǔn)有MPEG-1、MPEG-2、MPEG-4 等。視頻編碼:(1)MPEG-1 :制定于1993年,較早的視頻編碼,質(zhì)量比較差,它是為CD光盤介質(zhì)定制的視頻和音頻壓縮格式。主要用于 CD-ROM 存儲視頻,國內(nèi)最為大家熟悉的就是 VCD(Video CD),他的視頻編碼就是采用 MPEG-1。MPEG-1的壓縮算法可以把一部 120 分鐘長的電影(原始視頻文件)壓縮到1.2 GB左右大小.(*.dat格式的文件) MPEG-1音頻分三層,就是MPEG-1 Layer I, II, III,其中第三層協(xié)議也就是MPEG- 1 Layer 3,簡稱MP3。MP3目前已經(jīng)成為廣泛流傳的音頻壓縮技術(shù)。缺點(diǎn):

1個(gè)音頻壓縮系統(tǒng)限于兩個(gè)通道(立體聲)

沒有為隔行掃描視頻提供標(biāo)準(zhǔn)化支持,且壓縮率差

只有一個(gè)標(biāo)準(zhǔn)化的“profile” (約束參數(shù)比特流),不適應(yīng)更高分辨率的視頻。MPEG - 1可以支持4k的視頻,但難以提供更高分辨率的視頻編碼并且標(biāo)識硬件的支持能力。

支持只有一個(gè)顏色空間,40。

(2)MPEG-2 :制定于1994年,通常用來為廣播信號提供視頻和音頻編碼, 包括衛(wèi)星電視、有線電視等。MPEG-2經(jīng)過少量修改后,也成為DVD產(chǎn)品的內(nèi)核技術(shù)。使用MPEG-2的壓縮算法制作一部 120 分鐘長的電影(原始視頻文件)在4GB到8GB大小左右.(*.vob格式的文件) **

(3)MPEG-3 :原本目標(biāo)是為高解析度電視(HDTV)設(shè)計(jì),隨后發(fā)現(xiàn)MPEG-2已足夠HDTV應(yīng)用,故 MPEG-3的研發(fā)便中止。

(4)MPEG-4 :公布于1998年,為了應(yīng)對網(wǎng)絡(luò)傳輸?shù)拳h(huán)境,傳統(tǒng)的 MPEG-1/2 已經(jīng)不能適應(yīng),所以促使了 MPEG-4 的誕生, MPEG-4,主要用途在於網(wǎng)上流媒體、光碟、 語音傳送(視訊電話),以及電視廣播。MPEG-4 不僅是針對一定比特率下的視頻、音頻編碼,更加注重了多媒體系統(tǒng)的交互性和靈活性。利用很窄的帶寬,通過幀重建技術(shù),壓縮和傳輸數(shù)據(jù),以求以最少的數(shù)據(jù)獲得最佳的圖像質(zhì)量。MPEG-4代表了基于模型/對象的第二代壓縮編碼技術(shù),它充分利用了人眼視覺特性,抓住了圖像信息傳輸?shù)谋举|(zhì),從輪廓、紋理思路出發(fā),支持基于視覺內(nèi)容的交互功能,這適應(yīng)了多媒體信息的應(yīng)用由播放型轉(zhuǎn)向基于內(nèi)容的訪問、檢索及操作的發(fā)展趨勢。

** 2,“國際電聯(lián)(ITU-T)” 它制定的標(biāo)準(zhǔn)有H.261、H.263、H.263+ 等。

視頻編碼:

** (1)H.261 : ** 約1990年制定,是最早的運(yùn)動圖像壓縮標(biāo)準(zhǔn),它詳細(xì)制定了視頻編碼的各個(gè)部分, 主要在老的視頻會議和視頻電話產(chǎn)品中使用,它是第一個(gè)實(shí)用的數(shù)字視頻編碼標(biāo)準(zhǔn)。H.261的設(shè)計(jì)相當(dāng)成功,之后的視頻編碼國際標(biāo)準(zhǔn)基本上都是基于 H.261相同的設(shè)計(jì)框架,包括 MPEG-1,MPEG-2/H.262,H.263,甚至 H.264 。

** (2)H.263 : ** 約1996年制定 H.263的編碼算法與H.261一樣,但做了一些改善和改變,以提高性能和糾錯(cuò)能力。

** (3)H.264:** H.264等同于MPEG-4的第10部. H.264/AVC是兩大組織集合H.263+和Mpeg4的優(yōu)點(diǎn)聯(lián)合推出的最新標(biāo)準(zhǔn),更高的數(shù)據(jù)壓縮比。在同等的圖像質(zhì)量條件下,H.264的數(shù)據(jù)壓縮比能比H.263高2倍,比MPEG-4高1.5倍, 舉個(gè)例子,原始文件的大小如果為88GB,采用MPEG-2壓縮標(biāo)準(zhǔn)壓縮后變成3.5GB,壓縮比為25∶1,而采用H.264壓縮標(biāo)準(zhǔn)壓縮后變?yōu)?79MB,從88GB到879MB,H.264的壓縮比達(dá)到驚人的102∶1。(ITU-T給這個(gè)標(biāo)準(zhǔn)命名為H.264(以前叫做H.26L), 而ISO/IEC稱它為MPEG-4 AVC 高級視頻編碼(Advanced Video Coding,AVC),并且它將成為MPEG-4標(biāo)準(zhǔn)的第10部分) 從H.261視頻編碼建議,到H.262/3、MPEG-1/2/4等都有一個(gè)共同的不斷追求的目標(biāo),即在盡可能低的碼率(或存儲容量)下獲得盡可能好的圖像質(zhì)量。

3,視頻編碼的發(fā)展歷史

35a7e532-a44a-11ed-bfe3-dac502259ad0.jpg

4,常見視頻封裝格式介紹

** (1) AVI:** 即Audio Video Interleaved(音頻視頻交錯(cuò)格式),由微軟在 1992年11月推出的一種多媒體文件格式,用于對抗蘋果Quicktime的技術(shù)。現(xiàn)在所說的AVI多是指一種封裝格式。AVI格式上限制比較多,只能有一個(gè)視頻軌道和一個(gè)音頻軌道(現(xiàn)在有非標(biāo)準(zhǔn)插件可加入最多兩個(gè)音頻軌道),還可以有一些附加軌道,如文字等。AVI格式不提供任何控制功能。

特點(diǎn):兼容性好、跨平臺支持、恒定幀率,體積大、容錯(cuò)性差,不是流媒體,已經(jīng)過時(shí)。

** (2) MKV:** 它是一種新的多媒體封裝格式,是一種萬能的封裝容器,這個(gè)封裝格式可把多種不同編碼的視頻及16條或以上不同格式的音頻和語言不同的字幕封裝到一個(gè)Matroska Media檔內(nèi)。

特點(diǎn):支持多音軌、軟字幕、流式傳輸、強(qiáng)大的兼容性, 能夠在一個(gè)文件中容納無限數(shù)量的視頻、音頻、圖片或字幕軌道,任何視頻編碼文件都可以放入MKV 。

** (3) MP4:** MP4是比較新的封裝格式,但是相對于萬能的MKV,功能遜色一些,但是對于目前的非電腦平臺,可移植性較好。

特點(diǎn):體積最小,清晰度高、流式傳輸、強(qiáng)大的兼容性,手機(jī)平板等眾多終端支持。

** (4) MOV:** MOV是Apple公司開發(fā)的QuickTime音頻、視頻文件封裝格式, 默認(rèn)的播放器是蘋果的QuickTime 。MOV具有較高的壓縮比率和較完美的視頻清晰度等特點(diǎn),但是其最大的特點(diǎn)還是跨平臺性,即不僅能支持MacOS,同樣也能支持Windows系列。MOV采用了有損壓縮方式的MOV格式文件,畫面效果較AVI格式要稍微好一些。

特點(diǎn):與AVI同期推出,比較老,不流行。

** (4) RM:** Real Networks公司所制定的音頻/視頻壓縮規(guī)范Real Media中的一種,Real Player能做的就是利用Internet資源對這些符合Real Media技術(shù)規(guī)范的音頻/視頻進(jìn)行實(shí)況轉(zhuǎn)播。在Real Media規(guī)范中主要包括三類文件:RealAudio、Real Video和Real Flash (Real Networks公司與Macromedia公司合作推出的新一代高壓縮比動畫格式)。REAL VIDEO (RA、RAM)格式由一開始就是定位就是在視頻流應(yīng)用方面的,也可以說是視頻流技術(shù)的始創(chuàng)者。

(5) RMVBRealMedia可變比特率(RMVB)是RealNetworks公司開發(fā)的RealMedia多媒體數(shù)字容器格式的可變比特率(VBR)擴(kuò)展版本,較上一代RM格式畫面要清晰很多,原因是降低了靜態(tài)畫面下的比特率。它的先進(jìn)之處在于RMVB視頻格式打破了原先RM格式那種平均壓縮采樣的方式,在保證平均壓縮比的 基礎(chǔ)上合理利用比特率資源,就是說靜止和動作場面少的畫面場景采用較低的編碼速率,這樣可以留出更多的帶寬空間,而這些帶寬會在出現(xiàn)快速運(yùn)動的畫面場景時(shí) 被利用。這樣在保證了靜止畫面質(zhì)量的前提下,大幅地提高了運(yùn)動圖像的畫面質(zhì)量,從而圖像質(zhì)量和文件大小之間就達(dá)到了微妙的平衡。

(6) WMV.WMV文件其實(shí)不是一個(gè)封裝格式。WMV(Windows Media Video)是微軟公司開發(fā)的一組數(shù)字視頻編解碼格式的通稱,它是Windows Media架構(gòu)下的一部分。具體的這些,大家可以私下去查詢下。

35bc784e-a44a-11ed-bfe3-dac502259ad0.jpg

微軟也開發(fā)了一種稱之為ASF(Advanced Systems Format)的數(shù)字容器格式,用來保存WMV的視頻編碼。在同等視頻質(zhì)量下,WMV格式的文件可以邊下載邊播放,因此很適合在網(wǎng)上播放和傳輸。** (7) ASF:** 用于微軟WMA和WMV的標(biāo)準(zhǔn)容器。ASF (Advanced Streaming format高級流格式), ASF是MICROSOFT 為了和現(xiàn)在的 Real player 競爭而發(fā)展出來的一種可以直接在網(wǎng)上觀看視頻節(jié)目的文件壓縮格式。ASF使用了MPEG4的壓縮算法,壓縮率和圖像的質(zhì)量都很不錯(cuò)。因?yàn)锳SF是以一個(gè)可以在網(wǎng)上即時(shí)觀賞的視頻“流”格式存在的,所以它的圖像質(zhì)量比VCD差一點(diǎn)點(diǎn)并不出奇,但比同是視頻“流”格式的RAM格式要好。

(8) FLV:Flash Video(簡稱FLV)是由Macromedia公司開發(fā)的屬于自己的流式視頻格式,F(xiàn)LV也就是隨著Flash MX的推出發(fā)展而來的視頻格式,是在sorenson公司的壓縮算法的基礎(chǔ)上開發(fā)出來的。FLV格式不僅可以輕松的導(dǎo)入Flash中,速度極快,并且能其到保護(hù)版權(quán)的作用,并且可以不通過本地的微軟或者REAL播放器播放視頻。Flash MX 2004對其提供了完美的支持,它的出現(xiàn)有效地解決了視頻文件導(dǎo)入Flash后,使導(dǎo)出的SWF文件體積龐大,不能在網(wǎng)絡(luò)上很好的使用等缺點(diǎn)。由于它形成的文件極小、加載速度極快,使得網(wǎng)絡(luò)觀看視頻文件成為可能,它的出現(xiàn)有效地解決了視頻文件導(dǎo)入Flash后,使導(dǎo)出的SWF文件體積龐大,不能在網(wǎng)絡(luò)上很好的使用等缺點(diǎn)。

** 特點(diǎn):視頻質(zhì)量良好、體積小、在線播放、非常普及 。

**(8) 藍(lán)光BD封裝:大容量光碟格式,容量分為25G-100G,BD的主視頻文件為m2ts封裝格式,用Remux無損的提取BD文件為TS封裝格式可用PC播放。特點(diǎn):體積超大、超高清格式、聲道、字幕可選擇

5,音頻編碼與封裝格式介紹

PCM :是一種的很基本的編碼方式,雖然簡單,但是好用,它被稱為無損編碼,也就是模擬信號轉(zhuǎn)成數(shù)字信號不壓縮,只轉(zhuǎn)換,就是經(jīng)過話筒錄音后直接得到的未經(jīng)壓縮的數(shù)據(jù)流,對于音頻來說,CD就是采用PCM編碼。

有損壓縮格式:**

MP3(MPEG Audio Layer3):一個(gè)有損數(shù)據(jù)壓縮格式,它丟棄掉脈沖編碼調(diào)制(PCM)音頻數(shù)據(jù)中對人類聽覺不重要的數(shù)據(jù),從而達(dá)到了小得多的文件大小。它是目前最為普及的音頻壓縮格式,常用于互聯(lián)網(wǎng)上的高質(zhì)量聲音的傳輸,MP3可以做到12:1的驚人壓縮比并保持基本可聽的音質(zhì)。

AAC (高級音頻編碼):出現(xiàn)于1997年,是基于MPEG-2的音頻編碼技術(shù),由Fraunhofer IIS、杜比、蘋果、AT&T、索尼等公司共同開發(fā),是在MP3基礎(chǔ)上開發(fā)出來,,目的是取代MP3格式。2000年,MPEG-4標(biāo)準(zhǔn)出現(xiàn)后,AAC重新集成了其特性,加入了SBR技術(shù)和PS技術(shù),為了區(qū)別于傳統(tǒng)的MPEG-2 AAC又稱為MPEG-4 AAC,AAC可以在對比MP3文件縮小30%的前題下提供更好的音質(zhì)。

WMA (Windows Media Audio):是微軟開發(fā)的一種數(shù)字音頻壓縮格式,WMA格式是以減少數(shù)據(jù)流量但保持音質(zhì)的方法來達(dá)到更高的壓縮率目的,其壓縮率一般可以達(dá)到1:18,生成的文件大小只有相應(yīng)MP3文件的一半。

無損壓縮格式:

**WAV :是微軟公司開發(fā)的一種聲音文件格式,是音樂由物理介質(zhì)(CD碟)轉(zhuǎn)換為數(shù)字形式所得到的聲音文件,是最早的數(shù)字音頻格式,被Windows平臺及其應(yīng)用程序廣泛支持, WAV是最接近無損的音樂格式,所以文件大小相對也比較大。(WAV格式對存儲空間需求太大不便于交流和傳播)

FLAC :無損音頻壓縮編碼,它不會破壞任何原有的音頻信息,所以可以還原音樂光盤音質(zhì),基本上能節(jié)省wav 40%的碼率,F(xiàn)LAC相對于同類如APE,在處理遇到爆音處時(shí)會靜音處理,并且相比APE的解碼復(fù)雜程度要較低(解碼運(yùn)算量小、只需要整數(shù)運(yùn)算),解碼速度奇快,容錯(cuò)高,不容易損壞。

APE :APE這類無損壓縮格式,同樣不會破壞任何音頻信息, 相較同類文件格式FLAC,特色是壓縮率約為55%,比FLAC高,體積大概為原CD的一半,但是APE文件的容錯(cuò)性較差,只要在傳輸過程中出現(xiàn)一點(diǎn)差錯(cuò),就會讓整首APE音樂作廢。

35d25b50-a44a-11ed-bfe3-dac502259ad0.jpg

常見封裝格式與編碼格式的對應(yīng)

35e794b6-a44a-11ed-bfe3-dac502259ad0.jpg

七、播放一個(gè)網(wǎng)絡(luò)上視頻需要的步驟

1,解協(xié)議:就是將流媒體協(xié)議的數(shù)據(jù),解析為標(biāo)準(zhǔn)的相應(yīng)的封裝格式數(shù)據(jù),這些協(xié)議在傳輸視音頻數(shù)據(jù)的同時(shí),也會傳輸一些信令數(shù)據(jù),解協(xié)議的過程中會去除掉信令數(shù)據(jù)而只保留視音頻數(shù)據(jù)。

2,解封裝:就是將輸入的封裝格式的數(shù)據(jù),分離成為音頻流壓縮編碼數(shù)據(jù)和視頻流壓縮編碼數(shù)據(jù)。

3,解碼:就是將視頻/音頻壓縮編碼數(shù)據(jù),解碼成為非壓縮的視頻/音頻原始數(shù)據(jù)。把壓縮編碼的視頻數(shù)據(jù),輸出成為非壓縮的顏色數(shù)據(jù),例如YUV420P,RGB等等;把壓縮編碼的音頻數(shù)據(jù),輸出成為非壓縮的音頻抽樣數(shù)據(jù),例如PCM數(shù)據(jù)。

4,視音頻同步:就是根據(jù)解封裝模塊處理過程中獲取到的參數(shù)信息,同步解碼出來的視頻和音頻數(shù)據(jù),并將視頻音頻數(shù)據(jù)送至系統(tǒng)的顯卡和聲卡播放出來。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • mp4
    mp4
    +關(guān)注

    關(guān)注

    0

    文章

    38

    瀏覽量

    28452
  • 電磁波
    +關(guān)注

    關(guān)注

    21

    文章

    1435

    瀏覽量

    53696
  • 光譜
    +關(guān)注

    關(guān)注

    4

    文章

    776

    瀏覽量

    35037
收藏 人收藏

    評論

    相關(guān)推薦

    H.264MPEG4區(qū)別

    H.264MPEG4區(qū)別壓縮方式是DVR的核心技術(shù),壓縮方式很大程度上決定著圖像的質(zhì)量、壓縮比、傳輸效率、傳輸速度等性能,它是評價(jià)DVR性能優(yōu)劣的重要一環(huán)。 隨著多媒體技術(shù)的發(fā)展
    發(fā)表于 05-28 16:46

    UBLive-264MP:基于TI DM642的H.264視頻廣播應(yīng)用解決方案

    UBLive-264MP:基于TI DM642的H.264視頻廣播應(yīng)用解決方案 UBLive-264MP: An H.264-Based Solution on the DM
    發(fā)表于 06-25 10:15

    H.264 MPEG-4 White Paper

    H.264 MPEG-4 White PaperBroadcast television and home entertainment have been revolutionised
    發(fā)表于 06-25 10:18

    MPEG4H.264 擁抱HDTV 時(shí)代來臨

    MPEG4H.264 擁抱HDTV 時(shí)代來臨繼MPEG2、MP3、VCD、DVD 后,具有H.264
    發(fā)表于 10-05 07:45

    H.264MPEG-4優(yōu)劣勢對比分析哪個(gè)好?

    H.264視頻編碼標(biāo)準(zhǔn)狀況分析H.264視頻編碼技術(shù)先進(jìn)性H.264MPEG-4的比較對比分析,哪個(gè)好?
    發(fā)表于 04-20 06:38

    ffmpeg是否支持avi, f4v, mov, 3gp, mp4, ts, asf, flv, mkv封裝格式的H264/H265視頻解析?

    是否支持avi, f4v, mov, 3gp, mp4, ts, asf, flv, mkv封裝格式的H264/H265視頻解析
    發(fā)表于 09-19 07:02

    H.264是什么?H.264標(biāo)準(zhǔn)詳解

    H.264是一種視頻高壓縮技術(shù),全稱是MPEG-4 AVC,用中文說是“活動圖像專家組-4的高等視頻編碼”,或稱
    發(fā)表于 11-07 12:40 ?22次下載

    MPEG-4/H.264 LCD TV solution T

    General description Featuring an integrated MPEG-4/H.264 decoder, the TV543 single chip LCD TV
    發(fā)表于 09-25 08:26 ?1090次閱讀
    <b class='flag-5'>MPEG-4</b>/<b class='flag-5'>H.264</b> LCD TV solution T

    H.264的核心技術(shù)與發(fā)展

    H.264/AVC是兩大組織集合H.263+和Mpeg4的優(yōu)點(diǎn)聯(lián)合推出的最新標(biāo)準(zhǔn),最具價(jià)值的部分無疑是更高的數(shù)據(jù)壓縮比。在同等的圖像質(zhì)量條件下,H.264的數(shù)據(jù)壓縮比能比
    發(fā)表于 06-21 11:25 ?1501次閱讀

    H.264視頻編碼算法的認(rèn)識與理解

     H.264,同時(shí)也是MPEG-4第十部分,是由ITU-T視頻編碼專家組(VCEG)和ISO/IEC動態(tài)圖像專家組(MPEG)聯(lián)合組成的聯(lián)合視頻組(JVT,Joint Video Team)提出
    發(fā)表于 12-01 14:08 ?4656次閱讀
    <b class='flag-5'>H.264</b>視頻編碼算法的認(rèn)識與理解

    mpeg4mp4嗎_mpegmp4什么區(qū)別

    mp4是一種文件格式,而mpeg4是一個(gè)編碼標(biāo)準(zhǔn),二者不是一個(gè)意義上的概念。你可以這么理解,mp4是支持mpeg4的標(biāo)準(zhǔn)的音頻視頻文件,而支持mpe
    發(fā)表于 12-18 08:52 ?8.1w次閱讀

    什么是AVC編碼? 簡述H.264概念和發(fā)展

    關(guān)鍵詞:AVC , 編碼 頻編解碼技術(shù)兩套標(biāo)準(zhǔn),國際電聯(lián)(ITU-T)的標(biāo)準(zhǔn)H.261、H.263、H.263+等;還有ISO 的MPEG
    發(fā)表于 12-25 14:22 ?2035次閱讀

    H.264(MPEG)-4AVC

    H.264MPEG)-4AVC 版權(quán)聲明:本文為博主原創(chuàng)文章,遵循 CC 4.0 BY-SA 版權(quán)協(xié)議,轉(zhuǎn)載請附上原文出處鏈接和本聲明。 本文鏈接: https://blog.csdn.net
    發(fā)表于 11-20 23:03 ?1741次閱讀

    H.264 BP/MP下載生產(chǎn)代碼

    H.264 BP/MP Download Production Code
    發(fā)表于 03-24 16:32 ?0次下載
    <b class='flag-5'>H.264</b> BP/<b class='flag-5'>MP</b>下載生產(chǎn)代碼

    H.264編碼原理

    H.264,同時(shí)也是 MPEG-4第十部分,是由 ITU-T 視頻編碼專家組(VCEG)和 ISO/IEC 動態(tài)圖像專家組(MPEG)聯(lián)合組成的聯(lián)合視頻組(JVT,Joint Video Team
    發(fā)表于 08-31 15:39 ?2次下載