順便簡介下mp3個原理
mp3 係lossy,其實所有目前常用 lossy codec, e.g. AAC原理應該差唔多
首先,聽覺對音樂處理主要受兩樣Auditory masking影響: Temporal masking, Simultaneous masking (Amplitude masking)
Simultaneous masking好易理解。係地鐵車廂行緊時候講野,你要講大聲d人地先可以聽得到。兩個音一齊出,如果其中一個音「太細聲」,咁你就會「聽唔到」。
咩係「太細聲」呢?
首先係睇人耳個hearing threshold,呢張圖之前有巴打share 過
聲壓唔過hearing threshold係人耳「聽唔到」
不過因為有Simultaneous masking,當有聲存在,個hearing threshold會唔同咗
例如
同時係200Hz付近同時有兩個音,2xxHz個音大聲而1xxHz個音細聲。
2xxHz個音因為大聲d,所以屬於佢個mask會遮咗付近頻率,令到付近頻率的hearing threshold高咗,所以1xx Hz個音因為唔過個新hearing threshold所以就會「聽唔到」。
呢個效果就係Simultaneous masking
其實所有聲都會互相mask,你聽到乜主要睇邊d音夠大聲,高過其他音masking level
我起點知一個音出個時會點mask付近frequency?呢個就用psychoacoustic model去模擬。點做出黎我就唔識
Temporal masking就冇咁好理解。兩個音
接近同時出現個時,大聲d個音會遮咗細聲個音。唔識舉例
有咗上面認知就可以了解mp3 個原理。mp3先將同一時間所有audio frequency應用psychoacoustic model 分析,從而知道邊d frequency聽得到。「聽唔到」個d就唔encode。另外,個frequency愈大聲就用愈多bit去encode
所以mp3係會將「聽唔到」嘅野掉走,而且咁同聲壓用唔同data length記住,從而達到壓縮
sampling rate會照用source sample rate, 16 bit係最大bit depth
聽起上黎mp3分析力唔太好,動態唔夠,高低頻失真幾明顯