Thứ Hai, 30 tháng 12, 2013

Nâng cao chất lượng thoại trên mạng IP bằng kỹ thuật bù mất gói



9



Hình 2.2. Mô hình cơ học của cơ quan phát âm người
2.2. MÔ HÌNH DỰ ĐOÁN TUYẾN TÍNH






Hình 2.6. Mô hình toán học của việc tạo tiếng nói
Từ nguyên lý tạo tiếng nói người như trên, một mô hình toán học
(mô hình mã hóa dự ñoán tuyến tính) ñược dùng ñể mô phỏng việc tạo
tiếng nói:[13]
Mối quan hệ giữa mô hình vật lý và mô hình toán học:
Bộ máy phát âm <=> H(z) ( Bộ lọc LPC)
Không khí <=> u(n) (Kích thích)
Sự rung của dây thanh âm <=> V (Voiced)
Chu kỳ rung của dây thanh âm <=> T (Chu kỳ pitch)
Phụ âm sát và phụ âm bật <=> UV (Unvoiced)
Độ lớn không khí <=> G (Độ lợi)
2.3. FRAMING, OVERLAP-ADDING TRONG XỬ LÝ TÍN HIỆU
TIẾNG NÓI







N : kích thước của frame
m : số lượng frame


10



Hình 2.7. Phân tích tín hiệu thành frame
2.4. PHƯƠNG PHÁP PHÂN TÍCH MÃ HÓA DỰ ĐOÁN TUYẾN
TÍNH
Tín hiệu tiếng nói thay ñổi theo thời gian. Ứng với một ñoạn tiếng nói
ngắn (gọi là segment hay frame), tiếng nói ñược xem là tín hiệu dừng. Nói
cách khác, mô hình bộ máy phát âm là không ñổi trên mỗi segment. Thông
thường, mỗi segment có chiều dài 20ms, nếu tiếng nói ñược lấy mẫu tại
tần số 8kHz thì số mẫu trong 1 segment là 160 mẫu.
Xét một frame tiếng nói: Đối với mô hình dự ñoán tuyến tính trên, bộ
máy phát âm ñược xem như bộ lọc toàn cực với ñầu vào bộ lọc là một
chuỗi nhiễu trắng hay là một dãy xung tựa tuần hoàn; ñầu ra bộ lọc là
tiếng nói số. Bộ lọc này là bộ lọc ñệ quy nhưng chỉ lấy ñầu vào là mẫu
âm kích thích hiện tại u(n) ñể tính thay vì lấy m mẫu quá khứ của u(n).
Tiếng nói ñầu ra ñược mô tả bằng công thức:


=
−−=
M
k
k
knsanGuns
1
)()()(
(2.2)
Với
k
a là hệ số dự ñoán tuyến tính. M: bậc dự ñoán .
Gọi

s (n) là mẫu hiện tại của tiếng nói ñược dự ñoán tuyến tính từ M
mẫu quá khứ của tiếng nói.
=

)(ns

=

M
k
k
knsa
1
)(
(2.3)
Như vậy, sai lệch e(n) giữa mẫu tiếng nói thực và mẫu dự ñoán:


=

−−=−=
M
k
k
knsansnsnsne
1
)()()()()(
(2.4)
Do vậy, tổng của sai lệch dự ñoán bình phương của cả frame:
(2.5)

∑ ∑∑
=
−−==
n
M
k
k
n
knsansneE
1
22
))()(()(


11


2.4.1. Xác ñịnh các thông số bộ lọc và ñộ lợi
Để xác ñịnh các hệ số bộ lọc dự ñoán tuyến tính, ta phải tối thiểu hóa
tổng sai lệch bình phương E bằng cách thiết lập ñạo hàm của E ñối với
k
a bằng với 1≤k≤M (2.6)

Hệ số bộ lọc
k
a (hệ số dự ñoán tuyến tính) ñược giải bằng thuật toán
Levinson-Durbin.
Hệ số ñộ lợi có giá trị bình phương bằng năng lượng dư thừa trong
quá trình tối ưu hóa bình phương ñể tìm các thông số a
k
. [13]
2.4.2. Xác ñịnh Voiced/Unvoiced và xác ñịnh chu kỳ pitch
2.4.3. Bộ mã hóa LPC -10
Trong b ộ mã hóa LPC-10, tín hiệu tiếng nói ñược chia thành khung
có chiều dài 20ms hay 160 mẫu với tần số lấy m ẫu l à 8kHz. B ậc c ủa
bộ lọc LPC là 10. Thông thường, 10 thông số bộ lọc dự ñoán tuyến tính
ñược chuyển sang thông số cặp phổ vạch LSP tương ñương vì LSP có ñộ
ổn ñịnh cao hơn.
Quá trình mã hóa LPC sẽ tính toán và truyền ñi các thông số bộ lọc,
dấu hiệu xác ñịnh voiced/unvoiced và chu kỳ pitch của khung tiếng nói
ñó.
Vì tốc ñộ của bộ mã hóa LPC-10 là 2.4kbps, do vậy, số bit cần dùng
ñể mã hóa 1 khung là: 2400*0.02 = 48 bit.
2.5. PHƯƠNG PHÁP MÃ HÓA CELP






0=


k
a
E
ACB-gain
ACB-index
Spectral parameters
10110
LPC spectral
analysis
Spectral
filtering
Adaptive
codebook search
Stochastic
codebook search
Stochastic
excitation
Adaptive
excitation
Delay
Linear
prediction filter
+
Speech
SCB-gain
SCB-index
Divide into 4 subframes
Divide into N frames


12



Hình 2.9. Thuật toán CELP
2.5.1. Quá trình mã hóa CELP















Hình 2.10. Bộ mã hóa CELP
2.5.2. Quá trình giải mã CELP
Decoded
samples
Gp
Gc
LSP
Pitch delay
Gain
Code index,sign
Fixed
codebook
search
Gain
parameters
Adaptive
codebook
LP filter
extraction
Synthesis
filter
Post
filter
High-pass
filter
+
Pitch
Input speech samples
LPC info
Gc
Preprocessing
LP analysis
quantization
interpolation
Synthesis filter
Fixed codebook
search
Adaptive
codebook
+
Pitch analysis
Fixed codebook
search

Perceptual
weighting

Gain quantization

Encoded bit stream of payload bytes

Gp
LPC info
+
LPC info



13

Hình 2.11. Bộ giải mã CELP
2.6. KẾT LUẬN CHƯƠNG
Chương này trình bày phương pháp phân tích tín hiệu tiếng nói. Đây
là cơ sở thực hiện nâng cao chất lượng tiếng nói ở chương 3.

CHƯƠNG 3 - CÁC PHƯƠNG PHÁP BÙ MẤT GÓI & ĐÁNH
GIÁ CHẤT LƯỢNG TIẾNG NÓI
3.1. CÁC KỸ THUẬT PHỤC HỒI MẤT GÓI
Có hai kỹ thuật phục hồi mất gói: kỹ thuật phục hồi mất gói từ phía
phát và kỹ thuật bù mất gói ở phía thu. Hai phương pháp này ñều cố gắng
phục hồi gói bị mất ñể cho tiếng nói có chất lượng tốt nhất.
3.1.1. Kỹ thuật phục hồi mất gói từ phía phát
Kỹ thuật này có thể phân chia như theo hình dưới ñây:[12]









Hình 3.1. Phân loại kỹ thuật phục hồi mất gói từ phía phát
3.1.1.1. Truyền gói lại
3.1.1.2. Sửa lỗi phía trước (FEC-Forward Error Corection)




Khôi phục mất gói ở
phía phát
Redundacy
(Media dependent)
Bị ñộng Chủ ñộng
Truyền lại
gói
Sửa lỗi FEC
(Media independent)
Xen kẻ gói


14

Hình 3.2. Cơ chế phục hồi FEC











Hình 3.3. Ví dụ cơ chế phục hồi gói Redundancy
3.1.1.3. Kỹ thuật sắp xếp xen kẻ (Interleaving)










Hình 3.4. Ví dụ cơ chế sắp xếp xen kẻ
3.1.2. Kỹ thuật bù mất gói từ phía thu
Kỹ thuật này tạo ra sự thay thế gói bị mất bởi gói tương tự nguyên
bản.
3.1.2.1. Bù mất gói bằng kỹ thuật chèn (Insertion)


15

Cơ chế khôi phục mất gói này có các loại:


11 12 13 14 15 Lost
x
Lost
x
18 19 20
(a) Các gói nhận ñược có chỉ thị mất gói
11 12 13 14 15 Nhiễu Nhiễu 18 19 20
20
(b) Khôi phục bằng thay thế nhiễu nền
11 12 13 14 15 15 15 18 19 20
(c) Khôi phục bằng lặp lại gói trước ñó
Hình 3.5. Kỹ thuật phục hồi mất gói từ phía thu theo cơ chế chèn
3.1.2.2. Bù mất gói dựa vào mô hình LP
Kỹ thuật này dùng mô hình dự ñoán tuyến tính LP (Linear
Prediction) của quá trình tạo tiếng nói.











Hình 3.6. Sơ ñồ khối thuật toán bù mất gói dựa vào mô hình LP
Theo mô hình LP, tín hiệu tiếng nói x(n) gồm hai thành phần:
- Thông số dự ñoán chứa thông tin bộ máy phát âm.
16 17
Voice packets 
Reconstructed
signal

)( nx


LP analysis
Past samples
x(n)
Pitch period P
e(n)

Residual
signal
LP coefficients
a(i)
)( ne



Excitation
signal

Prediction
filter
Pitch
detector
Excitation
generator
Synthesis
filter


16

- Tín hiệu dư thừa (sai lệch) chứa thông tin về tín hiệu kích thích.


=
+−=
N
i
neinxianx
1
)()()()(
(3.1)
Tiếng nói ñược tạo ra bằng cách cho tín hiệu kích thích ñi qua một bộ
lọc tổng hợp (bộ máy phát âm)
Phương pháp bù này ñược thực hiện hoàn toàn từ bên thu ñối với tín
hiệu PCM. Nguyên tắc cơ bản của thuật toán này là ước tính hệ số LP
{a(i)} và tín hiệu kích thích {e(n)} của gói (frame) tiếng nói bị mất dựa
vào thông tin ñược trích ra từ frame tiếng nói nhận tốt trước ñó. Hai
thông số này ñược kết hợp ñể tạo ra xấp xỉ cho gói bị mất.
• Bộ phân tích LP
Khối này dùng ñể tìm các hệ số LP {a(i)}, mô phỏng hình dạng bộ
máy phát âm của một frame tiếng nói.
Frame tiếng nói nhận tốt trước ñó ñược ñưa vào bộ phân tích LP bậc
10 ñể ñược tạo ra 10 hệ số dự ñoán tuyến tính nhờ thuật toán Levinson-
Durbin. 10 hệ số này ñược dùng làm hệ số của bộ lọc dự ñoán và bộ lọc
tổng hợp.
• Bộ lọc dự ñoán
Các mẫu thuộc frame trước ñó ñược lọc bằng bộ lọc dự ñoán và chỉ
còn lại tín hiệu dư thừa. Tín hiệu này ñược dùng ñể dự ñoán pitch trong
frame tiếng nói và tạo tín hiệu kích thích cho frame bị mất.


=
−−=
10
1
)()()()(
i
inxianxne
(3.2)
• Bộ dự ñoán pitch
Khối này thực hiện ước ñoán pitch của frame nhận tốt trước ñó từ tín
hiệu dư thừa. Thông tin pitch này ñược dùng ñể xây dựng tín hiệu kích
thích của frame bị mất.
Đối với frame unvoiced, tín hiệu dư thừa không có chu kỳ pitch.

Không có nhận xét nào:

Đăng nhận xét