DOSEIの日記

技術メモ+日常ログ

音声生成過程のモデル。人間の声を出す声帯や声道を線形近似による伝達関数モデルで考える。線形予測分析方式。
時刻 t の入出力信号を u(t), s(t) とすると、
s(t) = − Σ(i=1…N)αis(ti) + γu(t)
u(t) が平均値0の白色雑音(white noise)と仮定。本当のシステム H(z) の係数 α は未知なので、予測で得られる a を用いて、予測値 ŝ(t) は次のようになる。
ŝ(t) := − Σ(i=1…N)ais(ti)
予測誤差は次の式で与えられる。
s̃(t) := s(t) − ŝ(t)
そこで、
A(z) := Σ(i=1...N)aizi
と置くと、H(z) = γ/A(z)、つまり逆フィルタになる。
最適な A(z) を決定するための評価関数を次のように与える。
J1 = E[s̃2(t)]
展開すると E[s(ti)s(tj)] が現れるが、これを R(|ij|) と置く(これを自己相関関数という)。誤差が最小になるためには
∂J1/∂ai = 0
これから
ΣaiR(|ij|) = −R(j)
が成り立ち、これをYule-Walker方程式という。ベクトル行列表現で
Ra = −d
となり、斜め成分がすべて等しい R対称テプリッツ行列と呼ばれ、レビンソン・ダービンアルゴリズムによって解ける。