Czy możliwe jest imitowanie głosu konkretnej, dowolnie wybranej osoby na podstawie próbek głosu i odpowiedniego oprogramowania?
W filmach sensacyjnych jest to możliwe od lat. Cel nagrany zostaje komórką w restauracji, bądź wzięta jest próbka z publicznego wystąpienia w telewizji. Dalej wystarczy odpowiednia przystawka do telefonu, specjalna obręcz na szyi bohatera i wielkie komputery, które w locie przekształcają mowę, tak by brzmiała jak recytowana głosem prezesa banku czy głosem szefa organizacji terrorystycznej. Rzeczywistość jest daleko w tyle, dość powiedzieć że wyobrażenia z filmów dogoni dopiero za jakieś dziesięć, może piętnaście lat.
Obecnie najbardziej zaawansowaną metodą komputerowego generowania głosu jest synteza konkatenacyjna. W metodzie tej najpierw tworzy się rozbudowaną bazę fonemów, akustycznych cząstek mowy. Baza powstaje wykorzystując wiele godzin wysokiej jakości nagrań prawdziwego lektora, który czyta możliwie jednorodnie odpowiednie spreparowany tekst, zawierający wszystkie możliwe fonemy oraz ich kombinacje charakterystyczne dla danego języka. Nagrania są powtarzane dla wyższych i niższych tonacji głosu danego lektora. Materiał jest następnie segmentowany, po czym segmenty są łączone i modyfikowane w locie przez oprogramowanie, aby stworzyć wrażenie spójnej mowy. Metoda daje naturalny efekt mowy, natomiast etap przygotowania bazy jest pracochłonny i kosztowny. Ciężko w ten sposób imitować czyjś głos bez jego wiedzy, zgody i dość żmudnej współpracy.
Metodą przyszłości jest rezygnacja z półśrodka w postaci próbkowanych fonemów na rzecz pełnej komputerowej symulacji ludzkiego aparatu mowy, wirtualnych strun głosowych, przepływów powietrza, wydobywania się dźwięków poprzez jamę ustną, modulacja w jamie nosowej. Nie ma jeszcze dość dokładnego modelu komputerowego, który należycie odwzorowałby wszystkie procesy akustyczne związane z tworzeniem ludzkiej mowy. A kiedy powstanie będzie jeszcze kwestia odpowiedniej parametryzacji i kalibracji modelu tak by dopasować go do brzmienia konkretnego głosu. Na deser naukowcy zostawiają sobie problem odwzorowania indywidualnego sposobu mówienia każdego człowieka, akcentu, dialektu, intonacji, doboru słów, emocji itp.
Póki mamy pierwsze próby mechanicznego odwzorowania ludzkiego aparatu mowy. W dziwnie wyglądającym robocie, stworzonym przez japońskich inżynierów z Uniwersytetu w Kagawie, rolę płuc pełni pompa wdmuchująca powietrze w mechaniczne struny głosowe, które dalej wędruje przez tubę imitującą przełyk, by wydostać się na zewnątrz przez jamę nosowo-ustną, przy czym usta otwierają się i zamykają jak u ludzi pod wpływem siłowników zamontowanych u dołu. Efekt działania robota, który „mówi” monosylabami w sposób przypominający wycie potępieńca pokazuje jak daleka jest jeszcze droga do osiągnięcia sztucznej artykulacji ludzkiej mowy.
Źródło grafiki: (C) Piotr Mańkowski