Определение голоса и его параметров
Определение голоса и его параметров
Звук голоса – это колебание частиц воздуха, распространяющихся в виде волн сгущения и разрежения. Источником возникновения этих волн являются голосовые складки человека. И все бесконечное разнообразие звуков человеческого голоса является следствием изменения во времени только трех важнейших акустических параметров звука: частоты колебаний, их амплитуды и состава сложного звука, его спектра – соответственно высоты, силы и тембра звука.
Подробнее остановимся на рассмотрении таких характеристик звука, как сила, высота, тембр, резонанс.
Высота звука – это субъективное восприятие органом слуха частоты колебательных движений. Чем чаще совершаются периодические колебания воздуха, тем выше мы воспринимаем звук. Качество высоты звука зависит от частоты колебательных движений голосовых складок в 1 секунду. Сколько смыканий и размыканий осуществляют они в процессе своих колебаний и сколько порций сгущенного подскладочного воздуха пропустят, такова и будет частота рожденного звука, то есть высота тона. Частота основного тона измеряется в Герцах и может изменяться в обычной разговорной речи у мужчин в пределах от 85 до 200 Гц, у женщин – от 160 до 340 Гц.
Силой звука голоса называют субъективное ощущение размаха колебательных движений, его амплитуды. Чем больше амплитуда колебательных движений, тем сильнее звучит голос. Сила звука голоса, также как и его высота, задается гортанью и растет с увеличением подскладочного давления.
Тембр или окраска звука является существенной характеристикой качества голоса. Он отражает акустический состав сложных звуков и зависит от частоты и силы колебаний. В сложном звуке различают основной тон, который обуславливает высоту его звучания, и частичные звуки, или обертоны, сумма звучания которых определяет характер сложного звука. Частота обертонов обычно в 2, 3, 4 и т. д. раз больше, чем частота основного тона голоса.
Резонанс – резкое возрастание амплитуды колебаний, возникающее при совпадении частоты колебаний внешней силы с частотой собственных колебаний системы. Под резонатором в акустике подразумевают какой-либо объем воздуха, заключенный в упругие стенки с выходным отверстием. В голосовом аппарате человека имеется множество полостей и трубок, в которых могут развиться явления резонанса: трахея и бронхи, полость гортани, глотки, рта, носоглотки, носа и околоносовых пазух.
От ощущений резонирования звука в голове и груди получили свое название регистры голоса – головной, грудной и смешанный.
Головной регистр включает в себя высокие звуки. Он отличается бедностью обертонов. Типичным образцом головного регистра является фальцетный голос.
Грудной регистр богат обертонами. К нему относятся низкие тоны голоса.
К миксту относятся средние тоны голоса. для смешанного регистра характерно и головное и грудное резонирование; и такой голос принято считать наиболее приемлемым в речи.
Таким образом, понятие голоса включает в себя его основные свойства: силу, высоту, тембр, резонанс. Только координированная и сложная изменчивость всех указанных свойств создает все многообразие звучания голоса.
Определение голоса и его параметров
Считается, что тембр голоса более всего зависит от индивидуальных свойств и строения голосовых связок: от длины и толщины связок, от их упругости и эластичности, от специфического состояния слизистой оболочки связок.
Силу голоса, как правило, связывают с давлением воздушного столба в трахее и с амплитудой колебания связок. Современная наука отмечает, что сила голоса напрямую зависит от давления воздуха под связками. Отсюда очевидно, что на силу голоса можно существенно повлиять, практикуя упражнения для развития вокального дыхания.
Тоновый диапазон
Частота основного тона взрослого мужчины (нижний тон натурального звукоряда) колеблется в диапазоне 85-155 Гц, взрослой женщины от 165 до 255 Гц. Диапазон частоты разговорного детского голоса – от 170 до 600 Гц. Во время пения частотный диапазон значительно шире разговорного.
Тембр голоса
Звук – это колебательный процесс, то явление резонанса присуще и ему. При помощи явления резонанса можно усилить даже очень слабые периодические колебания.Расположив рядом 2 камертона и легонько стукнув по одному, можно услышать, как второй камертон издаст звук. Это происходит потому, что он попал в резонанс с первым, и его колебания усилились.
Гитарная струна сама по себе издаёт негромкий звук. Но её струны располагают на корпусе, который имеет определённую форму и круглое отверстие в середине. Звук от струны попадает внутрь корпуса, резонирует и усиливается.Точно так же усиливается и человеческий голос. Резонаторами служат полости, лежащие выше голосовых связок – носовые ходы, гайморовы и лобные пазухи.
Эти резонаторы называют верхними. Они придают голосу звонкость. Лёгкие, бронхи и трахея – нижние резонаторы. Они усиливают низкие звуки. Проходя через них, голос приобретает силу, полноту звука. С помощью резонаторов голос человека приобретает характерный только для него тембр (окраску).
Сила и громкость голоса
1 сон – это громкость синусоидального чистого тона частотой 1 кГц, создающего звуковое давление 2 мПа.Но одинаковую громкость могут иметь звуки разной интенсивности (имеющие различное звуковое давление) на разных частотах. Поэтому громкость звука оценивают, сравнивая её с громкостью стандартного чистого тона частотой 1 кГц. Эту величину называют уровнем громкости звука.
Единица уровня громкости – фон. Предположим, что существуют 2 звука, частота которых одинакова, но громкость разная. Каждому из этих звуков поставим в соответствие звук такой же громкости с частотой 1 кГц. Если их громкость отличается на 1 децибел, то разность уровней исходных звуков будет равна 1 фон.
Ещё одной величиной измерения уровня громкости звука является бел. Это безразмерная единица измерения, которая представляет собой десятичный логарифм отношения физической величины к такой же физической величине, принимаемой за исходную. Названа так в честь Александра Грэхема Бела, изобретателя телефона. Считается, что громкость равна 1 Б, если его мощность в 10 раз превышает порог слышимости.
На практике применяют единицу децибел, в 10 раз меньшую бела. Децибел показывает не величину громкости звука, а измерение отношения двух величин. Децибел не является официальной единицей в системе СИ, но его применение разрешено совместно с СИ.
Громкость зависит от звукового давления и имеет логарифмический характер. Если звуковое давление повышается на 10 дБ, то громкость увеличивается в 2 раза.
Наше ухо воспринимает громкость звука по-разному. Чем выше частота колебаний голоса при одинаковой амплитуде, тем более громкими нам кажется звуки. Высокий женский голос, имеющий частоту 1000 Гц, будет нам казаться более громким, чем мужской голос частотой 200 Гц, даже если они имеют одинаковую амплитуду.
В книге рекордов Гиннеса зафиксирован случай, когда на специальных соревнованиях 14-летняя школьница из Шотландии перекричала шум двигателя взлетающего «Боинга». Уровень громкости её голоса составил 125-130 дБ. Это на 10 дБ выше предельного значения уровня звука для человеческого уха.
Голосовой аппарат человека передаёт энергию в окружающее нас пространство. Но эта энергия очень мала. Кроме того, звуковая волна распространяется по всем направлением, и энергия рассеивается. Но если её сосредоточить в каком-то конкретном направлении, то голос будет слышен гораздо лучше. Поднеся ладони ко рту, мы направляем наш голос в нужную нам сторону. По такому же принципу действует рупор. С его помощью голос можно слышать на большом расстоянии.
Возрастные и половые особенности голоса
Автор О.С. Орлова выделяет следующие отличительные особенности в строении и развитии отдельных органов голосового аппарата ребёнка:
Существуют различия в строении голосового аппарата как у детей и взрослых, так и мужчин и женщин. Звучание голоса в дошкольном и младшем школьном возрасте имеет характерные акустические параметры. В соответствии с возрастом меняются анатомические структуры голосового аппарата и голос ребёнка, к которым относятся: высота основного тона, интенсивность голоса, диапазон и тембр.
В некоторых случаях отмечается покраснение средних отделов гортани, слизистая оболочка голосовых складок становится разрыхлённой, голосовая щель в хрящевой её части недостаточно смыкается. В задних отделах –«мутационного треугольника» при фонации остаётся просвет, имеющий форму удлинённого треугольника. Голосовые складки увеличиваются в длину, но при этом их ширина не изменяется.
Изменение голоса происходит посредством увеличения гортани в процессе роста. Однако в пубертатный период у юношей гортань увеличивается на 70%, в отличие от девушек, голосовая трубка, которых увеличивается лишь вдвое. Процесс ломки голоса у мальчиков включает в себя три основных этапа: Предмутационный период. Проявляется этот этап в качестве подготовки организма к перестройке голосового аппарата. Если говорить о разговорном голосе, то могут наблюдаться срывы голоса, хрипота, кашель, неприятное «першение».
Певческий же голос более информативен в этом случае: срывы голоса при взятии предельных нот диапазона юноши, неприятные ощущения в гортани во время занятий вокалом, «грязная» интонация, случается и потеря голоса. При первых же звоночках стоит прекратить занятия, поскольку этот период требует отдыха голосового аппарата. Мутация. Данный этап характеризуется отеком гортани, а также чрезмерным или недостаточным выделение слизи. Эти факторы вызывают воспаление, тем самым поверхность связок приобретает характерный цвет.
Перенапряжение может привести к хрипам, а в последствие к «несмыканию голосовых складок». Поэтому в этот период стоит внимательно отнестись к гигиене голоса, в том числе профилактике простудных и вирусных заболеваний. Наблюдается нестабильность голоса, искажение звука, а так же характерная хрипота. При пении наблюдается напряжение голосового аппарата, особенно при скачках на широкие интервалы. Поэтому в занятиях стоит склоняться к певческим упражнениям-распевкам, а не произведениям.
Послемутационный период. Как и любой другой процесс, мутация голоса у мальчиков не имеет четкой границы завершения. Несмотря на окончательное становление, могут наблюдаться переутомление и напряжение связок. В этот период происходит закрепление произошедших изменений. Голос приобретает фиксированный тембр и силу. Однако этап опасен своей нестабильностью.
Признаки ломки голоса у юношей происходит заметнее и связано это, в первую очередь, с тем, что мужской голос, по сути, намного ниже женского. Мутационный период протекает в короткие сроки. Встречаются случаи, когда происходит практически мгновенно. Однако в большинстве случаев перестройка организма затягивается на несколько месяцев. Еще вчера мальчишеский дискант способен перерасти в тенор, баритон или мощный бас.
Все зависит от генетически заложенных показателей. У одних юношей происходят значительные изменения, у других – переход ко взрослому голосу не выражен ярким контрастом. Мутация голоса у мальчиков чаще всего происходит в 12-14 лет. Впрочем, ориентироваться на этот возраст как на норму не стоит. Существует множество факторов, которые способны повлиять как на срок начала, так и на продолжительность процесса. Во-первых, несомненно, влияет природный климат.
Проводимые исследования доказали, что в различных климатических условиях процесс «взросления» голоса происходит по-разному, и возраст перестройки колеблется от 11 до 20 лет. Во-вторых, генетический фактор. Изначально заложенные в организме установки изменить нельзя. В-третьих, механический фактор. То есть перестройка может быть нарушена по каким-либо причинам. Ими могут стать, например, нарушения голосового аппарата, соматические заболевания
Таким образом, можно сделать вывод о том, что голосовая функция возникает с момента рождения ребёнка. Голос образуется в результате колебания эластичных голосовых складок и обладает определёнными качествами – силой, высотой, тембром. Вся работа голосового аппарата подчинена коре головного мозга. Для того, чтобы речевая деятельность развивалась и функционировала нормально, необходимо согласованное функционирование всего головного мозга и других отделов нервной системы.
Любые повреждения нервной системы и других систем организма могут привести к нарушениям речи и голоса. Механизм голосообразования в период мутации меняется: на смену фальцетному, характеризующемуся натяжением и смыканием краёв голосовых складок и головным резонированием. В этот период формируется новый механизм голосообразования, при котором фонация осуществляется всей массой голосовых складок и включает грудное звучание.
Задача изменения голоса. Часть 1. Что такое голос?
Этим постом мы хотели бы начать цикл статей, посвященных задаче изменения голоса. В зарубежной литературе данную задачу часто именуют термином voice morphing, в отечественной литературе данная задача ещё не получила достаточного освещения как в научных, так и в инженерных кругах. Тема является достаточно обширной и во многом творческой. В результате работы в данном направлении у нас накопился определенный опыт, который мы планируем систематизировать и изложить, а также передать основную суть некоторых алгоритмов.
Изменение голоса может преследовать разную цель. Два основных направления, которые тут однозначно можно выделить – это получение реалистичного звучания измененного голоса и получение некоторого причудливо-фантастичного звучания. Неплохих результатов во втором случае вполне можно добиться, обрабатывая речевой сигнал как обычный звук, не заостряя внимание на его особенностях и делая многие допущения. Например, индустрия электронной музыки породила колоссальное количество разнообразных аудио-эффектов и результат их применения к речевому сигналу помогает создать самый невероятный образ говорящего.
В задаче реалистичного изменения голоса применение «музыкальных» (назовем их так) аудио-эффектов может привнести искажения, не характерные для натуралистичного звучания речи. В подобном случае необходимо более точно понимать, из каких звуков состоит речь, как они образуются и какие их свойства являются критическими для восприятия. Проще говоря — необходимо производить анализ сигнала перед его обработкой. При автоматизированной обработке речевого сигнала в реальном времени этот анализ усложняется многократно, т.к. умножается количество неопределенностей, которые надо как-то попытаться разрешить, и сокращается количество применимых алгоритмов.
В ближайших статьях мы рассмотрим варианты простейшей реализации таких эффектов, как изменение пола говорящего и изменение возраста говорящего. Чтобы читатель лучше понимал, какие параметры сигнала будут изменяться, в первых статьях будут затронуты основные вопросы образования звуков речи и способы формального описания речевого сигнала. После этого уже будут обсуждаться конкретные предлагаемые алгоритмы изменения голоса, их сильные и слабые стороны.
P.S.
Добавил дополнительные ссылки на первоисточники
Введение
Если рассматривать звуки речи отдельно друг от друга, на первый взгляд может показаться, что ничего особенного они из себя не представляют — типичный гласный звук по сути не так уж и далек от звука, скажем, флейты. Однако обработка отдельно стоящих «в вакууме» звуков вряд ли многим принесет практическую пользу — гораздо более привлекательной затеей выглядит обработка слитного речевого сигнала. Вдвойне привлекательной кажется идея натуралистичного звучания обработанной речи. Данная задача уже значительно сложнее — в натуральной слитной речи звуки настолько быстро и плавно перетекают один в другой, что даже человек с опытом не всегда может четко поставить границу при обработке. А если ко всем звукам речи подходить одинаково — никакого натурального звучания не выйдет.
Речевой сигнал является более «разносторонним», если можно так выразиться, сигналом, нежели например звук музыкальных инструментов. Занимая сравнительно узкую частотную полосу, речь состоит из огромного разнообразия элементарных звуков, которые вдобавок могут коартикулировать самым причудливым образом даже в обыденной речи, не говоря уже об осознанном изменении голоса профессиональным актером. При этом эти элементарные звуки имеют разную природу и, как следствие, разные характеристики с точки зрения стандартных алгоритмов анализа и обработки сигналов.
Речевой тракт человека является едва ли не наиболее совершенным и гибким в сравнении со всеми известными животными и по разнообразию производимых звуков оставляет позади большинство музыкальных инструментов. Основная сложность в анализе и изменении голосового сигнала кроется именно в данном разнообразии и вытекающей большой неопределенности, связанной с вычленением и обработкой элементарных звуковых единиц. Не существует алгоритмов, хорошо подходящих для обработки всех звуков речи. К тому же, один и тот же элементарный звук человек может произносить по-разному в зависимости от своего эмоционального, физического состояния, от места звука в слове, etc. Индивидуальные особенности произношения, культурный и языковой фактор, медицинские патологии — все это также оказывает влияние на произносимый звук.
Звукообразование, общие сведения
Для понимания специфики обработки голосового сигнала, рассмотрим более подробно вопрос звукового состава речи и каким образом данные звуки образуются. Процесс звукообразования принято описывать с помощью двух основных понятий: фонация и артикуляция, опишем их по порядку.
Фонация — часть процесса звукообразования, происходящая в гортани человека. Начинается все с сжатия легких — это приводит в движение воздух, который из легких через трахею поступает в гортань. Данный воздушный поток имеет практически постоянную, медленно меняющуюся скорость. В гортани находится голосовая щель, образуемая двумя голосовыми складками, к которым «прикреплены» голосовые связки. При напряжении связок голосовая щель периодически смыкается/размыкается и формирует таким образом воздушные импульсы из входного воздушного потока. Каждый импульс можно описать объемной скоростью воздуха, который проходит через голосовую щель, обозначим её мгновенное значение как U(t). Человеческое ухо воспринимает колебания в давлении, которые пораждаются изменением скорости воздушного потока, и нас, таким образом, более интересует первая производная от объемной скорости — dU/dt. Для более наглядной иллюстрации можно обратить внимание на картинку ниже. Показана модель U(t) и её первая производная, оба графика полученны с помощью модели Розенберга:
Верхний график отражает значение U(t) во времени на выходе голосовой щели. Нижний график показывает первую производную U(t) по времени — суть изменение давления на выходе голосовой щели. Это периодическое изменение давления уже является звуком само по-себе. Данный звук состоит из шумовой и гармонической составляющих. Шумовая составляющая образуется турбулентностью из-за резкого увеличения U(t) и неполного смыкания голосовой щели (модель на картинке выше не учитывает шумовую составляющую). Гармоническая составляющая может быть представлена гармоническим рядом, где частоты всех вторичных гармоник (которые ещё называют обертонами) кратны частоте первой самой низкой гармоники, называемой частотой основного тона. (см. рисунок ниже).
Физику образования данных гармоник в двух словах объяснить не получится, для этого лучше написать отдельную статью. Главное пока запомнить, что из гортани при работе связок уже может выходить вполне гармонический звук. Численное значение частоты основного тона равно частоте сокращения голосовых связок и является функцией от их длины, плотности и натяжения.
При расслабленных связках и постоянно открытой голосовой щели воздушный поток ничем не «нарезается», если можно так выразиться, скорость воздуха в таком случае слабо колеблется около некоторого постоянного значения и формируемый звук имеет шумовую природу, пример спектра данного сигнала приведен ниже.
Результатом фонации является некий звук, который часто называют «сигналом возбуждения голосового тракта». Из этого базового сигнала (гармонического или нет) по мере его прохождения через голосовой тракт далее будет формироваться конечный звук, который мы слышим при разговоре.
Краткое резюме: главный «инструмент» фонации — две голосовые складки, которые образуют собой голосовую щель и которые приводятся в движение голосовыми связками. Связки могут периодически сокращаться или находиться в расслабленном состоянии, что приводит к образованию вокализованного или невокализованного звуков соответственно.
Исследованию фонации, особенно вокализованной, посвящено огромное количество работ, рассматривающих данный процесс с самых разных точек зрения — механической, термодинамической, акустической, статистической, психоакустической. Достоверно установлено, что неидеальность формируемых воздушных импульсов при вокализованной фонации, случайное изменение их формы и частоты, сильно влияет на натуральность звучания. Для примера можно послушать звук по приведенной ссылке — он как раз синтезирован с помощью модели с первого рисунка, а также параметров речевого тракта автора статьи, при произнесении звука «А». Не думаю, что кому-то данный звук покажется «живым» и натуральным. Человеческое ухо достаточно точно определяет звук, синтезированный с помощью искусственного сигнала возбуждения, что значительно повышает значимость статистического исследования данного процесса.
Артикуляция заключает в себе процесс изменения состояния всех элементов речевого тракта при звукопроизнесении. Фонация является частью артикуляции. Речевой тракт можно упрощенно представить совокупностью камер и трубок (см. рисунок справа), через которые проходит сигнал возбуждения. Сужения и расширение смычек голосового тракта, лежащих выше гортани, дополнительно влияют на скорость прохождения воздушного потока, формируют дополнительные (помимо голосовой щели) зоны турбулентности. Вместе с тем полости речевого тракта аналогичны акустическим резонаторам при прохождении через которые усиливаются одни и ослабляются другие частоты звука. Мышцы речевого тракта позволяют человеку контролировать геометрию камер речевого тракта, создавать препятствия на пути воздушного потока (язык, зубы, губы).
В грубом приближении можно резюмировать вышесказанное, как:
артикуляция = фонация + работа мышц речевого тракта,
где фонация может быть вокализованной или не вокализованной, а сокращение каждой отдельной мышцы — некоторая функция от времени.
В процессе обучения разговорной речи человек учится координировать работу органов артикуляции для получения определенных звуков. Из-за индивидуальных анатомических особенностей один и тот же звук у всех людей звучит немного по-разному, и это один из важных факторов, по которым мы отличаем голоса людей. При согласованной работе голосовых связок и остальных мышц речевого тракта, возможно образование гласных, согласных, смешанных и переходных звуков. Далее предлагается кратко рассмотреть эти группы, в общих чертах описать их артикуляцию и основные признаки.
Простейшая классификация звуков речи
Со школы известно, что все звуки речи изначально принято делить на гласные и согласные. Гласные звуки формируются при прохождении вокализованного сигнала возбуждения от голосовой щели через остальной речевой тракт, который при этом занимает некоторую фиксированную геометрическую форму. Этот процесс во многом подобен тому, как звук колеблющейся струны проходит через корпус гитары. В случае с человеческим голосом, «струной» выступает периодически сокращаемая голосовая щель, а корпусом — все, что выше её. Если представить себе, что корпус гитары может принимать одну из нескольких «заранее выученных» форм, то возможно провести аналогию с гласными звуками: гортань создает вокализованный сигнал возбуждения, а речевой тракт принимает одну из форм, в итоге получается гласный звук.
Меняя геометрию речевого тракта, человек меняет его акустические резонансные свойства. В итоге некоторые частоты усиливаются, некоторые напротив заметно ослабляются. Зоны усиления принято называть формантными частотами или формантами. Гласные звуки отличаются друг от друга именно своей формантной структурой (см. рисунок справа), зависящей от геометрии речевого тракта в момент речеобразования — именно так их и различает человек на слух. Точные численные значения формантных частот индивидуальны для каждого человека. Однако их относительное расстояние между друг другом имеет примерно одинаковые пропорции у всех людей (иначе как бы мы могли распознать, например, звук «О», произносимый разными людьми).
Теперь перейдем к согласным звукам. Их количество значительно превышает количество гласных звуков и по своему звучанию они могут быть разбиты на подклассы. Как это часто бывает в реальной жизни, многие феномены имеют признаки многих классов и однозначная классификация весьма затруднительна. Согласные звуки в данном случае не являются исключением. Их разбиение на классы зависит от рассматриваемого языка и применяемой фонетической теории. Мы рассмотрим наиболее общую классификацию, состояюшую из трех основных групп:
— фрикативные согласные
— смычные согласные
— сонорные согласные
Генерируемый шумовой сигнал, как и в случае с гласными звуками, проходит через некоторое количество акустических фильтров (камеры речевого тракта), которые придают этому шуму некоторую характерную спектральную форму и звучание.
Смычные согласные образуются путем полного перекрытия речевого тракта каким-либо органом артикуляции при открытой голосовой щели. При этом воздух, поступающий из легких через открытую голосовую щель, нагнетает давление и при резком размыкании препятствия создает «взрывной» звук (звуки K, П, Т …). Например при произнесении звука «П», человек смыкает губы, но легкие при этом продолжают нагнетать давление. Затем губы резко размыкаются и создаваемый скачкообразный перепад в давлении порождает знакомый всем звук «П». Изображение во временной области представлено ниже:
Следует обратить внимание, что все три попытки произношения звука значительно отличаются друг от друга во временной области. При этом на слух их отличить весьма тяжело.
Пример спектрограммы слова с несколькими смычными звуками изображен ниже.
Также нельзя не отметить, что и фрикативные, и смычные согласные могут быть «звонкими». «Звонкие» согласные по своей природе являются смешанными звуками, образуемыми путем произнесения согласного звука одновременно с работой голосовых связок. Например, если проделать действия, описанный при произнесении звука «П» и добавить при этом работу голосовых связок, то получится звук «Б». Однако нельзя утверждать, что они являются простой суперпозицией некоторого гласного и некоторого согласного звука во временной области. Нельзя просто взять записать звук «С», сложить с записанным звуком «Э» и получить на выходе звук «З». Однозначно можно лишь сказать, что звонкие согласные образуются с помощью вокализованного сигнала возбуждения.
В некоторую обособленную группу принято выделять сонорные согласные, которые не содержат в себе сильного турбулентного шума, т. к. при их произнесении для воздуха создается дополнительный проход (Л, Р, М, Н, Й). Однако некоторое препятствие все-таки создается (язык, язык + зубы, язык + небо), из-за этого:
— значительно ослабляются многие гармоники из начального гармонического ряда
— в целом уменьшается энергия произносимого звука
— появляются некоторые шумовые призвуки.
Звуки «М» и «Н» являются носовыми — в ротовой полости создается значительное препятствие, а носоглотка полностью открыта для прохода воздуха. Ротовая полость в таком случае является дополнительной резонансной полостью, а носовая полость становится основным излучателем звука. Звук «Р» относится к группе так называемых «дрожжащих» звуков. Сонорные звуки своим спектром достаточно сильно напоминают гласные звуки. Глядя на спектрограмму, их кратковременные появления бывает тяжело выделить, особенно при их переходе в гласные звуки. Звуки «Л», «Р», «Й» многие авторы относят к полугласным из-за возможности выделить в их составе яркие доминирующие форманты.
Стоит сказать несколько слов о призвуках и переходных звуках. Их образование связано с тем фактом, что органы артикуляции человека в слитной речи не могут взять и мгновенно изменить свое положение. Это процесс происходит плавно во времени. В фонетике принято выделять три стадии произнесения отдельного звука: экскурсия, выдержка и рекурсия. Во время экскурсии артикуляционные органы принимают начальное положение, необходимое для формирования звука. Во время выдержки произносится сам звук. Во время рекурсии органы либо приходят в состояние покоя, либо перестраиваются для начала произнесения следующего звука — рекурсия одного звука накладывается на экскурсию другого. Подобная коартикуляция пораждает множество призвуков, которые, как правило не вносятся в алфавиты, но вполне могут быть классифицированы и выделены в голосовом сигнале (к сожалению, далеко не всегда автоматически). В качестве иллюстрации можно привести спектрораммы уже измученного автором звука «П», при его отдельном произношении и в составе слога «ПЕ».
Разница между вариантами произношения звука «П» может быть видна невооруженным взглядом. В момент размыкания губ голосовой тракт уже занял позицию для произнесения смягченного «Э», что отразилось и на произношении «П». Подобные метаморфозы происходят практически со всеми согласными звуками — их положение относительно гласных звуков значительно влияет на их «внешний вид» и звучание.
Несколько фактов про гласные и согласные звуки:
1. Гласные звуки имеют гармоническую природу и четко выраженную формантную структуру. Согласные звуки имеют шумовую природу, но могут иметь ярковыраженную гармоническую составляющую (рисунок ниже, звуки «В», «Л»).
2. Гласные звуки несут в себе большее количество энергии, нежели согласные, основная её часть (1-я и 2-я форманты) лежат в диапазоне от 400 до 3000 Гц. Согласные звуки имеют значительно меньшую энергию. У большой части согласных звуков значительная часть этой энергии сосредоточена в области 2-10 КГц. Один из примеров показан ниже:
3. Гласные звуки имеют в среднем большую продолжительность, нежели согласные (100-300 мсек против 30-100 мсек, хотя конкретные точные цифры сильно зависят от языка и человека)
Речевой сигнал при слитной речи может условно считаться стационарным на отрезках от 5 до 100 миллисекунд в зависимости от особенностей диктора и произносимого звука. На более длительных интервалах анализа возрастает вероятность существенного изменения свойств сигнала, что может привести к несостоятельности оценок его усредненных параметров. Как и в любой другой области обработки сигналов, большие проблемы могут создать шумовые помехи, особенно те из них, которые имеют гармоническую природу и/или некоторые подобия формант — частотные области со сравнительно большой энергией.
В данном сжатом обзоре приведены только основные сведения о процессе речеобразования и классификации звуков речи. Даже в самом первом приближении каждый произносимый звук зависит от немалого числа параметров, индивидуальных для каждого отдельно взятого человека. Точное измерение данных физиологических параметров не всегда возможно даже современными медицинскими приборами. Если ставить себе цель получить максимально реалистичное звучание обработанного сигнала, многие из этих параметров так или иначе необходимо оценивать и единственным средством остается поиск оптимальных значений. Подобный подход почти всегда привносит артефакты в восстановленный речевой сигнал, иногда более, иногда менее слышимые. Если ещё усложнить себе жизнь и поставить задачу обработки голоса в реальном времени, то поиск этих оптимальных значений возможен только по мере обработки поступающего сигнала, так сказать, «на ходу», что также не может не отразиться на конечном звучании.
В следующей статье будет дан обзор основного инструментария, помогающего в той или иной мере решить многие задачи — кратко будут рассмотрены модели представления речевого сигнала. Также будет показано, какие параметры этих моделей можно подстраивать при ресинтезе для изменения выходного звучания.