Почему мы слышим звук. Как мы слышим? (8 фото)
Слух является одним из важных органов чувств для всех обитателей планеты, с его помощью многие животные определяют местонахождение своего врага. Все стихийные бедствия также сопровождаются определенными звуками, которые не всегда доступы человеческому уху, но на которые безошибочно реагируют животные. Человек находится в постоянном окружении звуков, многие из них проходят мимо сознания. Слух настроен таким образом, что четко воспринимаются мозгом только жизненно важные сигналы, не очень важные игнорируются. Звуки могут по-разному воздействовать на восприятие, одни нравятся, другие раздражают, многие из них способствуют созданию в воображении тех или иных визуальных образов.
Особенности восприятия звуков
Человеческий организм отличается сложным устройством, ухо не является исключением. Строение органов слуха позволяет преобразовывать и передавать звуки для распознавания в мозг, все эти процессы происходят преимущественно в височных долях. В мозгу определяется громкость, высота, направление происхождения и другие характеристики звука. Оценка ситуации производится на основе информации, полученной из обоих ушей одновременно. Внутри уха хранятся определенные шаблоны уже распознанных звуков, за счет них обеспечивается правильная сортировка информации и определение ее первоисточника.
Известно, что скорость распознавания знакомых звуков (голосов близких людей, сигналов опасности) намного выше, по сравнению с незнакомыми звуками. При ухудшении слуха мозг начинает получать недостоверные данные, что приводит к ошибкам в распознавании информации. За слух отвечают не только соответствующие органы, но и мозг, правильное распознавание звуков достигается только за счет слаженной работы этих органов.
Строение органов слуха
Слуховой анализатор состоит из четырех частей:
- Наружное ухо, в данную категорию относятся следующие органы: барабанная перепонка, ушная раковина, слуховой проход. Барабанная перепонка выполняет функцию изоляции слухового прохода от окружающей среды. Длина слухового прохода составляет 2,5 см, он имеет изогнутую форму, его поверхность покрыта железами, выделяющими ушную серу и небольшими волосками. Слуховой проход выполняет функцию поддержания необходимого уровня температуры и влажности внутри уха.
- Среднее ухо – в это понятие входит компонент слухового анализатора, орган расположен за барабанной перепонкой и наполнена воздухом, с носоглоткой соединяется евстахиевой трубой. Евстахиева труба — это закрытый в обычном состоянии узкий хрящевой канал, который открывается при совершении глотательных движений, после чего пространство заполняется воздухом. Внутри среднего уха находятся три небольшие слуховые косточки: молоточек, наковальня и стремя. Молоточек соединяется со стременем, которое соединяется уже с улиткой во внутреннем ухе. Барабанная перепонка находится в постоянном движении под воздействием звуков, ее колебания передаются на слуховые косточки.
- Внутреннее ухо представляет собой несколько структур, за слух отвечает только улитка. Улитка получила свое название из-за спиральной формы, орган оснащен тремя каналами, заполненными лимфатическими жидкостями. Состав жидкости в среднем канале существенно отличается от остальных. Непосредственно за слух отвечает расположенный в среднем ухе Кортиев орган, он состоит из тысяч мельчайших волосков, улавливающих колебания, создаваемые движущейся по каналу жидкостью. В этом же месте генерируются электрические импульсы, передаваемые в кору мозга. Каждая волосовая клетка реагирует на определенный звук, при ее гибели человек перестает воспринимать звук, за который она отвечала.
Слуховые проводящие пути
Слуховые пути представляют собой совокупность волокон, проводящих нервные импульсы от улитки дослуховых центров, за счет них происходит восприятие звука мозгом. Расположены эти слуховые центры в височных долях головного мозга, время, за которое звук поступает через внешнее ухо к мозгу, составляет 10 миллисекунд.
Как мы слышим
Звуковые волны перед тем как быть распознанными мозгом, проделывают долгий путь. Колебания воздуха заставляют вибрировать барабанную перепонку, после чего звук передается на протянутые через все среднее ухо слуховые косточки, соединяющие улитку и барабанную перепонку. На следующем этапе колебания передаются на заполняющую улитку жидкость, в результате чего раздражаются клетки внутреннего уха. Мозг улавливает эти раздражения и распознает речь, шумы, музыку и т.д. За направление, откуда идет звук, отвечают полукружные каналы, расположенные в лабиринте в трех перпендикулярных друг другу областях. Эти каналы называют еще вестибулярным аппаратом или органом равновесия.
При изменении положения тела полукружные каналы также перемещаются, заполняющая их инерционная жидкость вследствие инерционности не успевает за движениями и смещается относительно стенок канала. Специальные рецепторы следят за всеми перемещениями жидкости, информация о всех наблюдениях поступает в мозг.
Рецепторные клетки вестибулярного аппарата погружены в заполняющую внутреннее ухожидкость, информация о всех движениях поступает в мозжечок, в котором осуществляется сбор и сопоставление всех данных. После этого во все системы организма направляются команды, позволяющие поддерживать равновесие. Информация о результатах поступает в головной мозг.
Индивидуальные факторы
Человек обладает удивительной способностью воспринимать не только звуки, но и интонацию. Выводы о том или ином звуки формируются на основании собственных ощущений, на восприятие оказывают влияние следующие факторы:
- чувствительность;
- восприимчивость;
- особенности центральной нервной системы.
Маленькие дети распознают незнакомого человека именно по интонации, это происходит за счет того, что у малышей доминирует эмоционально-образное мышление, любая речь воспринимается в первую очередь эмоционально. Интонация позволяет определить настроение человека, насколько он грустный или веселый. Механизм распознавания интонации базируется на подсознании, человек даже не задумывается об этом.
Многие женщины больше значения придают именно интонации речи, а не ее содержанию. В первую очередь внимание уделяется не тому, что сказал собеседник, а как он сказал, так как смысл по-разному произнесенного предложения отличается. Стоит отметить, что способностью правильно распознавать информацию обладают не все люди, иногда собеседнику могут приписываться собственные эмоции. Мужчины менее чувствительны и эмоциональны, для них большую важность имеет содержание фразы, а не интонация.
Все процессы записи, обработки и воспроизведения звука, так или иначе, работают на один орган, которым мы воспринимаем Звуки - ухо. Без понимания того, что и как мы слышим, что нам важно, а что нет, в чем причина тех или иных музыкальных закономерностей - без этих и других мелочей невозможно спроектировать хорошую аудио аппаратуру, нельзя эффективно сжать или обработать звук. То, о чём я расскажу - лишь самые основы (Да всего описать и не получится в рамках этой публикации).
- процесс звуковосприятия еще далеко не до конца изучен, однако, изложенные здесь факты могут показаться интересными даже тем, кто знает, что такое децибел...
Немного анатомии
(устройство уха - коротко и ясно)
Снаружи мы видим так называемое внешнее ухо (ушная раковина). Затем идет канал - примерно 0.5 см в диаметре и около 3 см в длину (слуховой проход (если ухо загрязнено, страдает качество слуха)).
Затем - барабанная перепонка (мембрана), к которой присоединены косточки - среднее ухо. Эти косточки передают вибрацию барабанной перепонки далее - на другую перепонку,
во внутреннее ухо - трубку с жидкостью, около 0.2 мм диаметром и, приблизительно, 3-4 см длинной, закрученную как улитка. Смысл наличия среднего уха в том, что колебания воздуха слишком слабы, чтобы напрямую сниматься с барабанной перепонки, и среднее ухо вместе с барабанной перепонкой и перепонкой внутреннего уха составляют гидравлический усилитель - площадь барабанной перепонки во много раз больше площади перепонки (мембраны) внутреннего уха, поэтому давление (которое равно F/S) усиливается в десятки раз.
Во внутреннем ухе, по всей его длине, еще одна вытянутая мембрана, жесткая к началу уха и мягкая к концу. Каждый участок этой мембраны колеблется в определённом частотном диапазоне, низкие частоты - в мягком участке ближе к концу, самые высокие - в самом начале. Вдоль этой мембраны расположены нервы, которые воспринимают колебания и передают их в мозг, используя два принципа:
Первый - ударный принцип. Поскольку нервы еще способны передавать колебания (бинарные импульсы) с частотой до 400-450 Гц, именно этот принцип влоб используется в области низкочастотного слуха. Там сложно иначе - колебания мембраны слишком сильны и затрагивают слишком много нервов. Слегка расширенный ударный принцип позволяет воспринимать частоты до примерно 4 кГц, засчет того, что несколько (до десяти) нервов ударяют в разных фазах, складывая свои импульсы. Это хорошо тем, что мозг воспринимает информацию более полно - с одной стороны, мы всё-таки имеем легкое частотное разделение, а с другой - можем еще анализировать сами колебания, их форму и особенности, а не просто частотный спектр. Этот принцип действует на самой важной для нас части - спектре человеческого голоса. Да и вообще, до 4 кГц находится вся наиболее важная для нас информация.
Ну и второй принцип - просто местоположение возбуждаемого нерва, применяется для восприятия звуков более 4 кГц. Тут уже кроме факта нас вообще ничего не волнует - ни фаза, ни скважность... Голый спектр.
Таким образом, в области высоких частот мы имеем спектральный слух не очень высокого разрешения, а для частот близких к человеческому голосу - более полный, основанный не только на разделении спектра, а еще и на дополнительном анализе информации самим мозгом, давая более полную стерео картину.
Основное восприятие звука происходит в диапазоне от 1 до 4 кГц, корректная передача этого частотного отрезка - первое условие естественности звучания.
О чувствительности
(по мощности и частотной)
Теперь о децибелах. Я не буду с нуля объяснять, что это такое, вкратце - относительная логарифмическая мера громкости (мощности) звука, наиболее хорошо отражающая человеческое восприятие громкости, и в то же время достаточно просто вычисляемая.
В акустике принято измерять громкость в дБ SPL (Sound Pressure Level – уровень звукового давления). Ноль этой шкалы находится примерно на минимальном звуке, который слышит человек. Отсчет ведется, естественно, в положительную сторону. Человек может осмысленно слышать звуки громкостью примерно до 120 дБ SPL. При 140 дБ ощущается сильная боль, при 150 дБ наступает повреждение слуха. Нормальный разговор - примерно 60 - 70 дБ SPL. Далее, при упоминании дБ подразумевается дБ от нуля по SPL.
Чувствительность уха к разным частотам очень сильно отличается. Максимальна чувствительность в районе 1 - 4 кГц, основные тона человеческого голоса. Сигнал 3 кГц - это и есть тот звук, который слышен при 0 дБ. Чувствительность сильно падает в обе стороны - например, для звука в 100 Гц нам нужно уже целых 40 дБ (в 100 раз большая амплитуда колебаний), для 10 кГц - 20 дБ. Обычно мы можем сказать, что два звука отличаются по громкости, при разнице, примерно, в 1 дБ. Несмотря на это, 1 дБ - скорее много, чем мало. Просто у нас очень сильно компрессированное, (выровненное) восприятие громкости. Зато весь диапазон - 120 дБ - воистину огромен, по амплитуде это миллионы раз!
Кстати, увеличение амплитуды в два раза соответствует увеличению громкости на 6 дБ. Внимание! не путайте: 12 дБ - в 4 раза, но разница 18 дБ - уже 8 раз! (а не 6, как могло подуматься.) дБ - логарифмическая мера.
Аналогична по свойствам и спектральная чувствительность. Мы можем сказать, что два звука (простых тона) отличаются по частоте, если разница между ними составляет около 0.3% в районе 3 кГц, а в районе 100 Гц требуется различие уже на 4%! Для справки - частоты нот (если брать вместе с полутонами, то есть две соседние клавиши фортепьяно, включая черные) отличаются на, примерно, 6%.
В общем, в районе 1 - 4 кГц чувствительность уха по всем параметрам максимальна, и составляет не так уж и много, если брать не логарифмированные значения, с которыми приходится работать цифровой технике.
Примите на заметку - многое из того, что происходит при цифровой обработке звука, может выглядеть ужасно в цифрах, и при этом звучать неотличимо от оригинала.
При цифровом представлении звука, понятие дБ считается от нуля и вниз, в область отрицательных значений. Ноль - максимальный уровень, представимый цифровой схемой. Если, при цифровой записи, уровень входного сигнала выбран не правильно – происходит превышение максимально разрешенного уровня сигнала, все сигналы, превышающие 0 дБ, обрезаются до 0 дБ – образуются клипы - вместо синусоиды на сигналограмме возникают прямоугольники (на слух воспринимаемые как щелчки (если превышение незначительно). Для того чтобы клипов не возникало, необходимо записывать звук с небольшим запасом по уровню -3 дБ.
О фазовой чувствительности
Если говорить об органах слуха в целом - природа создала их такими, какими создала, руководствуясь прежде всего соображениями целесообразности. Фаза частот нам не важна абсолютно, так как совершенно не несет полезной информации. Фазовое соотношение отдельных частот кардинально меняется от перемещений головы, окружающей обстановки, эха, резонансов.... Эта информация никак не используется мозгом, и поэтому мы не восприимчивы к фазам частот. Надо, однако, отличать изменения фазы в малых пределах (до нескольких сот градусов) от серьезных фазовых искажений, которые могут изменить временные параметры сигналов, когда речь уже идет не об изменениях фаз, а скорее о частотных задержках - когда фазы отдельных компонент настолько варьируются, что сигнал распадается во времени, изменяет свою длительность. Например, если мы слышим только отраженный звук, эхо с другого конца в огромном зале - в некотором роде это лишь вариация фаз сигналов, но настолько сильная, что вполне воспринимается по косвенным (временным) признакам. И вообще глупо называть это изменениями фаз - грамотнее говорить о задержках.
В общем, к незначительным вариациям фаз (однако, как посмотреть), до противофазы наше ухо абсолютно не чувствительно. Но всё это касается лишь одинаковых фазовых изменений в обоих каналах! Несимметричные фазовые сдвиги очень важны, об этом - ниже.
Об объемном восприятии
Человек может воспринимать пространственное положение источника звука.
Есть два принципа стерео восприятия, которые соответствуют двум принципам передачи звуковой информации из уха в мозг (об этом
см. выше).
Первый принцип - для частот ниже 1 кГц, их слабо волнуют препятствия в виде человеческой головы - они просто огибают её. Эти частоты воспринимаются ударным способом, передавая в мозг информацию об отдельных звуковых импульсах. Временное разрешение передачи нервных импульсов позволяет использовать эту информацию для определения направления звука - если звук в одно ухо приходит раньше другого (разница порядка десятков микросекунд), мы можем засечь его
расположение в пространстве - ведь запаздывание происходит из-за того, что звуку пришлось пройти еще дополнительно расстояние до второго уха, затратив на это какое-то время. Этот фазовый сдвиг звука одного уха относительно другого и воспринимается как информация, позиционирующая звуки.
И второй принцип - используется для всех частот, но в основном - для тех, что выше 2 кГц, которые отлично затеняются головой и ушной раковиной - просто определение разницы в громкости между двумя ушами.
Еще один важный момент, который позволяет нам гораздо точнее определять местоположение звука - возможность повернуть голову и «посмотреть» на изменение параметров звучания. Достаточно буквально нескольких градусов свободы, и мы можем определить звук (источник звука) почти точно. Принято считать, что направление с легкостью определяется с точностью до одного градуса. Этот прием пространственного восприятия - то, что почти не дает сделать реалистичный объемный звук в играх - по крайней мере, до тех пор, пока наша голова не будет облеплена поворотными датчиками.. Ведь звук в играх, даже рассчитанный на современные 3д карты, не зависит от поворота нашей реальной головы, поэтому полная картина почти никогда не складывается, и, сложиться, к сожалению, не может.
Таким образом, для стерео восприятия во всех частотах важна громкость правого и левого канала, а в частотах, где это возможно, до 1 - 2 кГц, дополнительно оцениваются и относительные фазовые сдвиги. Дополнительная информация - подсознательный поворот головы и мгновенная оценка результатов.
Фазовая информация в районе 1 - 4 кГц имеет приоритет над разницей в громкости (амплитуде), хотя определенная разница уровней перекрывает фазовую разницу, и наоборот. Не совсем соответствующие или прямо противоречивые данные (например - правый канал громче левого, однако запаздывает) дополняют наше восприятие окружения - ведь эти несоответствия рождаются из окружающих нас отражающих/поглощающих поверхностей. Таким образом, в очень ограниченном объеме воспринимается характер помещения, в котором находится человек. Этому также помогают общие для обоих ушей фазовые вариации огромного уровня - задержки, эхо (реверберация).
О нотах и октавах
Гармоники
Слово «гармоника» здесь означает гармоническое колебание, или проще - синусоиду, простой тон. В аудио - технике, однако, применяют понятие - пронумерованные гармоники. Дело в том, что множество физических, акустических процессов дают дополнение какой-то определенной частоты частотами, ей кратными. Простой (основной) тон 100 Гц сопровождают гармоники 200, 300, 400 и так далее Гц. Звук скрипки, например - это почти одни сплошные гармоники, основной тон имеет лишь немного большую мощность, чем его гармонические дополнения - обертоны. Вообще говоря, характер звучания музыкального инструмента (тембр) зависит от наличия и мощностей его гармоник, тогда как основной тон определяет ноту.
Вспоминаем дальше. Октава в музыке - интервал изменения частоты основного тона в два раза. Нота ля суб-контр октавы, к примеру, имеет частоту примерно - 27.5 Гц, контр- 55 Гц. Состав гармоник этих двух разных звуков имеет много общего - в том числе это 110 Гц (ля большой октавы), 220 Гц (малой), 440 Гц (первой) - и так далее. В этом основная причина того, что одинаковые ноты разных октав звучат в унисон - складывается влияние одинаковых высших гармоник.
Дело в том, что гармоники нам обеспечены всегда - даже если музыкальный инструмент воспроизводит только один основной тон, высшие гармоники (обертоны) появятся уже в ухе, в процессе спектрального восприятия звука. Нота самой нижней октавы почти всегда включает в себя в качестве гармоник те же ноты всех вышестоящих октав.
Наше звуковосприятие почему-то устроено так, что нам приятны гармоники, и неприятны частоты, которые выбиваются из этой схемы - два звука, 1 кГц и 4 кГц, вместе будут звучать приятно - ведь это суть одна нота через две октавы, пусть и не калиброванного по стандартной шкале инструмента. Как уже упоминалось - это то, что часто встречается в природе как следствие естественных физических процессов. Но, если взять два тона 1 кГц и 3.1 кГц - будет звучать раздражающе!
Октава - понятие, полезное не только для музыкантов. Октава в акустике - это изменение частоты звука в два раза. Мы уверенно слышим примерно полных 10 октав, это на две октавы выше, чем последняя октава фортепьяно. Странное дело, но в каждой октаве содержится примерно одинаковое для нас количество информации, хотя последняя октава - это весь район с 10 до 20 кГц. В старости мы практически перестаем слышать эту последнюю октаву, и это дает потерю слуховой информации не в два раза, а всего на 10% - что не так уж и страшно. Для справки - самая высокая нота фортепьяно - около 4,186 кГц. Тем не менее, спектр звучания этого
инструмента далеко выходит за 4,186 кГц за счет гармоник, реально покрывая весь наш звуковой диапазон. Так почти с любым музыкальным инструментом - основные тона почти никогда не выходят за 5 кГц, можно быть совершенно глухим к более высоким тонам, и, тем не менее, слушать музыку...
Даже если бы и были инструменты с более высокими тонами - слышимый гармонический состав их звучания был бы очень бедным. Сами смотрите - у инструмента в 6 кГц основного тона есть только одна слышимая гармоника - 12 кГц. Этого просто мало для наполненного, приятного звучания, какой тембр мы бы ни хотели получить в результате.
Важный параметр всех звуковых схем - гармонические искажения. Почти все физические процессы приводят к их появлению, и в звукопередаче их стараются сделать минимальными, чтобы не изменять тональную окраску звука, и просто не засорять звук лишней, отягощающей информацией. Гармоники, однако, могут давать звуку и приятную окраску - например, ламповый звук - это наличие большого (сравнительно с транзисторной техникой) числа гармоник, дающих звуку приятный, теплый характер, практически не имеющий аналогов в природе.
Принципы цифрового звука
Прежде всего, сам принцип представления звука в цифровой форме предполагает уничтожение какой-то части информации в нем. Исходная, непрерывная кривая, описывающая амплитуду звуковой волны, подвергается дискретизации - разбиению на отдельные интервалы (отсчеты), внутри которых амплитуда считается постоянной; таким образом фиксируются временные характеристики волны. Затем эти мгновенные значения амплитуды еще раз разбиваются на конечное число значений - теперь уже по самой величине амплитуды - и выбирается наиболее близкое из этих дискретных значений; так фиксируются амплитудные характеристики. Если говорить по отношению к графику (осциллограмме) звуковой волны, то можно сказать, что на него накладывается некая сетка - крупная или мелкая, которая определяет точность преобразования волны в цифровую форму.
Мелкость временной сетки - частота дискретизации - определяет, прежде всего, частотный диапазон преобразуемого звука. В идеальных условиях для передачи сигнала с верхней частотой F достаточно частоты дискретизации 2F (по теореме Котельникова), в реальных же, приходится выбирать некоторый запас. Точность же представления самих значений амплитуды - разрядность отсчетов - определяет в первую очередь уровень шумов и искажений, вносимых при преобразовании. Естественно - снова для идеального
случая, поскольку шумы и искажения вносятся и другими участками схемы.
В начале 80-х, когда разрабатывалась система "компакт-диск", ориентированная для бытового применения, по результатам экспертных оценок была выбрана частота дискретизации 44.1 кГц и разрядность отсчета 16 бит (65536 фиксированных уровней амплитуды). Этих параметров достаточно для точной передачи сигналов с частотой до 22 кГц, в которые вносится дополнительный шум на уровне примерно -96 дБ.
Поток чисел (серий двоичных цифр), описывающий звуковой сигнал, называют импульсно-кодовой модуляцией или ИКМ (Pulse Code Modulation, PCM), так как каждый импульс дискретизованного по времени сигнала представляется собственным цифровым кодом.
Чаще всего применяют линейное квантование, когда числовое значение отсчета пропорционально амплитуде сигнала. Из-за логарифмической природы слуха более целесообразным было бы логарифмическое квантование, когда числовое значение пропорционально величине сигнала в децибелах, однако это сопряжено с трудностями чисто технического характера.
Временная дискретизация и амплитудное квантование сигнала неизбежно вносят в сигнал шумовые искажения. В большинстве современных цифровых звуковых систем используются стандартные частоты дискретизации 44.1 и 48 кГц, однако частотный диапазон сигнала обычно ограничивается возле 20 кГц для оставления запаса по отношению к теоретическому пределу. Также наиболее распространено 16-разрядное квантование по уровню, что дает предельное соотношение сигнал/шум около 98 дБ. В студийной аппаратуре используются более высокие разрешения - 18-, 20, 24 и 32-разрядное квантование при частотах дискретизации 56, 96 и 192 кГц. Это делается для того, чтобы сохранить высшие гармоники звукового сигнала, которые непосредственно не воспринимаются
слухом, но влияют на формирование общей звуковой картины.
Для оцифровки более узкополосных и менее качественных сигналов частота и разрядность дискретизации могут снижаться (например, в телефонных линиях применяется 7или 8-разрядная оцифровка с частотами 8..12 кГц).
Сам цифровой звук и относящиеся к нему вещи принято обозначать общим термином Digital Audio; аналоговая и цифровая части звуковой системы обозначаются терминами Analog Domain и Digital Domain.
Что такое АЦП и ЦАП?
Аналогово-цифровой и цифро-аналоговый преобразователи. Первый преобразует аналоговый сигнал в цифровое значение амплитуды, второй выполняет обратное преобразование.
В англоязычной литературе применяются термины ADC и DAC, а совмещенный преобразователь называют codec (coder-decoder).
Принцип работы АЦП состоит в измерении уровня входного сигнала и выдаче результата в цифровой форме. В результате работы АЦП непрерывный аналоговый сигнал превращается в импульсный, с одновременным измерением амплитуды каждого импульса. ЦАП получает на входе цифровое значение амплитуды и выдает на выходе импульсы напряжения или тока нужной величины, которые расположенный за ним интегратор (аналоговый фильтр) превращает в непрерывный аналоговый сигнал.
Для правильной работы АЦП входной сигнал не должен изменяться в течение времени преобразования, для чего на его входе обычно помещается схема выборки-хранения, фиксирующая мгновенный уровень сигнала и сохраняющая его в течение всего времени преобразования. На выходе ЦАП также может устанавливаться подобная схема, подавляющая влияние переходных процессов внутри ЦАП на параметры выходного сигнала.
При временной дискретизации спектр полученного импульсного сигнала в своей нижней части 0..Fa повторяет спектр исходного сигнала, а выше содержит ряд отражений (aliases, зеркальных спектров), которые расположены вокруг частоты дискретизации Fd и ее гармоник. При этом первое отражение спектра от частоты Fd в случае Fd = 2Fa располагается непосредственно за полосой исходного сигнала, и требует для его подавления аналогового фильтра (anti-alias filter) с высокой крутизной среза. В АЦП этот фильтр устанавливается на входе, чтобы исключить перекрытие спектров и их интерференцию, а в ЦАП - на выходе, чтобы подавить в выходном сигнале надтональные помехи, внесенные временной дискретизацией.
Что такое Dithering и Noise Shaping?
Методы обработки цифрового звукового сигнала, направленные на улучшение субъективного качества звучания ценой очевидного ухудшения его объективных характеристик (прежде всего - коэффициента нелинейных искажений и соотношения сигнал/шум).
Dithering (сглаживание) заключается в добавлении к сигналу небольшого количества шума (псевдослучайного цифрового сигнала) разного спектра (белый, розовый и т.п.). При этом заметно ослабляется корреляция ошибок квантования с полезным сигналом ("рассеиваются" ошибки округления) и, несмотря на некоторое увеличение шума, субъективное качество звучания заметно повышается. Уровень добавляемого шума выбирается в зависимости от задачи и колеблется от половины младшего разряда отсчета до нескольких разрядов.
Noise Shaping (формовка шума) заключается в преобразовании сильно зашумленного полезного сигнала с целью вытеснения чисто шумовых компонент в надтональную область с выделением в нижней части спектра основной энергии полезного сигнала. По существу, Noise Shaping является одним из видов PWM (Pulse Width Modulation - широтно-импульсная модуляция, ШИМ) с дискретной шириной импульса. Сигнал, обработанный этим методом, требует обязательной фильтрации с подавлением высоких частот - это выполняется либо цифровым, либо аналоговым способом.
Основное применение Noise Shaping находит в области представления цифровых сигналов отсчетами меньшей разрядности с повышенной частотой следования. В delta-sigma ЦАП для повышения частоты следования отсчетов увеличивается в десятки раз частота дискретизации, на которой из исходных многоразрядных отсчетов формируются серии отсчетов разрядностью 1..3. Низкочастотная часть спектра потока этих отсчетов с высокой точностью повторяет спектр исходного сигнала, а высокочастотная
содержит в основном чистый шум.
В случае преобразования цифрового сигнала к отсчетам более низкой разрядности на той же частоте дискретизации Noise Shaping выполняется вместе с операцией Dithering"а. Поскольку в этом случае повышение частоты дискретизации невозможно, вместо этого спектр добавляемого шума формируется таким образом, чтобы его низко и среднечастотная часть максимально точно повторяла слабую часть сигнала, заключенную в отсекаемых младших разрядах отсчетов. Благодаря этому основная энергия шума вытесняется в верхнюю часть рабочего диапазона частот, а в наиболее слышимой области остаются вполне разборчивые следы слабого сигнала,
который иначе оказался бы полностью уничтоженным. Несмотря на то, что объективные искажения сохраненного таким образом слабого сигнала очень велики, его субъективное восприятие остается вполне приемлемым, позволяя воспринимать на слух компоненты, уровень которых меньше младшего разряда отсчета.
По существу, Dithering и Noise Shaping являются частными случаями одной технологии - с той разницей, что в первом случае используется белый шум с равномерным спектром, а во втором - шум со спектром, специально сформированным под конкретный сигнал. Данная технология приводит к "нестандартному" использованию цифрового формата, основанному на особенностях человеческого слуха.
К наружному уху относятся ушная раковина, слуховой проход и барабанная перепонка, которая закрывает внутренний конец слухового прохода. Слуховой проход имеет неправильную изогнутую форму. У взрослого человека длина его составляет около 2,5 см, а диаметр около 8 мм. Поверхность слухового прохода покрыта волосками и содержит железы, выделяющие ушную серу, которая необходима для поддержания влажности кожи. Слуховой проход обеспечивает также постоянную температуру и влажность барабанной перепонки.
- Среднее ухо
Среднее ухо – это заполненная воздухом полость за барабанной перепонкой. Эта полость соединяется с носоглоткой посредством евстахиевой трубы – узкого хрящевого канала, который обычно находится в закрытом состоянии. Глотательные движения открывают евстахиеву трубу, что обеспечивает поступление воздуха в полость и выравнивание давления по обе стороны барабанной перепонки для ее оптимальной подвижности. В полости среднего уха находятся три миниатюрные слуховые косточки: молоточек, наковальня и стремя. Одним концом молоточек соединен с барабанной перепонкой, другой его конец связан с наковальней, которая, в свою очередь соединена со стременем, а стремя с улиткой внутреннего уха. Барабанная перепонка постоянно колеблется под действием улавливаемых ухом звуков, а слуховые косточки передают ее колебания во внутреннее ухо.
- Внутреннее ухо
Во внутреннем ухе содержится несколько структур, но к слуху отношение имеет только улитка, получившая свое название из-за спиральной формы. Улитка разделена на три канала, заполненные лимфатическими жидкостями. Жидкость в среднем канале отличается по составу от жидкости в двух других каналах. Орган, непосредственно ответственный за слух (Кортиев орган), находится в среднем канале. Кортиев орган содержит около 30000 волосковых клеток, которые улавливают колебания жидкости в канале, вызванные движением стремени, и генерируют электрические импульсы, которые по слуховому нерву передаются к слуховой зоне коры головного мозга. Каждая волосковая клетка реагирует на определенную звуковую частоту, причем высокие частоты улавливаются клетками нижней части улитки, а клетки, настроенные на низкие частоты, располагаются в верхней части улитки. Если волосковые клетки по каким-либо причинам гибнут, человек перестает воспринимать звуки соответствующих частот.
- Слуховые проводящие пути
Слуховые проводящие пути – это совокупность нервных волокон, проводящих нервные импульсы от улитки к слуховым центрам коры головного мозга, в результате чего возникает слуховое ощущение. Слуховые центры расположены в височных долях головного мозга. Время, потраченное на прохождение слухового сигнала от внешнего уха к слуховым центрам мозга, составляет около 10 миллисекунд.
Как устроено ухо человека (рисунок предоставлен фирмой Siemens)
Восприятие звука
Ухо последовательно преобразует звуки в механические колебания барабанной перепонки и слуховых косточек, затем в колебания жидкости в улитке и, наконец, в электрические импульсы, которые по проводящим путям центральной слуховой системы передаются в височные доли мозга для распознавания и обработки.
Мозг и промежуточные узлы слуховых проводящих путей извлекают не только информацию о высоте и громкости звука, но и другие характеристики звука, например, интервал времени между моментами улавливания звука правым и левым ухом – на этом основана способность человека определять направление, по которому приходит звук. При этом мозг оценивает как информацию, полученную от каждого уха в отдельности, так и объединяет всю полученную информацию в единое ощущение.
В нашем мозгу хранятся «шаблоны» окружающих нас звуков – знакомых голосов, музыки, опасных звуков и т.д. Это помогает мозгу в процессе обработки информации о звуке быстрее отличить знакомые звуки от незнакомых. При снижении слуха мозг начинает получать искаженную информацию (звуки становятся более тихими), что приводит к ошибкам в интерпретации звуков. С другой стороны, нарушения в работе мозга в результате старения, травмы головы или неврологических болезней и расстройств могут сопровождаться симптомами, похожими на симптомы снижения слуха, например, невнимательность, отрешенность от окружения, неадекватная реакция. Для того чтобы правильно слышать и понимать звуки, необходима согласованная работа слухового анализатора и мозга. Таким образом, без преувеличения можно сказать, что человек слышит не ушами, а мозгом!
Клетки, воспринимающие звуки, находятся в перепончатой капсуле — улитке, спрятанной в глубине черепа. Улитка — это спирально закрученная трубка, заполненная жидкостью. Вместе с органом равновесия — тремя полукружными каналами — улитка образует так называемый лабиринт. Овальное окно соединяет улитку со средним ухом, костной полостью, лежащей в преддверии улитки. Это окно затянуто тонкой кожистой пленкой. Она реагирует на любые колебания воздуха, уловленные ушной раковиной и попавшие в наружный слуховой проход. Расскажем подробнее о том, как это происходит.
Сначала колебания воздуха заставляют вибрировать барабанную перепонку — тончайшую пластинку, перегораживающую наружный слуховой проход. Далее вибрация передается по крохотным слуховым косточкам: молоточку, наковальне и стремечку. Эти косточки, словно мостик, протянулись по всему среднему уху, соединяя барабанную перепонку с улиткой. Вот и получается, что пленка, закрывающая овальное окно, реагирует на любые колебания воздуха. Далее вибрации передаются жидкости, заполняющей улитку. Перекатывающиеся по ней волны раздражают слуховые клетки внутреннего уха. Головной мозг улавливает эти раздражения и распознает в них звуки. К сказанному добавим то же, что мы говорили и о зрении. Природа снабдила нас двумя ушами, поэтому мы можем определить, откуда до нас долетел звук. Итак, у нас есть не только пространственное зрение, но и объемный слух. Там же, в лабиринте, рядом с улиткой, протянулись три полукружных канала: горизонтальный и два вертикальных, причем один из них выгнут вперед, а другой — вбок. Таким образом, каналы расположены в трех взаимно перпендикулярных плоскостях. Это и есть вестибулярный аппарат, или орган равновесия.
Звуковые волны, распространяющиеся в воздухе, проделают сложный путь, прежде чем мы воспримем их. Сначала они проникают в ушную раковину и заставляют вибрировать барабанную перепонку, замыкающую наружный слуховой проход. Слуховые косточки доносят эти колебания до овального окна внутреннего уха. Пленка, которая закрывает окно, передает вибрации заполняющей улитку жидкости. Наконец колебания достигают слуховых клеток внутреннего уха. Головной мозг воспринимает зги сигналы и распознает в них шумы, звуки, музыку, речь.
Когда человек меняет положение тела, полукружные каналы — дугообразные трубочки тоже движутся вместе с ним, тогда как жидкость, заполняющая их, инерционна, она не поспевает за нашими движениями и, следовательно, смещается относительно стенок канала. Специальные клетки —рецепторы следят за перемещениями жидкости в полукружных каналах. Обо всем замеченном они сообщают головному мозгу, и тот обрабатывает поступившую информацию. Рецепторные клетки органа равновесия погружены в жидкость, заполняющую внутреннее ухо. Они фиксируют любые ее движения и извещают о них мозжечок, который собирает и сопоставляет все эти сообщения. После этого все органы тела получают нужную информацию и различные приказы, что и помогает человеку поддерживать равновесие. О результатах тут же сообщается в большой мозг.
Во внутреннем ухе вплотную друг к другу располагаются орган слуха (улитка) и орган равновесия (лабиринт). В улитке тонкая пленка — мембрана преобразует звуковые волны в волновые движения жидкости. Волны жидкости посредством сложного механизме возбуждают слуховые клетки. Лабиринт, расположенный позади улитки, фиксирует любое движение человека.
Слуховая система человека – сложный и вместе с тем очень интересно устроенный механизм. Чтобы более ясно представить себе, что для нас есть звук, нужно разобраться с тем, что и как мы слышим.
В анатомии ухо человека принято делить на три составные части: наружное ухо, среднее ухо и внутреннее ухо. К наружному уху относится ушная раковина, помогающая сконцентрировать звуковые колебания, и наружный слуховой канал. Звуковая волна, попадая в ушную раковину, проходит дальше, по слуховому каналу (его длина составляет около 3 см, а диаметр - около 0.5) и попадает в среднее ухо, где ударяется о барабанную перепонку, представляющую собой тонкою полупрозрачную мембрану. Барабанная перепонка преобразует звуковую волну в вибрации (усиливая эффект от слабой звуковой волны и ослабляя от сильной). Эти вибрации передаются по присоединенным к барабанной перепонке косточкам - молоточку, наковальне и стремечку – во внутреннее ухо, представляющее собой завитую трубку с жидкостью диаметром около 0.2 мм и длинной около 4 см. Эта трубка называется улиткой. Внутри улитки находится еще одна мембрана, называемая базилярной, которая напоминает струну длиной 32 мм, вдоль которой располагаются чувствительные клетки (более 20 тысяч волокон). Толщина струны в начале улитки и у ее вершины различна. В результате такого строения мембрана резонирует разными своими частями в ответ на звуковые колебания разной высоты. Так, высокочастотный звук затрагивает нервные окончания, располагающиеся в начале улитки, а звуковые колебания низкой частоты – окончания в ее вершине. Механизм распознавания частоты звуковых колебаний достаточно сложен. В целом он заключается в анализе месторасположения затронутых колебаниями нервных окончаний, а также в анализе частоты импульсов, поступающих в мозг от нервных окончаний.
Существует целая наука, изучающая психологические и физиологические особенности восприятия звука человеком. Эта наука называется психоакустикой . В последние несколько десятков лет психоакустика стала одной из наиболее важных отраслей в области звуковых технологий, поскольку в основном именно благодаря знаниям в области психоакустики современные звуковые технологии получили свое развитие. Давайте рассмотрим самые основные факты, установленные психоакустикой.
Основную информацию о звуковых колебаниях мозг получает в области до 4 кГц. Этот факт оказывается вполне логичным, если учесть, что все основные жизненно необходимые человеку звуки находятся именно в этой спектральной полосе, до 4 кГц (голоса других людей и животных, шум воды, ветра и проч.). Частоты выше 4 кГц являются для человека лишь вспомогательными, что подтверждается многими опытами. В целом, принято считать, что низкие частоты «ответственны» за разборчивость, ясность аудио информации, а высокие частоты – за субъективное качество звука. Слуховой аппарат человека способен различать частотные составляющие звука в пределах от 20-30 Гц до приблизительно 20 КГц. Указанная верхняя граница может колебаться в зависимости от возраста слушателя и других факторов.
В спектре звука большинства музыкальных инструментов наблюдается наиболее выделяющаяся по амплитуде частотная составляющая. Ее называют основной частотой или основным тоном . Основная частота является очень важным параметром звучания, и вот почему. Для периодических сигналов, слуховая система человека способна различать высоту звука. В соответствии с определением международной организации стандартов, высота звука - это субъективная характеристика, распределяющая звуки по некоторой шкале от низких к высоким. На воспринимаемую высоту звука влияет, главным образом, частота основного тона (период колебаний), при этом общая форма звуковой волны и ее сложность (форма периода) также могут оказывать влияние на нее. Высота звука может определяться слуховой системой для сложных сигналов, но только в том случае, если основной тон сигнала является периодическим (например, в звуке хлопка или выстрела тон не является периодическим и по сему слух не способен оценить его высоту).
Вообще, в зависимости от амплитуд составляющих спектра, звук может приобретать различную окраску и восприниматься как тон или как шум . В случае если спектр дискретен (то есть, на графике спектра присутствуют явно выраженные пики), то звук воспринимается как тон, если имеет место один пик, или как созвучие , в случае присутствия нескольких явно выраженных пиков. Если же звук имеет сплошной спектр, то есть амплитуды частотных составляющих спектра примерно равны, то на слух такой звук воспринимается как шум. Для демонстрации наглядного примера можно попытаться экспериментально «изготовить» различные музыкальные тона и созвучия. Для этого необходимо к громкоговорителю через сумматор подключить несколько генераторов чистых тонов (осцилляторов) . Причем, сделать это таким образом, чтобы была возможность регулировки амплитуды и частоты каждого генерируемого чистого тона. В результате проделанной работы будет получена возможность смешивать сигналы от всех осцилляторов в желаемой пропорции, и тем самым создавать совершенно различные звуки. Поученный прибор явит собой простейший синтезатор звука.
Очень важной характеристикой слуховой системы человека является способность различать два тона с разными частотами. Опытные проверки показали, что в полосе от 0 до 16 кГц человеческий слух способен различать до 620 градаций частот (в зависимости от интенсивности звука), при этом примерно 140 градаций находятся в промежутке от 0 до 500 Гц.
На восприятии высоты звука для чистых тонов сказываются также интенсивность и длительность звучания. В частности, низкий чистый тон покажется еще более низким, если увеличить интенсивность его звучания. Обратная ситуация наблюдается с высокочастотным чистым тоном – увеличение интенсивности звучания сделает субъективно воспринимаемую высоту тона еще более высокой.
Длительность звучания сказывается на воспринимаемой высоте тона критическим образом. Так, очень кратковременное звучание (менее 15 мс) любой частоты покажется на слух просто резким щелчком – слух будет неспособен различить высоту тона для такого сигнала. Высота тона начинает восприниматься лишь спустя 15 мс для частот в полосе 1000 – 2000 Гц и лишь спустя 60 мс – для частот ниже 500 Гц. Это явление называется инерционностью слуха . Инерционность слуха связана с устройством базилярной мембраны. Кратковременные звуковые всплески не способны заставить мембрану резонировать на нужной частоте, а значит мозг не получает информацию о высоте тона очень коротких звуков. Минимальное время, требуемое для распознавания высоты тона, зависит от частоты звукового сигнала, а, точнее, от длины волны. Чем выше частота звука, тем меньше длина звуковой волны, а значит тем быстрее «устанавливаются» колебания базилярной мембраны.
В природе мы почти не сталкиваемся с чистыми тонами. Звучание любого музыкального инструмента является сложным и состоит из множества частотных составляющих. Как мы сказали выше, даже для таких звуков слух способен установить высоту их звучания, в соответствии с частотой основного тона и/или его гармоник. Тем не менее, даже при одинаковой высоте звучания, звук, например, скрипки отличается на слух от звука рояля. Это связано с тем, что помимо высоты звучания слух способен оценить также общий характер, окрас звучания, его тембр . Тембром звука называется такое качество восприятия звука, которое, в не зависимости от частоты и амплитуды, позволяет отличить одно звучание от другого. Тембр звука зависит от общего спектрального состава звучания и интенсивности спектральных составляющих, то есть от общего вида звуковой волны, и фактически не зависит от высоты основного тона. Немалое влияние на тембр звучания оказывает явление инерционности слуховой системы. Это выражается, например, в том, что на распознавание тембра слуху требуется около 200 мс.
Громкость звука – это одно из тех понятий, которые мы употребляем ежедневно, не задумываясь при этом над тем, какой физический смысл оно несет. Громкость звука – это психологическая характеристика восприятия звука, определяющая ощущение силы звука. Громкость звука, хотя и жестко связана с интенсивностью, но нарастает непропорционально увеличению интенсивности звукового сигнала. На громкость влияет частота и длительность звукового сигнала. Чтобы правильно судить о связи ощущения звука (его громкости) с раздражением (уровнем силы звука), нужно учитывать, что изменение чувствительности слухового аппарата человека не точно подчиняется логарифмическому закону.
Существуют несколько единиц измерения громкости звука. Первая единица – «фон » (в англ. обозначении - « phon»). Говорят, «уровень громкости звука составляет n фон», если средний слушатель оценивает сигнал как равный по громкости тону с частотой 1000 Гц и уровнем давления в n дБ. Фон, как и децибел, по сути не является единицей измерения, а представляет собой относительную субъективную характеристику интенсивности звука. На рис. 5 представлен график с кривыми равных громкостей.
Каждая кривая на графике показывает уровень равной громкости с начальной точкой отсчета на частоте 1000 Гц. Иначе говоря, каждая линия соответствует некоторому значению громкости, измеренной в фонах. Например, линия «10 фон» показывает уровни сигнала в дБ на разных частотах, воспринимаемых слушателем как равные по громкости сигналу с частотой 1000 Гц и уровнем 10 дБ. Важно заметить, что приведенные кривые не являются эталонными, а приведены в качестве примера. Современные исследования ясно свидетельствуют, что вид кривых в достаточной степени зависит от условий проведения измерений, акустических характеристик помещения, а также от типа источников звука (громкоговорители, наушники). Таким образом, эталонного графика кривых равных громкостей не существует.
Важной деталью восприятия звука слуховым аппаратом человека является так называемый порог слышимости - минимальная интенсивность звука, с которой начинается восприятие сигнала. Как мы видели, уровни равной громкости звука для человека не остаются постоянным с изменением частоты. Иными словами, чувствительность слуховой системы сильно зависит как от громкости звука, так и от его частоты. В частности, и порог слышимости также не одинаков на разных частотах. Например, порог слышимости сигнала на частоте около 3 кГц составляет чуть менее 0 дБ, а на частоте 200 Гц – около 15 дБ. Напротив, болевой порог слышимости мало зависит от частоты и колеблется в пределах 100 – 130 дБ. График порога слышимости представлен на рис. 6. Обратим внимание, что поскольку, острота слуха с возрастом меняется, график порога слышимости в верхней полосе частот различен для разных возрастов.
Частотные составляющие с амплитудой ниже порога слышимости (то есть находящиеся под графиком порога слышимости) оказываются незаметными на слух.
Интересным и исключительно важным является тот факт, что порог слышимости слуховой системы, также как и кривые равных громкостей, является непостоянным в разных условиях. Представленные выше графики порога слышимости справедливы для тишины. В случае проведения опытов по измерению порога слышимости не в полной тишине, а, например, в зашумленной комнате или при наличии какого-то постоянного фонового звука, графики окажутся другими. Это, в общем, совсем не удивительно. Ведь идя по улице и разговаривая с собеседником, мы вынуждены прерывать свою беседу, когда мимо нас проезжает какой-нибудь грузовик, поскольку шум грузовика не дает нам слышать собеседника. Этот эффект называется частотной маскировкой . Причиной появления эффекта частотной маскировки является схема восприятия звука слуховой системой. Мощный по амплитуде сигнал некоторой частоты f m вызывает сильные возмущения базилярной мембраны на некотором ее отрезке. Близкий по частоте, но более слабый по амплитуде сигнал с частотой f уже не способен повлиять на колебания мембраны, и поэтому остается «незамеченным» нервными окончаниями и мозгом.
Эффект частотной маскировки справедлив для частотных составляющих, присутствующих в спектре сигнала в одно и то же время. Однако в виду инерционности слуха, эффект маскировки может распространяться и во времени. Так некоторая частотная составляющая может маскировать другую частотную составляющую даже тогда, когда они появляются в спектре не одновременно, а с некоторой задержкой во времени. Этот эффект называется временн о й маскировкой . В случае, когда маскирующий тон появляется по времени раньше маскируемого, эффект называют пост-маскировкой . В случае же, когда маскирующий тон появляется позже маскируемого (возможен и такой случай), эффект называет пре-маскировкой .
2.5. Пространственное звучание.
Человек слышит двумя ушами и за счет этого способен различать направление прихода звуковых сигналов. Эту способность слуховой системы человека называют бинауральным эффектом . Механизм распознавания направления прихода звуков сложен и, надо сказать, что в его изучении и способах применения еще не поставлена точка.
Уши человека расставлены на некотором расстоянии по ширине головы. Скорость распространения звуковой волны относительно невелика. Сигнал, приходящий от источника звука, находящегося напротив слушателя, приходит в оба уха одновременно, и мозг интерпретирует это как расположение источника сигнала либо позади, либо спереди, но не сбоку. Если же сигнал приходит от источника, смещенного относительно центра головы, то звук приходит в одно ухо быстрее, чем во второе, что позволяет мозгу соответствующим образом интерпретировать это как приход сигнала слева или справа и даже приблизительно определить угол прихода. Численно, разница во времени прихода сигнала в левое и правое ухо, составляющая от 0 до 1 мс, смещает мнимый источник звука в сторону того уха, которое воспринимает сигнал раньше. Такой способ определения направления прихода звука используется мозгом в полосе частот от 300 Гц до 1 кГц. Направление прихода звука для частот расположенных выше 1 кГц определяется мозгом человека путем анализа громкости звука. Дело в том, что звуковые волны с частотой выше 1 кГц быстро затухают в воздушном пространстве. Поэтому интенсивность звуковых волн, доходящих до левого и правого ушей слушателя, отличаются на столько, что позволяет мозгу определять направление прихода сигнала по разнице амплитуд. Если звук в одном ухе слышен лучше, чем в другом, следовательно источник звука находится со стороны того уха, в котором он слышен лучше. Немаловажным подспорьем в определении направления прихода звука является способность человека повернуть голову в сторону кажущегося источника звука, чтобы проверить верность определения. Способность мозга определять направление прихода звука по разнице во времени прихода сигнала в левое и правое ухо, а также путем анализа громкости сигнала используется в стереофонии .
Имея всего два источника звука можно создать у слушателя ощущение наличия мнимого источника звука между двумя физическими. Причем этот мнимый источник звука можно «расположить» в любой точке на линии, соединяющей два физических источника. Для этого нужно воспроизвести одну аудио запись (например, со звуком рояля) через оба физических источника, но сделать это с некоторой временно й задержкой в одном из них и соответствующей разницей в громкости. Грамотно используя описанный эффект можно при помощи двухканальной аудио записи донести до слушателя почти такую картину звучания, какую он ощутил бы сам, если бы лично присутствовал, например, на каком-нибудь концерте. Такую двухканальную запись называют стереофонической. Одноканальная же запись называется монофонической .
На самом деле, для качественного донесения до слушателя реалистичного пространственного звучания обычной стереофонической записи оказывается не всегда достаточно. Основная причина этого кроется в том, что стерео сигнал, приходящий к слушателю от двух физических источников звука, определяет расположение мнимых источников лишь в той плоскости, в которой расположены реальные физические источники звука. Естественно, «окружить слушателя звуком» при этом не удается. По большому счету по той же причине заблуждением является и мысль о том, что объемное звучание обеспечивается квадрофонической (четырехканальной) системой (два источника перед слушателем и два позади него). В целом, путем выполнения многоканальной записи нам удается лишь донести до слушателя тот звук, каким он был «услышан» расставленной нами звукопринимающей аппаратурой (микрофонами), и не более того. Для воссоздания же более или менее реалистичного, действительно объемного звучания прибегают к применению принципиально других подходов, в основе которых лежат более сложные приемы, моделирующие особенности слуховой системы человека, а также физические особенности и эффекты передачи звуковых сигналов в пространстве.
Одним из таких инструментов является использование функций HRTF (Head Related Transfer Function). Посредством этого метода (по сути – библиотеки функций) звуковой сигнал можно преобразовать специальным образом и обеспечить достаточно реалистичное объемное звучание, рассчитанное на прослушивание даже в наушниках.
Суть HRTF – накопление библиотеки функций, описывающих психофизическую модель восприятия объемности звучания слуховой системой человека. Для создания библиотек HRTF используется искусственный манекен KEMAR (Knowles Electronics Manikin for Auditory Research) или специальное «цифровое ухо». В случае использования манекена суть проводимых измерений состоит в следующем. В уши манекена встраиваются микрофоны, с помощью которых осуществляется запись. Звук воспроизводится источниками, расположенными вокруг манекена. В результате, запись от каждого микрофона представляет собой звук, «прослушанный» соответствующим ухом манекена с учетом всех изменений, которые звук претерпел на пути к уху (затухания и искажения как следствия огибания головы и отражения от разных ее частей). Расчет функций HRTF производится с учетом исходного звука и звука, «услышанного» манекеном. Собственно, сами опыты заключаются в воспроизведении разных тестовых и реальных звуковых сигналов, их записи с помощью манекена и дальнейшего анализа. Накопленная таким образом база функций позволяет затем обрабатывать любой звук так, что при его воспроизведении через наушники у слушателя создается впечатление, будто звук исходит не из наушников, а откуда-то из окружающего его пространства.
Таким образом, HRTF представляет собой набор трансформаций, которые претерпевает звуковой сигнал на пути от источника звука к слуховой системе человека. Рассчитанные однажды опытным путем, HRTF могут быть применены для обработки звуковых сигналов с целью имитации реальных изменений звука на его пути от источника к слушателю. Не смотря на удачность идеи, HRTF имеет, конечно, и свои отрицательные стороны, однако в целом идея использования HRTF является вполне удачной. Использование HRTF в том или ином виде лежит в основе множества современных технологий пространственного звучания, таких как технологии QSound 3 D (Q3 D), EAX, Aureal3 D (A3 D) и другие.