Спектрограмма звука – Программа может представить звук как спектрограмму, графическое отображение формы волны, диаграмму изменения частоты тона, диаграмму интенсивности, длительности и формантной составляющей.

Анализ звуков

Звук и основные свойства звуковых волн

Анализ звуков

В настоящее время анализ звуков осуществляется с помощью электронных устройств, таких, как анализаторы частот и динамические спектрографы, или сонографы. В первом случае представляется возможность оценивать амплитудно-частотные характеристики звука, но без учета изменений свойств звука во времени. Применение динамических спектрографов дает возможность рассматривать звук в системе трех координат: частота и амплитуда колебаний, и время. Выраженность его спектральных составляющих, то есть интенсивность звучания, отражается на динамической спектрограмме степенью ее затемнения. Изображение сложных звуков в виде динамических спектров впервые было применено для анализа речи и получило название «видимая речь». Пока это является единственным более или менее удовлетворительным приемом преобразования звукового образа в зрительный. Глядя на динамическую спектрограмму, конечно, мы не слышим звука, однако тренированные люди на основе таких «картин» звуков могут даже их имитировать. Для того чтобы в какой-то мере научиться читать динамические спектрограммы, обратимся к примерам.

В качестве первого примера рассмотрим динамическую спектрограмму звука «и», выделенного из слитной речи. На представленной здесь фотографии спектрограммы слева от нее по вертикали изображена шкала частот, соответствующая набору фильтров динамического спектрографа. Каждый из этих фильтров реагирует лишь на определенный узкий диапазон частот и в случае наличия именно таких частот в сигнале отражает их в спектрограмме затемнением той или иной плотности. Диапазон частот, на которые реагирует фильтр, называют полосой пропускания фильтра. Прибор, используемый для анализа данного звука «и», имел 48 фильтров; их полосы пропускания соответствовали значениям частотной избирательности слуха человека. Если фильтры различны по ширине пропускания, то шкала частот на динамической спектрограмме приобретает сложный вид и состоит из разных участков — как с логарифмическим, так и с линейным масштабом. Однако в биоакустических работах применяют и такие динамические спектрографы, у фильтров которых ширина полос пропускания одинакова. Поэтому спектрограммы, полученные с помощью такого прибора, имеют простую, то есть линейную, шкалу частот. Чаще всего берутся фильтры с довольно широкой полосой пропускания — порядка 300 герц. Эта величина указывает на разрешающую способность по частоте динамического спектрографа.


3. Динамическая спектрограмма звука «и», выделенного из слитной речи. Шкала частот сложная и состоит из разных участков — как в линейном, так и в логарифмическом масштабе. Вертикальные линии — метки времени: период следования равен 0,1 секунды. Три участка с наибольшей плотностью потемнения (F1, F2, F3) являются формантными частотами данного гласного звука. На спектрограмме видно, что звук частотно-модулирован по второй форманте.

Однако вернемся к рассматриваемой динамической спектрограмме. Длина ее соответствует продолжительности звука «и», которая в данном случае равна 0,2 секунды. На спектрограмме видны несколько зон почернения, отражающих наличие звуковой энергии в тех или иных областях частот, что указывает на присутствие тех или иных спектральных составляющих. Эти зоны почернения называют спектральными максимумами. Самые плотные почернения соответствуют областям формантных частот, каждая из которых представляет собой совокупность нескольких гармоник. Однако на динамической спектрограмме звука «и» они слились в одну область почернения, так как частота основного тона звуков речи (определяющая, как уже отмечалось, расстояние между соседними гармониками) меньше ширины полосы пропускания фильтров спектрографа, с помощью которого произведен анализ этого звука. В силу ограниченных возможностей прибора на данной динамической спектрограмме отсутствует и частота основного тона. Обычно ее определяют с помощью другого, специально предназначенного для этой цели прибора — интонографа.

Рассматривая динамическую спектрограмму звука «и», можно отметить, что одна, а именно вторая форманта постепенно опускается вниз. Это означает изменение (в данном случае — понижение) частоты этой форманты во времени и отражает одну из физических характеристик звука — его частотную модуляцию. Частотная модуляция может иметь разную форму и глубину. Но ее может и не быть совсем, и тогда звук характеризуется как стабильный по частоте. На другой динамической спектрограмме представлены результаты анализа звука визга малыша ондатры, близкого по звучанию к звуку «и», но более громкого и более продолжительного. Здесь частота каждого спектрального максимума изменяется в больших пределах. Другим предстает и характер изменения частоты во времени. Ввиду того, что частота основного тона голоса грызуна выше, чем у человека, на динамической спектрограмме она хорошо видна — это самая низкая по частоте область потемнения. Отчетливо видны и гармоники, представленные здесь в виде трех черных полос, форма которых аналогична форме кривой, отражающей частоту основного тона. Кроме того, в начале и в конце динамической спектрограммы визга легко обнаружить участки с равномерным распределением звуковой энергии в довольно широкой области частот. Это участки звука с так называемым шумовым заполнением.


4. Динамическая спектрограмма визга ондатренка. Шкала частот, как и в предыдущем рисунке, сложная. Вертикальные линии на спектрограмме — метки времени, они следуют с периодом 0,1 секунды. На спектрограмме хорошо видны частота основного тона, соответствующая первой гармонике (f1), и высшие гармоники ([f2, f3, f4). Звук частотно-модулирован. В начале и конце спектрограммы отчетливо видны более или менее равномерно затемненные участки — это участки с шумовым заполнением.

На третьей из помещенных здесь фотографий в качестве примера представлено название нашей книги в двух вариантах — в виде текста и в виде динамической спектрограммы произнесенной фразы. Внимательно изучим все три примера, это поможет нам перекинуть мост через пропасть, разделяющую в нашем сознании звук и графическое представление о нем.


5. Динамическая спектрограмма прочитанного вслух названия нашей книги.

www.animalsbb.ru

Спектр звука. Звуки речи на спектрограмме

На форме спектра звука и основана акустическая классификация. В ней последовательно проводится двоичное (бинарное, дихотомическое) противопоставление звуков речи по каждому признаку: низкие — высокие звуки, резкие — нерезкие и т. д.

Все звуки делятся на тоны и шумы. Звуки с периодическими, гармоническими колебаниями — тоны. Звуки, возникающие в результате ряда непериодических колебаний, называются шумами. В речи тоновые звуки образуются с участием голосовых связок. Шумы образуются при возникновении каких-либо препятствий в полости рта. Гласные — тоновые звуки, глухие согласные — шумовые. Сонорные согласные — тоновые со слабой примесью шума, звонкие шумные — шумовые с участием тона.

Всякий тоновый звук речи состоит из многих простых колебаний, т. е. колебаний определенной частоты (их называют гармониками). Если мы отложим на графике по горизонтальной оси частоты этих гармоник в герцах, а по вертикальной оси — значения интенсивности в децибелах, то получится спектр этого звука.

Области усиления энергии в спектре звука называются формантами. Поскольку звуки речи имеют протяженность во времени, их спектры удобно представлять с учетом трех характеристик: частоты, интенсивности и времени. На таких спектрограммах по горизонтальной оси отложена длительность, по вертикальной — частота. Об интенсивности свидетельствует степень потемнения различных участков спектрограммы.

Спектр гласного отличается значительно большим уровнем энергии, об этом свидетельствует степень потемнения участков спектрограммы. Кроме того, на спектрограмме гласного отчетливо видны форманты — полосы усиления энергии, идущие параллельно горизонтальной оси.

На спектрограмме согласного уровень энергии несравненно ниже, шумовые спектральные составляющие расположены в высокочастотной области спектра. Они не образуют формант, а представлены в хаотическом беспорядке.

По форме спектра звуки речи могут быть:

1. Вокальные — невокальные. Для характеристики звука по этому признаку важно, есть ли в его спектре формантная структура, т. е. отчетливо выраженное регулярное усиление определенных частотных составляющих.

Вокальными являются все гласные и сонорные согласные, невокальными — шумные согласные.

2. Консонантные — неконсонантные. Признак консонантности связан с общим уровнем энергии в спектре: звуки со слабым уровнем консонантны, звуки с высоким уровнем энергии неконсонантны. К первой группе относятся все согласные, в том числе и сонорные, ко второй группе — гласные.

3. Высокие — низкие. Для этих звуков важно, в какой части спектра преимущественно расположены составляющие — в области низких частот или высоких.

Высокие — гласные переднего ряда, передне- и среднеязычные согласные, низкие — все непередние гласные, губные и заднеязычные согласные.

4. Компактные — диффузные. Компактность звука определяется относительной близостью усиленных составляющих друг к другу и одновременно к центру спектра (1000 Гц). Диффузные звуки не обладают этим качеством.

Диффузные — гласные верхнего подъема, а также губные и зубные согласные. Все остальные звуки речи компактны.

5. Диезные — недиезные. Признак диезности связан с более высоким положением в спектре одной или нескольких областей усиления энергии.

Диезные — мягкие согласные, а также гласные переднего ряда и те гласные, которые мы произносим между мягкими согласными. Все твердые согласные и непередние гласные недиезны.

6. Бемольные — небемольные. Бемольность — понижение всех или нескольких спектральных составляющих звука. Бемольны огубленные гласные и согласные, остальные небемольны.

7. Прерванные — непрерывные. У прерванных звуков начало отличается большим расходом энергии, который затем не возрастает. У непрерывных расход энергии относительно равномерно распределен во времени. Прерванные — смычные согласные. Непрерывные — все гласные и несмычные согласные.

8. Резкие — нерезкие. Резкие звуки — с явно выраженной неоднородностью спектра. Это аффрикаты и дрожащие согласные. Все остальные звуки речи — нерезкие.

9. Звонкие — глухие. Звонкие звуки — гласные и звонкие согласные — имеют в спектре самую низкую интенсивную составляющую (до 300 Гц), которая соответствует основному тону звука. Этот тон создается колебаниями голосовых связок.

studopedya.ru

Скрытые послания в музыке / Хабр

Нетрудно вообразить места применения знаний того, как в неявном виде поделиться какой-то информацией, введенной в артефакты массовой культуры. Сегодня в большинстве случаев в скрытии каких-то посланий в музыке нет ровно никакой практической нужды — это лишь приятные бонусы для особенно ярых поклонников музыкальных коллективов. Вплетение посланий в слова песен и меняющиеся краски рисунков в оформлении музыкальных альбомов здесь, конечно, не рассматриваются.

Начнем с простых способов, не имеющих отношения к информатике и вычислительной технике. Наиболее очевидно наложить такие звуки, которые в воспроизведении грампластинки в обратную сторону на бытовом электропроигрывателе или специальной аппаратуре дадут разборчивую человеческую речь.

Потенциал подобной техники увидел ещё изобретатель фонографа Томас Эдисон, а впервые ею воспользовались пионеры электронной музыки в 50-ых годах прошлого века, хотя, конечно, популяризации приемов бэкмаскинга мы обязаны группе Beatles. В частности, под воздействием марихуаны Леннон прокручивал пленки задом наперед, и полученный звук его очень заинтересовал. Первой песней со скрытым сообщением была Rain.

Цензуру таким образом обходил, например, Фрэнк Заппа, звукозаписывающий лейбл которого не пропустил некоторые строчки.


Better look around before you say you don’t care.

Shut your f…ing mouth ’bout the length of my hair.

How would you survive, if you were alive, shitty little person?

Менее известен прием наложения человеческой речи в ускоренном или замедленном виде, которым воспользовался Джими Хендрикс для песни Third Stone from the Sun. Если ускорить версию трэка в издании The Jimi Hendrix Experience: 1966–1967 в два раза (или проигрывать пластинку на 33⅓ оборота в минуту на скорости в 45), можно услышать отчетливый диалог космических пришельцев, изображаемых Джими и его менеджером.


Хендрикс: Star fleet to scout ship, please give your position. Over.

Чэндлер: I am in orbit around the third planet of star known as Sun. Over.

Хендрикс: May this be Earth? Over.

Чэндлер: Positive. It is known to have some form of intelligent species. Over.

Хендрикс: I think we should take a look. (Джими издает звукоподражания космическому кораблю)

Спад интереса к скрытию посланий в обратном направлении или в проигрывании с повышенной скоростью связан, в первую очередь, с переходом на цифровые носители, проигрыватели которых далеко не всегда имеют функционал реверсирования проигрывания и его ускорения. Не стоит скрывать создание в конце 80-х в Калифорнии и некоторых других штатах законопроектов против заложения в музыку сообщений: фанатизм поиска пасхалок помог находить «послания антихриста» практически везде. Начало слухам о смерти Пола Маккартни положил именно бэкмаскинг.

Получить спектрограмму легко, возможно ли восстановить звук по спектрограмме? Да, но со значительными аппроксимациями, что никак не помешает создать музыку, которую нужно не слушать — всё равно получится жуткий металлический звон, — а смотреть. Такой музыкой является, к примеру трэк стороны B сингла Windowlicker британского электронного музыканта Aphex Twin, чаще всего называемый «Уравнение» или «Формула», но имеющий более эпатажное название:

Пропустите до 5:30, чтобы увидеть патентованную ухмылку Ричарда. Прием не был нов даже в 99-ом году: к примеру, вот конец трэка Windowlicker:

Легко догадаться, что будет в трэке Look глитч-альбома Songs About My Cats.

На виниловой пластике возможно напечатать две дорожки, как это иногда случалось. Например, в оригинальном издании The Monty Python Matching Tie and Handkerchief 1973 года мало того, что не были подписаны стороны пластинок, и не имелось списка трэков, так ещё и на стороне B были нанесены две паралелльные друг другу концентрические дорожки. Для прослушивания скрытой песни на «трехсторонней» пластинке была необходима лишь удачная установка иглы.

Такую же выходку провернул Mad Magazine на диске It’s a Super Spectacular Day, только дорожек было 8. На каждой из них красочно расписывались неприятности, которые могут с вами сегодня произойти. Записи в несколько дорожек были популярны ещё в 50-ых, но, как правило, использовались лишь в пластинках с аудиорассказами для детей, что позволяло получить несколько различных историй с одной двухсторонней пластинки.

Формат данных компакт-диска, описанный в Красной книге, допускает так называемый прегап — отступ от первого трэка. По умолчанию, он длится две секунды и содержит тишину. Множество музыкантов размещали в прегапе аудиоматериалы. К сожалению, обновление в Windows 95 сделало невозможным доступ системы к прегапу первого трэка, видимо, ради поддержки формата CD-Extra. Однако цифровые данные можно размещать следующим способом.

Как записать текстовый файл на виниловой пластинке? Американский коллектив Information Society смог без труда это сделать: название трэка 300bps N, 8, 1 (Terminal Mode or Ascii Download) альбома Peace and Love, Inc. явным образом указывало на то, как можно прочесть их послание. Модем на 300 бод позволял получить текстовый файл, содержавший рассказ группы о давлении на них бразильских государственных структур. Непонятно лишь, почему они выбрали столь странный формат для рассказа.Скрытый текстAtz Ok Atx3dt Connect 300

So we’re supposed to play in curitiba in 18 hours, but our bus is being held hostage by the local promoters. they’ve formed some unholy alliance with the brazilian counterpart of ascap: the prs. Rently the prs has the legal power to arrest people, and they want a piece of the national tour promoter’s money. the local security force, “gang mexicana”, has been bought out for 180 Zados and a carton of marlboros each. the only faction still operating in our defense is “big john”, our personal security man, and he’s hiding in his room because a local gang is out Is blood because of a 1982 knifing incident in which he was involved. our 345-pound road manager, rick only had this to say: “you wanted the life of a rock star!”. paul, jim and I real That this was one situation we were going to have to get out of ourselves.

We convened a hasty conference in the hotel lobby. paul suggested contacting our national tour promoter in sao paulo, but we remembered that he was in recife with faith no more, who had just arr For their brazilian tour. we thought about contacting our brazilian record company in rio, but they weren’t home. our ever-diligent american manager was arranging help of numerous forms, but he N new york, and just too far away to get anything moving in time.

And there were 6000 kids in curitiba who just wouldn’t understand.

We knew it was time for action. paul went up to the prs guys and invited them into the bar to discuss it like civilized men over a few brazilian drinks, offering each of them a cigar on his way. Amused prs heavies seemed to like the idea of a few free drinks, even if they knew they would never give us our bus back. when paul winked at jim and I on his way in, we went into action.

I stole off to my room to prepare while jim went into action. creeping carefully through a service duct, he managed to gain a vantage point some three meters above the bus, and dropped carefully The roof. after using his all-purpose swiss army knife (affectionately known as the “skit knife”) to jimmy open the roof hatch, he went through the darkened inside of the bus and remo He inside engine service panel. using some spare electronic parts he found while on an island in the amazon, he wired the entire bus for remote control, not unlike a remote control toy car.

At this point, he asked himself “now how shall I get out of here? !? “

Paul was having difficulties of his own.

“couldn’t you see your way clear to letting us fulfill our contractual obligations in curitiba? think of the kids!”

Through our translator, fabio, the prs man, aldo, said:

no. you americans think you own the world. hah! we’ll burn down our rain forest if we damn well please. we need room for cows!!! we want a mcdonald’s on every… oh, sorry, yes anyway, no. Ed 40% of your concert receipts to give to david bowie,” he said, winking to the local promoter, phillipe.

As paul continuted this elaborate distraction, jim effected an escape from the heavily guarded bus by crawling down into the cargo bay, cutting a hole in the floor with the swiss army knife’s ar Der, slipping into the manhole cover situated under the bus, and walking up to the hotel’s basement from there. jim called up to me in my room and gave the signal. we were now to meet at the bac Rance, with our tech guys. but first, paul would need some help getting away from his unwelcome guests, as things were getting ugly.

“he says he has lost his patience, and that he can think of other ways of extracting payment from you kurt and jim physically,” our trembling interpreter said.

The moment had come. jim began operating the bus from his back entrance vantage point. as the remote-controlled bus lurched towards the parking lot exit, the superstitious security youths fled i Ror. paul was pulling anxiously on his collar as the prs man began describing his collection of world war ii nazi ceremonial knives when a sudden crash split the tableau.

Jim had purchased me the gift of a complete black ninja stealth assassin outfit in aracaju. I had been gearing up and crawling through the air conditioning ducts all this time. as I crashed thro He cheap imitation-styrofoam hung ceiling tiles, skates first, I flashed ninja stars all about me. in the ensuing panic, paul escaped to the pre-arranged bus pick-up point. unfortunately, my ska Ere a poor choice of foot gear for escaping over the broken glass of the table I had landed on. were it not for the confusion and the ninja-star-inflicted-wounds delivered to the bad guys, I wou Ve been set upon while floundering on the glass-strewn carpet. as it happened, however, I leapt through the open door of the careening bus as it departed the city of maringa forever.

If only we had managed to get our equipment in the bus, too…

Every word of this story is true.

Имя трэка CLOAD «Q» альбома Information Retrieved Pt. B — это команда загрузки файла Q в Бейсике TRS-80, персонального компьютера начала 80-ых. Как видно, инди-группа Pinback зачем-то уместила на альбоме игру для давно устаревшего компьютера.

В ранние годы распространения персональной компьютерной техники звук для записи кассет ZX Spectrum вещался даже по телевидению. Встречались и трэки, целиком являющиеся программами, и если это были альбомы на виниле, их нужно было переписать на кассету. Чаще всего этим приемом пользовались коллективы из Великобритании.

К примеру, шестой трэк британских изданий альбома XL1 Пита Шелли содержал пульсации звуков, которые, будучи загруженными в «Спектрум», являли собой рудиментарную графику и тексты песен, воспроизводившиеся синхронно с проигрыванием альбома. Для таких же информационных целей служил трэк Hectic Electric с альбома New Anatomy группы Inner City Unit: программа содержала расписание выступлений, описание коллектива, трэков и т.д.

Thompson Twins выпустили на виниле целую видеоигру. Это типичный текстовый квест, который вряд ли будет интересен людям, никогда не оставлявшим на тетрадном листке карту ходов после часов игры.


Сингл Camouflage Криса Сиви включал созданную музыкантом ужасненькую игрушку Flying Train. Она была примечательна лишь своими взрывами. Крис также написал невключенную в альбом игру The Biz, являющуюся симулятором успешной музыкальной группы, испытывающей бурный карьерный рост.

Наиболее ироничное послание для ZX Spectrum создала шотландская группа Urusei Yatsura: программа просто выводила сообщение «Славьте сатану». В коде также содержались комментарии «Привет, Ник, Робин у вас?», «Сатанинское Послание №3 от Жреца Иуды», «Что грустней: а) находить это б) писать это».

Так или иначе, но музыканты прошлых лет очень много экспериментировали над своими поклонниками, чего сегодня, к сожалению, наблюдается меньше.

habr.com

Анализ качества музыкального материала с использованием программных средств

Copyright © 2017, Taras Kovrijenko

Полное или частичное копирование текста допускается только с письменного разрешения автора.

Пролог

Хоть интернет полнится различного рода инструкциями по проверке честности lossless аудио, проверке на апконверт и т. п., я решил написать на этот счет свою инструкцию, подойдя к рассмотрению вопроса с должной основательностью и расстановкой.

Итак, перейдем непосредственно к делу.

Что будем мерить

Сперва хочу предупредить: невозможно, полагаясь лишь на программные средства (анализаторы и т.п.), с абсолютной уверенностью судить о превосходстве качества одной версии трека над другой. Имеются ввиду, например, различные раздачи на торренте, отличающиеся как источником, так и способом, которым они были закодированы. Ни одна программа не даст Вам полного понятия о звучании трека.

О чем же в данном случае можно судить? Во-первых — о частотном диапазоне анализируемого сигнала (это единственное, что можно определить точно), о его спектральном составе, ну и, как следствие (уже с той или иной вероятностью):

1. Если это lossless трек: был ли он получен из lossless источника, или же ранее был закодирован с использованием одного из lossy алгоритмов. Имеются ввиду алгоритмы, использующие психоакустическое сжатие. Сжатие с динамическим понижением разрядности (lossy WavPack, lossyWAV) скорей всего выявить не удастся, возможно, только на слух, по фоновым шумам.

2. Если это lossy: соответствует ли материал текущему своему виду, т.е., опять же, был ли источником кодирования lossless сигнал, или это апконверт. Апконвертом является любое преобразование с повышением битрейта. Например, перекодирование MP3 128 кбит/с в 320 кбит/с. Однако, осознанное перекодирование качественного AAC, OGG или MPC 200-256 кбит/с в MP3 320 кбит/с (для лучшей совместимости с устройствами воспроизведения) — случай довольно спорный, и при отсутствии других исходников даже не осуждается. Но, конечно же, при создании раздачи подобного материала, источник надо обязательно указывать.

Кроме того, для lossy (и в особенности, для LAME MP3) можно с той или иной степенью достоверности определить параметры кодирования. А определив например такой параметр, как частота срез НЧ фильтра, и сравнив его с актуальным частотным диапазоном записи, можно в некоторых случаях выявить тот самый апконверт.

Что будем использовать

1. foobar2000 — для декодирования, воспроизведения и просмотра технических характеристик музыкальных файлов. Дополнения к foobar2000: fooCDTect (оболочка к auCDTect — проверка lossless на предмет апконверта), AuSpec (удобный просмотр спектрограммы нажатием одной кнопки), MP3 Packer — просмотр специфических параметров MP3.

Примечание: дабы не устанавливать дополнительно горы декодеров и дополнений, рекомендую сразу скачать мою сборку. Альтернативы foobar2000 и дополнениям не советую, т.к. по возможностям они значительно уступают.

2. EncSpot Professional — с его помощью мы будем просматривать технические характеристики MP3 файлов.

3. Adobe Audition 2 — для просмотра спектрограмм с удобным масштабированием.

Собственно, сам процесс

Lossy

И так, возьмем в качестве примера закодированный мной Pink Floyd — Time (Pink Floyd — The Dark Side Of The Moon (AAD, Capitol CDP 7 46001 2)). Загрузим его в foobar2000 и поставим на воспроизведение:

Вверху мы видим примерную форму огибающей громкости (которая совмещена с полосой прокрутки), над ней VU Meter (аналог пикметра, но с некоторым усреднением по времени), внизу расположены остальные анализаторы:

Осциллограмма — волновая форма проигрываемого в данный момент отрезка записи.

Спектральная диаграмма (Spectrum Analyser), показывающая распределение мощности среди спектральных составляющих в данный момент времени,
пикметр, показывающий текущий уровень семпла (точнее, модуль его отклонения от нулевого положения)

Спектрограмма — аналог спектральной диаграммы, но с третей осью (время). Т.е., если мысленно выстроить спектральные диаграммы одну за одной, и глянуть на них сверху, получим спектрограмму («высота столбцов» задается яркостью цвета). Проще говоря, по горизонтали у нас время, по вертикали — линейно частота от 0 до 22 кГц, яркость — мощность спектральной составляющей.

Что мы сейчас видим на анализаторах:

— довольно высокий уровень записи (мы находимся на относительно громком участке) показывает нам пикметр
-как видно из огибающей громкости, динамический диапазон (диапазон, в котором меняется громкость фрагментов) трека довольно велик — это хорошо (для более-менее качественного оборудования).
— судя по спектральной диаграмме: наличие спектральных составляющих примерно до 20 кГц включительно, высокий уровень наиболее слышимого диапазона ВЧ (~11-16 кГц), что обычно говорит о значительной «звонкости» материала (это конечно же зависит от качества самой студийной записи и её (ре)мастеринга).
— спектрограмма подтверждает вышесказанное, но для более тщательного анализа спектра надо воспользоваться дополнительными утилитами

Теперь посмотрим на вкладку Info (справа). foobar2000 говорит нам о том, что запись имеет два канала, частоту дискретизации 44100 Гц и битрейт потока 320 кбит/с (реальный битрейт файла может немного отличаться, здесь он — 319 кбит/с). Насчет частоты: запомните, что весь музыкальный материал, выпускаемый на Audio CD, имеет частоту дискретизации 44.1 кГц, а потому музыка, имеющая семплрейт 48 кГц — это весьма подозрительно (т.к. неизвестно, каким алгоритмом и с каким качеством мог быть выполнен ресемплинг).
Далее написано, что трек был закодирован релизной версией кодера LAME 3.99 (на момент написания статьи это последняя версия). Более точное указание версии (например, 3.99.5) стандартом LAME Tag, к сожалению, не предусмотрено, однако есть один способ: надо открыть MP3 файл в текстовом редакторе и в поиске прописать «LAME» — у последней версии LAME (возможно, и в других недавних версиях) в закодированных данных периодически прописана версия — «LAME3.99.5».

А сейчас выделим трек и нажмем кнопочку RG (вверху, на панели плеера). После анализа нажмем кнопку Update File Tags. Теперь у нас появится дополнительная графа ReplayGain, где нас интересует значение Track Peak — уровень пикового семпла записи. В данном случае оно составляет 1.018077, что для MP3 (и lossy в целом) вполне нормально и не требует каких-либо действий направленных ан предотвращение клиппинга. Вообще, значения до 1.10 включительно (перегрузка до +1 dBFS) можно считать допустимыми. Подробнее о ReplayGain и громкости читайте в моей статье О понятии громкости в цифровом представлении звука и о методах её повышения

Постепенно переходим к тяжелой артиллерии. Открываем папку с треком в программе EncSpot и в контекстном меню файла жмем Lame Header. Видим следующее:

Полное описание информации отображаемой EncSpot можно почитать в отдельной статье. Здесь мы видим, опять же, что использовался кодер LAME 3.99, был применен НЧ фильтр на частоте 20.5 кГц. Качество алгоритма кодирования использовалось максимальное (Quality кратно 10), источник имел частоту дискретизации 44.1 кГц. Возвращаясь к теме частоты семплирования — очень важно, чтобы частота источника (точнее, частота потока поступившего на вход кодера) и MP3 файла совпадала. Если это не так, то был использован встроенный в LAME ресемплер, а он качеством не отличается.

Отдельно хочу сказать о параметрах Join Stereo mode и Safe Joint — для музыки сочетание этих параметров наиболее предпочтительно (JS без режима Safe допустимо только при низких битрейтах).

Идем дальше, открываем в контекстном меню файла Details.

Все фреймы конечно же имеют битрейт 320 кбит/с.

Здесь видно, что запись имеет широкую стереопанораму, различия между каналами довольно велики, а потому большинство фреймов закодированы в режиме Simple Stereo. Большинство блоков имеют тип Long, что говорит об относительно простой форме сигнала (малое количество транзиентов).

Тут стоит обратить внимание на резервуар бит — для MP3 CBR 320 он должен активно использоваться. Также хорошо, если стоят отметки Scalefac_scale и Scfsi.

А теперь можно перейти к более детальному анализу спектра. Жмем правой кнопкой на треке->Run Srviice->Open As… и открываем его через Adobe Audition 2:

Развернем окно на весь экран и уменьшим масштаб колесиком мышки:

Перед Вами просто таки характернейший для MP3 спектр: частотный диапазон составляет ~20 кГц, при этом спектральная плотность, начиная с 16 кГц резко падает. Это обусловлено особенностями психоакустической модели используемой в MP3 — она просто таки нещадно вырезает большинство слабых гармоник с частотой выше 16 кГц. Таким образом MP3 (даже с высоким битрейтом) очень легко узнать по спектру: если на записи есть фоновые шумы, выше 16 кГц они вырезаются, и на этом уровне образуется такая себе полка. Хотя, при достаточно высоком уровне ВЧ (обычно в электронной музыке), они могут в большинстве своём и сохранится.

Давайте рассмотрим спектры еще для нескольких кодеков-битрейтов.

LAME 3.99.5, VBR V2:

Здесь видно еще более жесткое обращение с ВЧ (хотя на слух это обычно неотличимо).

LAME 3.99.5, CBR 128 kbps (-q 0):

При 128 кбит/с частоты выше 16 кГц практически всегда отсутствуют, а НЧ фильтр установлен на 17000 Гц (ширина фильтра по умолчанию — 5%, так что спад начинается с 16.15 кГц). Вдобавок здесь спектр явно прорежен уже даже в районе 8 кГц, а то и ниже, в итоге спектрограмма начинает чем-то походить на решето.

Fraunhofer MP3 Encoder, CBR 320 kbps (highest, join stereo):

Как видите, битрейт 320, а по спектру скорее похож на VBR V2 (~200 кбит/с). Кстати, это тот случай, когда результаты для спектрограммы совпадают с результатами прослушивания — качество кодера FhG заметно хуже LAME (за исключением CBR 128 кбит/с — здесь результаты прослушивания весьма спорные).

Как я уже говорил, сравнивая значение Lowpass Filter из EncSpot с фактической шириной спектра материала, можно судить о «честности» данного рипа (не апконверт). Тут же приведу соответствие популярных пресетов и стандартных частот среза для последней версии LAME:

CBR 320 — 20500 Гц
CBR 256 — 19700 Гц
CBR 192 — 18600 Гц
CBR 160 — 17500 Гц
CBR 128 — 17000 Гц
VBR V0 — 22100 Гц
VBR V2 — 18500 Гц

Если ширина спектрального диапазона не соответствует данному значению, это может говорить об апконверте. Однако, здесь довольно много «но» — ширина зависит от версии кодера, настроек (есть настройка, меняющая значение предельной частоты), самого материала в конце концов.

И последний штрих — конечно же MP3 Packer. Эта программка покажет нам, насколько эффективно сжат MP3 файл (чисто математически). Кликаем по треку правой кнопкой, выбираем Run service->MP3 Info. Видим окно:

Тут нас прежде всего интересует пункт Minimum bitrate possible — он показывает нам, какого битрейта можно достичь при перепаковке фреймов данного CBR файла в VBR фреймы (без потерь качества). Сравнив это значение с актуальным битрейтом, можно судить об эффективности сжатия. Это расхождение обычно связано с нерациональным использованием резервуара бит старыми версиями LAME. Приемлемыми можно считать отклонения до 10 кбит/с включительно (310 кбит/с для актуальных 320 кбит/с), если расхождения больше — это косвенно может говорить о низком качестве кодирования. Также обратите внимание на значение Largest frame uses (kbps) — оно указывает пиковый битрейт для трека с учетом битов из резервуара. Большое значение (>400) говорит об эффективном использовании резервуара и сложности отдельных фрагментов трека.

Теперь, что касается современных кодеров (AAC, OGG Vorbis, Musepack). Они обладают более гибкими алгоритмами и не имеют такой статичной полки на 16 кГц, как MP3 (она у них динамически перемещается, в зависимости от целевого битрейта/качества), а на высоких битрейтах (>300 кбит/с) могут быть на глаз (не говоря уже о «на слух») неотличимы от lossless (если конечно не сравнивать непосредственно со спектром источника). Так что здесь ситуация посложнее, особенно если взять такой продвинутый формат как Musepack (MPC) — он работает по несколько другому принципу, чем MP3, AAC и Vorbis. Это сказывается как на спектральном отображении, так и на звучании. Например, тот же фрагмент, MPC q 6 (~210 кбит/с):

Преимущество перед LAME MP3 VBR V2 — очевидное, и, к тому же, ощутимое на слух. Сохранены практически все составляющие до 18 кГц (этого диапазона обычно бывает достаточно даже людей с «идеальным» слухом), а пики достигают и 20. К тому же этот кодер практически не страдает от пре-эхо — главной проблемы психоакустического lossy кодирования.

А теперь взглянем на спектры AAC и OGG Vorbis.

QuickTime AAC True VBR 127 (~350 кбит/с):

OGG Vorbis -q9 (~350 кбит/с):

А теперь, для сравнения, спектр оригинала:

Как видите, оба кодека охраняют весь частотный диапазон, а QAAC даже практически не урезает спектр фоновых шумов. Согласитесь: довольно трудно догадаться, что спектр QAAC принадлежит lossy источнику. А если бы на записи еще не было фоновых шумов — это не смог сделать никто (даже специальная программа). Впрочем, и на слух этот метод кодирования остается (по крайней мере, для меня) лучшим.

Касаемо определения параметров кодирования AAC, OGG и MPC — здесь инструментарий довольно скромный. Практически всю доступную информацию можно найти на вкладке Properties в foobar2000.

Lossless

О спектрах мы уже говорили, с характерными особенностями спектра MP3 (и других кодеров) Вы уже знакомы, а потому, обнаружив их в спектре lossless трека, уже сможете сделать соответствующие выводы. Но, что касается спектра апконвертов — один очень важный момент. Большинство lossless кодеров не принимают на вход PCM с плавающей точкой, а если источником является lossy, в нем с большой вероятностью присутствуют фрагменты с уровнем выходящим за 0 dBFS. После преобразования в фиксированную точку, так как «умникам», клепающим lossless из MP3, лимитирование сделать мозгов не хватает, мы получаем срезы, а прямоугольные срезы содержат полный спектр частот. В итоге на спектрограмме полученного трека мы будем видеть вертикальные полосы, простирающиеся аж до 22.05 кГц (при чем сама запись обычно уложена в диапазон до 20 кГц). Вот пример такого безобразия:

Завидев это дело, можете смело расстреливать автора раздачи из реактивного гранатомета.

Ну а теперь можно смело перейти к автоматическому анализу.

Здесь всё просто: выделяете lossless треки, нажимаете третью с конца кнопку на панели моего foobar2000 и через несколько минут видите что-нибудь эдакое:

Я специально выделил кроме lossless (TAK) еще и закодированные ранее (для получения спектрограмм выше) lossy треки — чтобы показать, насколько хорошо программа обнаруживает lossy кодирование. «95% MPEG» можно интерпретировать как «скорее всего, имело место lossy кодирование». «CDDA 100%» — означает, что материал с очень большой вероятностью (конечно не 100 %, но 99 уж точно) не был подвергнут lossy кодированию. Обмануть эту программу удается только Musepack на высоком битрейте (и то редко) или lossyWAV.

Честно говоря, программа при анализе фактически руководствуется теми же критериями, что и мы при рассмотрении спектрограммы — поиск резкого спада плотности спектра, той самой «полки» — а потому, её выводы практически всегда совпадают с заключением человека с наметанным глазом, сделанным по спектрограмме.

Целостность

Также очень важно проверять треки на наличие ошибок. Для этого выделите их в foobar2000, нажмите на выделенном правую кнопку мыши и выберите из раскрывшегося списка Utils->Verify Integrity. При наличии ошибок в файлах формата MP3 foobar2000 может их исправить. Если Вы увидите ошибку вроде «Reported length is inaccurate…», выделите треки для которых отобразилась данная ошибка, нажмите правую кнопку и выберите Utils->Fix VBR MP3 Header, после обработки проверьте трек еще раз, ошибка должна отсутствовать. Если при проверке Вы наблюдаете ошибку вида «MPEG Stream error…», её можно исправить с помощью опции Utils->Rebuild MP3 Stream. После выполнения операции исправления ошибки не забывайте повторно проверять треки.

Для других lossy форматов, а также lossless исправить ошибки в foobar2000 нельзя, но проверить всё равно стоит.

Das Ende

В общем, по теме — это всё, чем я хотел с Вами поделиться. Если есть вопросы, обращайтесь, пишите — помогу разобраться.

[Обсудить на форуме]


Ссылки по теме


Информация от спонсора

Газгольдер.ру: автономные системы снабжения сжиженным газом, автономная газификация. Общепризнанный лидер в отрасли, стоявший в России у истоков её основания. Вам предоставляется широчайший спектр услуг по газификации, в т.ч. гарантийное и сервисное обслуживание. Компания работает как с частными, так и с юридическими лицами. Стоимость автономной газификации Вы можете узнать на сайте компании (по ссылке выше).

audiophilesoft.ru

Спектрограмма звука

Спектрограмма звука

Форум: «Media»;
Поиск по всему сайту: www.delphimaster.net;
Текущий архив: 2005.09.25;
Скачать: [xml.tar.bz2];

Вниз

Спектрограмма звука 

sashok
 
(2005-05-11 17:50)
[0]

Каким образов можно узнать спектрограмму звука?
Точнее: с аудио-входа нужно каждые n-миллисекунд в массив ложить значения спектра звука (каждая ячейка — n Hz(kHz))


uny ©
 
(2005-05-11 19:43)
[1]

fft или бпф


sashok
 
(2005-05-12 16:44)
[2]

Ответ — обалдеть!

Тем, кто не знает — непонять,
Для тех, кто знает — не отнять
Глубокой мысли в фразе той:
«Воспользуйся БыПыФы»ой»!

Пасиба, удружил 🙂


Jeer ©
 
(2005-05-12 17:39)
[3]

Ты просто не умеешь пользоваться Яндекс — так бы и сказал

http://www.relib.com/forums/topic.asp?id=811177
http://www.e-iwt.com/articles/docs/fure.pdf
http://www.protgu.ru/kurs4/tsifrovaya_obrabotka_signalov_i_izobrazhenij/dsphb307.rar.html


uny ©
 
(2005-05-12 18:10)
[4]

[2] sashok   (12.05.05 16:44)
ещё приходи 😉


sashok
 
(2005-05-12 18:35)
[5]

Я против Яндекса, я пользуюсь Гуглём.
Но каждый сайт в призвании своём!
Есть класный сайт, в нём форум мастеров
Подскажут всё, что относительно Дельфов!

Извините за такое выражение мыслей, я просто пишу новый текст к новой песне и паралельно мне понадобился анализатор спектра, а как сделать его — не совсем знаю, а точнее — совсем не знаю.

Спасибо всем!
uny> Вот видишь — зашёл 🙂 И ещё приду!


programania ©
 
(2005-05-12 19:56)
[6]

Библиотека BASS.dll
http://www.un4seen.com
при проигрывании может давать массив с амплитудами частот:
BASS_ChannelGetData(
есть и пример этого для показа спектрограммы sampleVis


Форум: «Media»;
Поиск по всему сайту: www.delphimaster.net;
Текущий архив: 2005.09.25;
Скачать: [xml.tar.bz2];

Наверх

Память: 0.74 MB
Время: 0.046 c

www.delphimaster.net

Спектрограмма — Википедия (с комментариями)

Материал из Википедии — свободной энциклопедии


Спектрогра́мма (соногра́мма) — изображение, показывающее зависимость спектральной плотности мощности сигнала от времени. Спектрограммы применяются для идентификации речи, анализа звуков животных, в различных областях музыки, радио- и гидролокации, обработке речи, сейсмологии и в других областях.

Представление


Наиболее распространенным представлением спектрограммы является двумерная диаграмма: на горизонтальной оси представлено время, по вертикальной оси — частота; третье измерение с указанием амплитуды на определенной частоте в конкретный момент времени представлено интенсивностью или цветом каждой точки изображения.

Есть много вариантов представления: иногда вертикальная и горизонтальная оси включены так, что время бежит вверх и вниз, иногда амплитуда представлена вершинами в трёхмерном пространстве, а не цветом или интенсивностью. Частота и амплитуда осей может быть линейными или логарифмическими, в зависимости от того, с какой целью используется график. Аудио обычно может быть представлено с логарифмической осью амплитуды (зачастую, в децибелах или дБ), и частота будет линейной, чтобы подчеркнуть гармонические отношения, или логарифмической, чтобы подчеркнуть музыкальные, тональные отношения.

Формирование

Спектрограмма обычно создаются одним из двух способов: аппроксимируется, как набор фильтров, полученных из серии полосовых фильтров (это был единственный способ до появления современных методов цифровой обработки сигналов), или рассчитывается по сигналу времени, используя оконное преобразование Фурье. Эти два способа фактически образуют разные квадратичные частотно-временные распределения, но эквивалентны при некоторых условиях.

Метод полосовых фильтров обычно используется в аналоговой обработке для разделения входного сигнала на частотные диапазоны.

Создание спектрограммы с помощью оконного преобразования Фурье обычно выполняется методами цифровой обработки. Производится цифровая выборка данных во временной области. Сигнал разбивается на части, которые, как правило, перекрываются, и затем производится преобразование Фурье, чтобы рассчитать величину частотного спектра для каждой части. Каждая часть соответствует вертикальной линии на изображении — значение амплитуды в зависимости от частоты в каждый момент времени. Спектры или временные графики располагаются рядом на изображении или трёхмерной диаграмме.

Спектрограмма сигнала s(t) может быть оценена путём вычисления квадрата амплитуды оконного преобразования Фурье сигнала s(t), следующим образом:

<math>\mathrm{spectrogram}(t,\omega)=\left|\mathrm{STFT}(t,\omega)\right|^2</math>

См. также

Напишите отзыв о статье «Спектрограмма»

Отрывок, характеризующий Спектрограмма

«Князь Михаил Иларионович! – писал государь от 2 го октября в письме, полученном после Тарутинского сражения. – С 2 го сентября Москва в руках неприятельских. Последние ваши рапорты от 20 го; и в течение всего сего времени не только что ничего не предпринято для действия противу неприятеля и освобождения первопрестольной столицы, но даже, по последним рапортам вашим, вы еще отступили назад. Серпухов уже занят отрядом неприятельским, и Тула, с знаменитым и столь для армии необходимым своим заводом, в опасности. По рапортам от генерала Винцингероде вижу я, что неприятельский 10000 й корпус подвигается по Петербургской дороге. Другой, в нескольких тысячах, также подается к Дмитрову. Третий подвинулся вперед по Владимирской дороге. Четвертый, довольно значительный, стоит между Рузою и Можайском. Наполеон же сам по 25 е число находился в Москве. По всем сим сведениям, когда неприятель сильными отрядами раздробил свои силы, когда Наполеон еще в Москве сам, с своею гвардией, возможно ли, чтобы силы неприятельские, находящиеся перед вами, были значительны и не позволяли вам действовать наступательно? С вероятностию, напротив того, должно полагать, что он вас преследует отрядами или, по крайней мере, корпусом, гораздо слабее армии, вам вверенной. Казалось, что, пользуясь сими обстоятельствами, могли бы вы с выгодою атаковать неприятеля слабее вас и истребить оного или, по меньшей мере, заставя его отступить, сохранить в наших руках знатную часть губерний, ныне неприятелем занимаемых, и тем самым отвратить опасность от Тулы и прочих внутренних наших городов. На вашей ответственности останется, если неприятель в состоянии будет отрядить значительный корпус на Петербург для угрожания сей столице, в которой не могло остаться много войска, ибо с вверенною вам армиею, действуя с решительностию и деятельностию, вы имеете все средства отвратить сие новое несчастие. Вспомните, что вы еще обязаны ответом оскорбленному отечеству в потере Москвы. Вы имели опыты моей готовности вас награждать. Сия готовность не ослабнет во мне, но я и Россия вправе ожидать с вашей стороны всего усердия, твердости и успехов, которые ум ваш, воинские таланты ваши и храбрость войск, вами предводительствуемых, нам предвещают».
Но в то время как письмо это, доказывающее то, что существенное отношение сил уже отражалось и в Петербурге, было в дороге, Кутузов не мог уже удержать командуемую им армию от наступления, и сражение уже было дано.
2 го октября казак Шаповалов, находясь в разъезде, убил из ружья одного и подстрелил другого зайца. Гоняясь за подстреленным зайцем, Шаповалов забрел далеко в лес и наткнулся на левый фланг армии Мюрата, стоящий без всяких предосторожностей. Казак, смеясь, рассказал товарищам, как он чуть не попался французам. Хорунжий, услыхав этот рассказ, сообщил его командиру.
Казака призвали, расспросили; казачьи командиры хотели воспользоваться этим случаем, чтобы отбить лошадей, но один из начальников, знакомый с высшими чинами армии, сообщил этот факт штабному генералу. В последнее время в штабе армии положение было в высшей степени натянутое. Ермолов, за несколько дней перед этим, придя к Бенигсену, умолял его употребить свое влияние на главнокомандующего, для того чтобы сделано было наступление.

wiki-org.ru

Акустические характеристики речи — Блог веб-программиста

Подробности




июля 18, 2014




Просмотров: 5937


Основы акустической теории речеобразования достаточно подробно изложены в монографиях Г. Фанта и Д. Фланагана. Схематическое изображение генерации речи человеком приведено на рис. 1.7.

 

 

Рис. 1.7. Схематическое изображение генерации речи

Два параллельных канала (ротовой и носовой) образуют единую акустическую систему, возбуждаемую колебаниями голосовых связок, находящихся у основания глотки, либо турбулентным шумом, возникающим в месте сужения ротового канала. Энергия возбуждения создается за счет легочного усилия, затрачиваемого на создание избыточного давления в речевом аппарате. В процессе речеобразования под действием управляющих команд состояние активных артикуляторных органов непрерывно меняется, изменяя конфигурацию всей акустической системы. Как следствие, изменяются её резонансные свойства, т.е. частотная характеристика речевого (голосового) тракта.

Импульсы возбуждения, создаваемые колебаниями голосовых связок, проходя через речевой тракт, трансформируются в речевой сигнал.

Распространение акустических волн в такой системе не удается описать точными математическими методами. Однако при малых потерях и при условии, что длина возбуждаемых волн велика по сравнению с поперечными размерами тракта, а также в случае отсутствия резких изгибов в профиле речевого тракта, распространение акустических волн может быть описано уравнением Вебстера:

 

В этом уравнении, имеющем в качестве аргумента x – расстояние до голосовых связок, S(x) является текущей площадью сечения тракта, нормального к направлению распространения волны, p(t) – переменное воздушное давление, создаваемое голосовыми связками, C — скорость распространения звука в воздухе и t – время. Уравнение Вебстера можно проинтегрировать численным методом и рассчитать передаточную функцию речевого тракта. Однако практически непрерывное сечение речевого тракта выгоднее представить последовательностью коротких цилиндрических труб постоянного сечения.

Для однотрубной модели (что подходит для описания нейтрального звука /Э/) максимумы передаточной функции появляются на частотах

Эти максимумы называются формантами. Если принять l = 17 см (длина голосового тракта взрослого мужчины), то из (1.4) получим, что частоты формант равны: F1 = 500 Гц, F2 = 1500 Гц, F3 = 2500 Гц и т.д. Эти значения формант близки к значениям, полученным экспериментально для реального гласного.

 

При возбуждении акустической трубы переменным воздушным давлением, создаваемым голосовыми связками, на её выходе появляется
речевой сигнал. На осциллограмме речевого сигнала (рис. 1.8) обнаруживаются два типа колебаний: колебания с частотой основного тона – F0 – и дополнительные формантные колебания c частотами Fi.

 

Рис. 1.8. Осциллограмма речевого сигнала для звуков /a/, /i/.

Речевой сигнал s(t) можно представить как свертку возбуждающего сигнала e(t) и импульсной характеристики голосового тракта v(t). Данная модель формирования речевого сигнала во временной области, с примером для звонкого звука, представлена на рисунке 1.9.

 

 

Рис. 1.9. Модель формирования речевого сигнала во временной области

 

Модель формирования речевого сигнала в частотной области представлена на рисунке 1.10. Спектр речевого сигнала – это произведение спектра Фурье возбуждающей функции (импульсов основного тона) и комплексной частотной характеристики голосового тракта. Последовательности импульсов с периодом T соответствует линейчатый спектр с интервалом между соседними линиями F0 = 1/T.

Частотная характеристика речевого тракта является гладкой функцией частоты, что обусловлено физической структурой голосового тракта, обладающего акустическими резонансами, называемыми формантами.

 

Рис. 1.10. Модель формирования речи в частотной области

Результирующий спектр речевого сигнала является произведением линейчатого спектра возбуждающего сигнала и частотной характеристики голосового тракта, в результате чего спектр речевого сигнала так же является линейчатым, с огибающей, характеризующей передаточную функцию голосового тракта.

На рис. 1.11 представлены двумерные (в координатах «частота – амплитуда») спектрограммы для звуков /a/, /i/. На спектрограммах показаны положения частоты основного тона – F0 – и частоты формант – F1, F2, F3.

 

Рис. 1.11. Двумерные спектрограммы для звуков /a/, /i/

Для отображения временной динамики изменения спектральных характеристик используется трёхмерное отображение (т.н. сонограмма), на которой по оси абсцисс отображается время – t, по оси ординат частота – f, а амплитуды спектральных составляющих отображаются степенью почернения. Примеры сонограмм приведены на рис. 1.12. На сонограммах хорошо прослеживаются движения первых 3-х формант.

 

Рис. 1.12. Примеры сонограмм: а) слитно произнесённая последовательность гласных, б) фраза «А я в яме».

Различают широкополосную и узкополосную сонограммы. Широкополосная сонограмма имеет лучшее, чем узкополосная сонограмма, разрешение по времени, что позволяет наблюдать периоды возбуждения в речевом сигнале. В то же время узкополосная сонограмма позволяет наблюдать частотные гармоники возбуждающего сигнала, которые не видны на широкополосной сонограмме. Осциллограмма фразы “Катя уехала”, а так же ее узкополосная и широкополосная сонограммы представлены на рисунке 1.13.

 

Рис. 1.13. Спектрограммы фразы “Катя уехала”: a) осциллограмма; б) широкополосная спектрограмма; в) узкополосная спектрограмма

 

Похожие статьи

 

 

 

 

 

juice-health.ru