Распознавание голоса arduino – Распознавание голоса на Arduino или «Do You Know What I Am Saying?». Блог Амперкот.ру

Содержание

Уроки Arduino: голосовое управление светодиодом

В этом уроке по Arduino мы покажем, как использовать мобильное приложение для Android и модуль Bluetooth HC-05 для голосового управления светодиодом.

Шаг 1: Комплектующие

Для этого урока нам понадобится минимум комплектующих. После того как вы сделаете урок — вы сможете усложнить схему и дополнить её устройствами по своему вкусу.

  • Arduino UNO
  • HC-05 Bluetooth Модуль
  • Макетная плата
  • Провода
  • 330 Ом резистор
  • Светодиоды (LED)

Шаг 2: Подключение модуля Bluetooth HC-05

Стандартный модуль Bluetooth HC-05 имеет шесть контактов. Однако в этом проекте мы будем использовать только 4.

Мы будем использовать вывод VCC, вывод GND, вывод TXD и вывод RXD. Вывод VCC модуля bluetooth подключается к + 3,3 В от Arduino. Вывод GND модуля подключается к GND Arduino (земля). Штырь TX модуля bluetooth соединяется с цифровым выводом 0 (RXD), а контакт RXD подключается к цифровому выходу 1 (TXD).

Шаг 3: Подключение светодиодов

Следующим шагом в создании светодиодов, управляемых голосом, является подключение светодиодов к Arduino через макет.

Сначала подключите короткий конец светодиода к земле. Затем подключите длинный конец каждого из светодиодов к резистору 330 Ом. Наконец, подключите сопротивление тока от светодиодов к цифровым контактам на Arduino.

В этом проекте мы будем подключать один светодиод к цифровому выводу 2, другой — к цифровому выходу 3, а последний светодиод — к цифровому выходу 4.

Шаг 4: Питание

Для этого проекта мы можем подавать питание на Arduino через любой источник питания + 5 В. Вы можете использовать USB-порт со своего компьютера для питания Arduino, но в этом проекте мы будем использовать портативную батарею 5В. Прежде чем подключать источник питания к вашему Arduino, убедитесь, что GND Arduino подключен к земле макетной платы.

Шаг 5: Код

Код для нашего проекта ниже.

Шаг 6: Использование мобильного приложения

Вы можете начать тестировать свой проект, загрузив приложение для Android — BT Voice Control для Arduino (BT Voice Control for Arduino), созданное SimpleLabsIN.

После того как вы скачали и установили приложение на свой телефон на базе Android нажмите на строку меню в правом верхнем углу и выберите «Подключить робота». В появившемся новом окне выберите модуль Bluetooth HC-05 и подключите его.

Теперь, когда вы говорите с помощью определенных команд из кода на свое устройство через приложение, определенные светодиоды должны включаться и выключаться. Посмотрите внимательнее на код, где указаны команды и поставьте свои. Например, вместо «*switch on red» можно просто указать «red». Так команды будут быстрее, короче и понятнее.

Шаг 7: Итоговый результат

Итоговый результат можно посмотреть на видео ниже.

Желаем вам успешных проектов! Не забывайте оставлять комментарии на проект в нашей группе ВКонтакте или здесь.

arduinoplus.ru

voice recognition arduino с бесплатной доставкой на AliExpress.com

Горячие предложения в voice recognition arduino: лучшие онлайн-предложения и скидки с реальными отзывами клиентов.

Отличная новость! Если вы решили приобрести товар по запросу voice recognition arduino, то вы находитесь в нужном месте. AliExpress — это платформа для онлайн-шопинга, где для вас представлены тысячи товаров самых разных категорий. С AliExpress вы всегда можете быть уверены, что найдете нужные вам вещи, будь то дорогостоящие изделия или небольшие покупки. Наша база пополняется каждый день, поэтому мы предлагаем широкий выбор продукции самых разных категорий. Наши поставщики — как известные торговые марки, так и независимые продавцы — гарантируют быструю доставку и надежность, а также удобные и безопасные способы оплаты.

Удобный поиск помогает находить не только нужные товары, но и похожие продукты и возможные комплектующие. Вместе с этим вы получаете самые лучшие цены в сети, выгодную доставку и возможность забрать товар в ближайшей удобной для вас точке.

Иногда выбрать товар среди всех возможных предложений оказывается непросто. Мы позаботились о вашем удобстве и создали удобную систему сравнения. С AliExpress вы легко можете сопоставить цены и воспользоваться наиболее выгодным предложением. Мы также будем рады сообщить вам о начале специальных акций, а также о купонах на скидку. Если у вас возникнут сомнения, вы всегда можете ознакомиться с отзывами покупателей и сравнить рейтинг магазинов. Мы высоко ценим мнение клиентов, поэтому под каждым товаром вы найдете комментарии тех, кто уже сделал покупку. Одним словом, вам больше не нужно слепо доверять — вы можете просто положиться на опыт других покупателей.

Для новичков в AliExpress мы раскроем секрет, как получить самые выгодные предложения на нашем сайте. Перед тем как нажать кнопку «Купить сейчас», проверьте наличие купонов на скидку. Это могут быть купоны AliExpress или же купоны магазинов-сотрудников. Также вы можете получить купоны, выигрывая в нашей игре в приложении AliExpress app. Вместе с бесплатной доставкой, которую предлагают большинство продавцов на нашем сайте, вы сможете приобрести voice recognition arduino по самой выгодной цене.

AliExpress — это передовые технологии, новейшие тенденции и самые обсуждаемые бренды, а также отличное качество, цена и сервис. Онлайн-покупки стало делать еще проще и надежней. Экономьте время и деньги без ущерба качеству.

ru.aliexpress.com

recognition voice arduino с бесплатной доставкой на AliExpress.com

Горячие предложения в recognition voice arduino: лучшие онлайн-предложения и скидки с реальными отзывами клиентов.

Отличная новость! Если вы решили приобрести товар по запросу recognition voice arduino, то вы находитесь в нужном месте. AliExpress — это платформа для онлайн-шопинга, где для вас представлены тысячи товаров самых разных категорий. С AliExpress вы всегда можете быть уверены, что найдете нужные вам вещи, будь то дорогостоящие изделия или небольшие покупки. Наша база пополняется каждый день, поэтому мы предлагаем широкий выбор продукции самых разных категорий. Наши поставщики — как известные торговые марки, так и независимые продавцы — гарантируют быструю доставку и надежность, а также удобные и безопасные способы оплаты.

Удобный поиск помогает находить не только нужные товары, но и похожие продукты и возможные комплектующие. Вместе с этим вы получаете самые лучшие цены в сети, выгодную доставку и возможность забрать товар в ближайшей удобной для вас точке.

Иногда выбрать товар среди всех возможных предложений оказывается непросто. Мы позаботились о вашем удобстве и создали удобную систему сравнения. С AliExpress вы легко можете сопоставить цены и воспользоваться наиболее выгодным предложением. Мы также будем рады сообщить вам о начале специальных акций, а также о купонах на скидку. Если у вас возникнут сомнения, вы всегда можете ознакомиться с отзывами покупателей и сравнить рейтинг магазинов. Мы высоко ценим мнение клиентов, поэтому под каждым товаром вы найдете комментарии тех, кто уже сделал покупку. Одним словом, вам больше не нужно слепо доверять — вы можете просто положиться на опыт других покупателей.

Для новичков в AliExpress мы раскроем секрет, как получить самые выгодные предложения на нашем сайте. Перед тем как нажать кнопку «Купить сейчас», проверьте наличие купонов на скидку. Это могут быть купоны AliExpress или же купоны магазинов-сотрудников. Также вы можете получить купоны, выигрывая в нашей игре в приложении AliExpress app. Вместе с бесплатной доставкой, которую предлагают большинство продавцов на нашем сайте, вы сможете приобрести recognition voice arduino по самой выгодной цене.

AliExpress — это передовые технологии, новейшие тенденции и самые обсуждаемые бренды, а также отличное качество, цена и сервис. Онлайн-покупки стало делать еще проще и надежней. Экономьте время и деньги без ущерба качеству.

ru.aliexpress.com

Все о модуле распознавания голоса EasyVR (ex VRbot) / Деталька / Сообщество EasyElectronics.ru


Сегодня я наконец возьму и эпически сорву покрова с этих самых модулей EasyVR, так как тема сисек, ящитаю, практически не раскрыта. Покрова буду «срывать полностью, полностью буду срывать», так что готовьтесь 🙂

Итак, дело началось с того, что мне захотелось добавить управление голосом в автомобиль (систему комфота) и в комнату дома. Хотя, больше, конечно, хотелось «поиграться» и посмотреть, что из этого получится. Про VRBot я уже где-то слышал, но в руках не держал, так что уже знал, что какие-то готовые решения есть.

Копание в интернетах показало, что как таковых VRBot’ов уже не существует и вывело меня на сайт их производителя и переемника VeeaR. Переемником VRBot стал модуль, практически не отличающийся от своего предшественника — EasyVR. Также, появилась более «крутая» его версия — SmartVR, которая позволяла писать аж свои приложения для какой-то там встроенной виртуальной машины. Но для SmartVR необходимо было допиливать хоть и немного, но внешний обвес (либо покупать дорогую плату разработчика), по этому для начала, ничтоже сумняшеся, я заказал пару EasyVR на «поковырять», даже и не думая, что мои ковыряния потом зайдут так далеко…

После того, как модули мне пришли, я начал с ними играться. Поставил штатный софт, подключил, пообучал, посмотрел возможности. Конечно, функционал этих модулей из коробки достаточно узок — распознавание некоторого количества команд управления роботом (больше они, ИМХО, ни для чего не годятся), зашитых намертво в прошивку на нескольких европейских языках + возможность добавить до 32-х своих собственных команд (то, ради чего модули и заказывались). Также, была очень заманчивая возможность сделать «избу-говорильню» — прошить в модуль наборы звуков, которые потом можно было бы воспроизводить через него как ответы.

Распознавание зашитых команд было «человеконезависимое», т.е., по факту, модулю было все равно кто и каким голосом называет команды — он их уверенно распознавал (только нужно было обеспечить правильное произношение). Пользовательские же команды требовали сначала обучения под конкретного пользователя. Еще существовала возможность распознавания конкретного человека по характеристикам голоса — «голосовой пароль», что вполне неплохо работало и тоже было достаточно интересной фишкой.

Все вроде было замечательно, но меня очень сильно будоражил вопрос: «почему для SmartVR можно писать свои собственные программы, а для EasyVR нельзя?» И черт меня дернул раскопать всю эту кухню глубже.
Начал я с того, что выяснил такой момент — оба модуля работают на абсолютно одинаковых чипах, RSC-4128 компании Sensory. Что-то из услышанного когда-то давно подсказывало мне, что чип хороший, годный, стабильный и использовался в куче всяких роботизированных игрушек типа Furby. Так оно и оказалось.
На сайте разработчика с большим трудом были найдены и выкачаны разные доки — даташит на чип, описание технологических библиотек, СДК, примеры и много-много другого барахла. После изучения всего добра я влюбился в этот чип 🙂 Его возможности, фактически, оказались уникальны: других специализированных однокристальных решений (кроме более старшего семейства этой же фирмы) как-бы и не существовало. Итак, по порядку.

RSC-4128

Чип представляет собой специализированный микроконтроллер на совместимом с 8051 ядре, который несет на себе периферию для записи и воспроизведения звука (микрофонный преамп с АЦП, ЦАП с ШИМ для динамика, аудио-компараторы, фильтры). На чипе есть немного оперативки (4.8 килобайт) и РОМ, размер которого означается последними цифрами названия чипа (в данном случае 128 килобайт). Ядро работает на частоте 14 с лишним мегагерц от внешнего резонатора с PLL. Доступно 5 таймеров (3 обычных, 1 тик-таймер, 1 ватчдог), 8 источников прерываний (от таймеров и от пинов), интерфейс подключения внешней памяти, ускоритель векторной математики. На чипе нет аппаратной периферии связи — UART, SPI, I2C. Есть только GPIO с прерываниями от некоторых пинов, но вопрос этот вполне неплохо решается софт-драйверами. Хорошо работает подсистема энергосбережения (все-таки, чип рассчитан на батарейное питание). С регистрами все очень просто и понятно, никаких заморочек. Чип может считывать программу либо полностью из внутреннего рома, либо полностью из внешнего (адресуя до 1 мегабайта без изъебств), в зависимости от состояния пина nXM. Также существуют механизмы доступа к разного рода навесной памяти, которые, в общем-то, не очень сильно нужны (ИМХО).
Основная же соль чипа — софт-библиотека FluentChip, которая и реализует все возможности по распознаванию и синтезу, а также много других полезных функций.
FluentChip

Это набор объектных файлов, которые содержат в себе весь волшебный функционал синтеза и распознавания, т.к. чип, по сути — голая болванка с периферией и сам ничего не умеет. Реализован следующий функционал:
  • Воспроизведение звука: с помощью специальной программы QuickSynthesys можно подготавливать библиотеки звуков, слов и предложений из них; музыку для встроенного MIDI-секвенсора. С помощью простых библиотечных функций можно воспроизводить звуки, слова, мидишки со своими инструментами и даже со словами поверх музыки; можно воспроизводить DTMF, пищать и посылать токены SonicNet в любой комбинации. Присутствует очень хорошее сжатие для речи — SX.
  • Запись звука: собственно, запись звука с последующим воспроизведением. Нам не актуально, т.к. для этого нужна особая навесная оперативка или флэшка приличного объема, которую к модулям никак не подключить.
  • Распознавание речи: отдельный разговор. Об этом функционале поговорим ниже.
  • SonicNet: позволяет посылать через динамик и слушать микрофоном специальные посылки-токены, не слышимые человеком и таким образом общаться нескольким устройствам между собой.
  • «Анимация»: набор функций для интерактивной обратной связи. Детектор и предсказатель ритма, детектор высоты тона или ноты, «синхронизатор движения губ» как для заранее зашитых звуковых библиотек, так и работающий в реальном времени с микрофона.
  • SoundSource: используя немного обвеса, возможно соорудить «электронные уши», детектировать положение источника звука и, например, поворачивать устройство или его «голову» к говорящему. Нам, к сожалению, прелестями воспользоваться не удастся ввиду ограниченного числа выведенных GPIO на модуле.
  • Утилитарные функции, типа функций настройки таймеров, доступа к буферам в оперативке, управления питанием, генерации задержек и проч. Есть готовый софтовый драйвер UART.

Теперь поговорим о распознавании речи. Библиотека умеет выполнять два принципиально разных метода распознавания: T2SI (text-to-speaker-independent, «человеко-независимый», говорящим может быть кто угодно) и SD (speaker-dependent, говорить должен тот, кто обучал систему).

T2SI использует достаточно сложный и интересный подход. Сначала на компьютере в специальной программе (QuickT2SI) формируются словари путем вбивания нужных слов или фраз с клавиатуры. Затем программа, в зависимости от выбранной языковой модели проводит преобразование этих слов и фраз к фонемам (при необходимости результат можно корректировать, вплоть до ручного набора слов фонемами IPA). После этого можно произвести тонкую настройку распознавания и сформировать объектные файлы с данными для вашего набора слов, которые должны быть включены в программу. Таких наборов может быть очень много, а нужный просто выбирается при вызове библиотечной функции распознавания.
Этот метод сложен технически, использует акустические модели фонем для разных языков, нейросети для их распознавания и скрытую марковскую модель (HMM) для статистического анализа и угадывания слов. Соль в том, что самая сложная работа — построение и обучение нейросети и формирование скрытой марковской модели — происходит на компьютере, а в устройство зашивается уже готовая нейросеть (в библиотеке на чипе есть софтовый нейропроцессор и анализатор HMM). Готовая нейросеть и модель содержит в себе только нужные состояния и фонемы для набора, поэтому получается очень компактная и быстрая.
Результат работы этого метода, конечно, впечатляет. Получается очень точное распознавание даже на больших словарях и с разными «говорителями». Но у метода есть для нас один очень большой недостаток. Нет модели русского языка 🙁 Причем, принципиально нет никаких ограничений, чтобы ее сделать, но разработчику, походу, это не особо нужно. Тем не менее, есть возможность использовать более-менее похожие модели испанского/итальянского с некоторыми ограничениями и набирать нужные слова сразу фонемами, но это не так удобно, хотя качество распознавания русских слов, запиленных таким образом, достаточно неплохое.

Второй метод — SD — основан на высчитывании огибающих слова/фразы и, возможно еще какой-то информации, типа FFT и генерации «паттерна» — отпечатка, соответствующего этому слову или фразе. По всей видимости, это какой-то векторный массив, наподобие паттернов, описывающих отпечаток пальца после векторного анализа. Только здесь, в качестве исходной информации выступает не картина папиллярного узора, а захваченная звуковая информация. Каждый паттерн занимает в памяти строго определенное количество байт — 256. Из нескольких паттернов в процессе обучения комбинируется «шаблон» (тоже 256 байт), который затем сохраняется в памяти, присваивается к какому-либо словарю и в дальнейшем можно запустить по этому словарю распознавание.
На практике же, при небольшом словаре с разными по произношению словами, система способна точно распознавать слова, даже если их говорит другой человек, что есть очень и очень хорошо!
На этом же принципе построена и SV — верификация говорящего, «голосовой пароль». Только разница в том, что информация векторизуется по другим признакам, и большее внимание уделяется конкретным характеристикам голоса говорящего. По этому и получается «пароль». А технически оно работает точно так же, как и SD.
Возможно запускать одновременно T2SI и SD/SV распознавание по разным наборам. Библиотечные функции достаточно просты и понятны, есть куча примеров, вполне читабельный хелп и аппноуты. Не утонете.
Для сохранения шаблонов требуется какая-то память. В комплекте библиотеки идет несколько модулей для работы с разными типами навесной памяти. Их достаточно просто подключить и настроить в конфигурационном файле, а библиотека возьмет на себя все остальное. На наших модулях установлена для этих целей I2C память 24LC64, которая как раз и позволяет хранить 32 шаблона. Драйвер для I2C памяти в поставке библиотеки есть. Даже с исходником. Примеры работы тоже есть.

Учтите, что библиотека занимает кучу ресурсов МК, так что оперативки остается порядка 250-300 байт (+ 256 байт RAMY буфера, которые используются для хранения паттернов при обучении SD и работе SD, но их можно использовать под свои нужды, на то есть библиотечные функции). При работе библиотечных функций практически не остается и процессорного времени, так что будьте аккуратны в прерываниях. Некоторым процессам (распознаванию, например) похеру и они просто будут работать дольше, а некоторым (воспроизведению звука) не похеру, и звук может начать трещать или вообще функция осыпется и вернет ошибку, что «недостаточно свободных циклов». Подробнее описано в документации (там такая большая таблица со всеми цифрами потребления). Но это все мелочи и решаются они просто грамотным программированием.
Да. Все программы из комплекта библиотек бесплатны. Кроме QuickT2SI, которая стоит $3500 в полном варианте. Жадность программы лечится скачиванием мною пропатченой версии по ссылкам во вложении к статье — «link.txt».

Среда разработки

Конечно же, к чему весь этот разговор и должен был привести. Собственно, «где и в чем писАть?». Вариантов тут совсем не много. Точнее говоря, по факту, всего один — решение от Phyton под названием Project-SE. Есть еще компилятор от mikroElektronik’и, но он уже снят с производства и поддержки, да и при этом косой очень. Так что, пользоваться придется Phyton’ом.
Среда очень корявая в плане интерфейса (IAR после нее покажется вам просто каким-то Эклипсом), но к ней за пару дней привыкаешь. Можно даже все настроить под свои нужды (кнопочки всякие, панели).
Никаких тонкостей и особенностей нет — среда заточена конкретно под этот камень. Создаем проект, настраиваем, подключаем библиотеки и всякие сгенерированные объектники со звуками и нейросетями и вперед — пишем на C или ASM. Примеров, опять же повторюсь, очень много. Все предельно просто и понятно.
Единственный, пожалуй, нюанс — конфигурационный файл, который должен быть подключен к каждому проекту — «config.mca». Там описываются настройки библиотек — пины, память, и прочее. Для нашего модуля я написал свой правильный конфиг, который можно скачать по ссылкам из вложения к этой статье.
Да. Продукт Project-SE работает после установки 14 дней в триальном режиме. Триальный режим по сути ничем не отличается от нормального. Просто напросто, по истечении времени продукт начинает жадничать и перестает компилировать. Жадность пропадает после запуска моего специального батника, который сбрасывает этот самый период. Батник можно скачать, опять же, по ссылкам во вложении к этой статье.
Модуль EasyVR

Модуль — штука самодостаточная. На нем установлен весь необходимый обвес, от стабилизатора питания, до памяти и преобразователя уровней напряжения (для UART). Изначально, общение с модулем происходит по UART, также есть разъем для микрофона (с микрофоном в комплекте), разъем для динамика (выход PWM, без динамика в комплекте) и колодка с тремя дополнительно выведенными GPIO + выводы nXM и RST. На модуле установлена флешка в 1 мегабайт максимально адресуемого пространства (на ней изначально хранится прошивка и звуки) и EEPROM 24LC64 для хранения шаблонов SD или какой-нибудь своей информации, типа конфигурации.


24LC64 совершенно спокойно перепаивается в 24LC256 и становится возможным хранить уже 128 шаблонов. 24LC512 к сожалению шире корпусом и на плату не влезает 🙂

Питается модуль от 3 до 5 вольт. На пинах, которые используются под UART стоит микросхема-преобразователь уровней (чтоб можно было шпарить до 5 вольт). На остальные пины подавать больше 3 вольт НЕЛЬЗЯ! Спалите пины или чип! Это вам не AVR!
А теперь самое главное, ради чего все затевалось! Разработчики модуля не афишируют эту возможность, но тем не менее, в модуль можно зашить абсолютно любой код! Устроено все так: в РОМе самого чипа сидит загрузчик, с которым может общаться программка «VeeLoader.exe» от VeeaR (из комплекта оригинального софта). А во флешке, которая на 1 мегабайт, собственно и лежит прошивка. Т.к. чип может работать либо со встроенным РОМом, либо с внешним флэшом, то вот и получается наша картина: подцепляем nXM на 3 вольта и чип стартует с вшитого по маске загрузчика, который может спокойно читать и писать флэшку без всяких ограничений или защит через UART. А если мы оставим висеть nXM свободно (на самом деле pull-down внутри чипа на несколько килоом), то чип будет стартовать с внешней флэшки. Таким образом, достаточно просто скормить HEX-файл своей программы VeeLoader’у и, вуаля, он зашьет ее во флэш! Делов-то 🙂

Вот таким образом мы получили достаточно мощный и недорогой инструмент для работы с натуральной речью, который можем лепить сами как захотим, не ограничиваясь рамками прошивки производителя. Можно делать все, на что хватит фантазии 🙂 Тем более, железка и технологии действительно уникальные, интересные и очень качественно вылизанные производителем (ребята из Sensory — молодцы).

Во вложении вы найдете ссылку на архив со всем необходимым (архив с софтом и пилюлями уникален и больше вы его нигде не достанете):
1. Инструментарий Sensory последних версий: QuickT2SI 3.1.7 (с лечивом), QuickSynthesis 5.2.1, библиотеки FluentChip 3.1.6 с примерами и всей документацией, в том числе на чип и железо.
2. Инструментарий Phyton: Project-SE 1.22.00 (с лечивом)
3. Инструментарий VeeaR: VeeLoader.exe и последняя прошивка EasyVR, если захочется вернуть штатный функционал

Все вопросы и пожелания пишите в комментах. Чем смогу — помогу :)

we.easyelectronics.ru

Управление голосом списком продуктов на основе Raspberry

Одна серьезная проблема относительно покупки еды у многих — это когда ты полностью забываешь что купил и когда она испортится. Мы используем Raspberry Pi, Python и распознавание голоса, чтобы создать систему, которая добавляет или удаляет элементы в списке того, что находится в холодильнике.

Что нам пригодится

Аппаратные средства:

1 — Raspberry Pi модель B (с Wi-Fi)
1 — USB аудиокарта
1 — Микрофон

Программное обеспечение:

1 — Python 3
1 — Библиотека распознавания речи Python
1 — Библиотека PyAudio Python

Установка библиотек Python и настройка аудио

Прежде чем мы сможем запустить нашу программу на Python, нам необходимо установить две библиотеки — распознавание речи и PyAudio. Чтобы установить эти две библиотеки, вам нужно запустить следующие две команды в окне терминала:

$ sudo pip install SpeechRecognition
$ sudo pip install PyAudio

Если у вас возникли проблемы с установкой PyAudio, вы можете установить ео, используя следующую последовательность инструкций:

$ sudo apt-get install git
$ sudo git clone http://people.csail.mit.edu/hubert/git/pyaudio.git
$ sudo apt-get install libportaudio0 libportaudio2 libportaudiocpp0 portaudio19-dev
$ sudo apt-get install python-dev
$ cd pyaudio
$ sudo python setup.py install

После того, как эти две библиотеки будут установлены, вам необходимо отключить встроенный аудио драйвер на Raspberry Pi, так как это может помешать работе PyAudio. Для этого начните с открытия нового терминала и выполните следующие команды:

$ cd /etc/modprobe.d
$ sudo nano alsa-blacklist.conf

Nano — простой текстовый редактор для терминала, и когда он загружается, вам нужно только ввести одну строку:

blacklist snd_bcm2835

Нажмите Ctrl + X, чтобы выйти из nano и сохранить файл с именем alsa-blacklist.conf. Этот простой файл отключает аудиосистему Broadcom от Raspberry Pi, поэтому единственной аудиосистемой, доступной на Pi, является звуковая карта USB.

Как работает голосовой контроль списка холодильника

Сценарий Python начинается с импорта модуля распознавания речи, который используется для преобразования устных слов в строку. Когда модуль был импортирован, мы создаем объект «r», который является объектом распознавания речи и используется для записи звука с микрофона, а затем запрашивает преобразование. После определения объекта распознавания речи мы также определяем наши переменные, включая список элементов, команду, текущий элемент и массив, в котором содержатся анализируемые команды.

import speech_recognition as sr

r = sr.Recognizer()
items = dict()
command = ""
item = ""

При первоначальной конфигурации следующий кусок кода, который должен быть выполнен, является основным циклом. Первая задача в цикле состоит в том, чтобы сообщить пользователю говорить, напечатав слово «Speak», а затем создайте аудио-объект под названием «audio», который будет содержать наш поток с микрофона.

while(1):
    with sr.Microphone() as source:                                            
        print("Speak:")
        audio = r.listen(source)

Когда микрофон обнаружил звук и закончил запись (запись прекращается, когда уровень звука падает ниже порогового значения), он передает записанный звук в наш объект распознавателя. Поступая таким образом, r будет использовать службы Google, чтобы попытаться преобразовать аудио в предложение, которое затем передается переменной, называемой speechString. Весь этот код выполняется в блоке try/except, если звук не был понят или если услуга недоступна. Полученная строка также анализируется на prasedCommands, где разделителем является пробел. Так что, если слова «добавить бекон» будут сказаны, результатом будет то, что parsedCommands[0] будет «добавить», а parsedCommands[1] будет «беконом».

try:
        speechString =r.recognize_google(audio)
        parsedCommands = speechString.split(" ")
    except sr.UnknownValueError:
        print("Could not understand audio")
    except sr.RequestError as e:
        print("Could not request results; {0}".format(e))
    
if(len(parsedCommands) > 0):  
        command = parsedCommands[0]

    if(len(parsedCommands) > 1):  
        item = parsedCommands[1]

Теперь, когда у нас есть наши анализируемые команды и элементы, мы можем добавить их в наш список товаров. Однако, чтобы сохранить чистоту, мы выполняем несколько проверок, которые выполняют следующие действия:

  • Если элемент уже существует и добавляется, то затем увеличиваем значение элемента
  • Если элемент не существует и добавлен, добавить элемент в список
  • Если элемент уже существует и удаляется, то вычитать 1, если сумма больше 1
  • Если элемент уже существует, указание удалить, и если остается только один элемент, удалить элемент
  • Если элемент не существует, игнорировать команду
if(command == "add"):
        if item in items:
            items[item] = str(int(items[item]) + 1)
        else:
            items[item] = str(1)

        print(item + " added")

    if(command == "remove"):
        if item in items:
            if(int(items[item]) > 1):
                items[item] = str(int(items[item]) - 1)
            else:
                try:
                    items.pop(item, None)
                except:
                    pass
        print(item + " removed")

Последняя команда в этом простом скрипте — это «display», который печатает содержимое элемента переменной на дисплее.

if(command == "display"):
        print(items)

Полный код

import speech_recognition as sr

r = sr.Recognizer()
items = dict()
command = ""
item = ""


while(1):
    with sr.Microphone() as source:                                            
        print("Speak:")
        audio = r.listen(source)
    try:
        speechString =r.recognize_google(audio)
        parsedCommands = speechString.split(" ")
    except sr.UnknownValueError:
        print("Could not understand audio")
    except sr.RequestError as e:
        print("Could not request results; {0}".format(e))

    if(len(parsedCommands) > 0):  
        command = parsedCommands[0]

    if(len(parsedCommands) > 1):  
        item = parsedCommands[1]

    if(command == "add"):
        if item in items:
            items[item] = str(int(items[item]) + 1)
        else:
            items[item] = str(1)

        print(item + " added")

    if(command == "remove"):
        if item in items:
            if(int(items[item]) > 1):
                items[item] = str(int(items[item]) - 1)
            else:
                try:
                    items.pop(item, None)
                except:
                    pass
        print(item + " removed")
        
    if(command == "display"):
        print(items)
    
    command = ""
    item = ""
    days = ""
    parsedCommands.clear()

Само устройство

Этот проект реализован на основе Raspberry Pi и не требует никакой схемы или оборудования помимо микрофона и дисплея.

Обычный монитор или телевизор можно использовать, но это не очень практично для монтажа, поэтому в этом проекте был взят небольшой 3,5-дюймовый дисплей Raspberry Pi с разрешением 480×320. Хотя это слишком мало для нормального использования, оно идеально подходит для работы с командной строкой. А если наша «малина» программируется и используется по сети (используя SSH), вы можете запустить программу Python с любого компьютера, подключенного к Интернету.

arduinoplus.ru