Назад
Новые возможности звукового распознавания с аудиопроцессором Microsemi ZL38052
Автор статьи
Опубликовано в журнале «Вестник Электроники» №3-4 2017
Компания Zarlink (Microsemi) выпустила на рынок новый аудиопроцессор ZL38052 семейства Timberwolf, который успешно применяется в составе IP-камер, систем пожарной и газовой безопасности, в управляемых голосом шлюзах. В статье приводится обзор характеристик и преимуществ процессора, а также сопроводительного программного обеспечения, позволяющего значительно расширить функциональные возможности конечных изделий.
Возможности аудиопроцессора нового поколения ZL38052
ZL38052 — ведущая модель семейства аудиопроцессоров Timberwolf от компании Zarlink (Microsemi). В дополнение к современной аппаратной платформе (рис. 1) эти устройства оснащены инновационной акустической технологией AcuEdge, которая поддерживает внушительный набор высокосложных и интегрированных алгоритмов обработки звука.
Благодаря такому оснащению процессоры ZL38052 способны воспринимать отдаленные входящие аудиосигналы, подавлять эхо и шумы при проведении видеоконференций, обрабатывать конференц-вызовы с подключением спутниковых телефонов, а также обеспечивать работу IP-камер и камер наблюдения высокой четкости с двусторонней передачей голоса (рис. 2 и 3).
Перечислим основные аппаратные характеристики ZL38052.
Используется DSP со встроенной памятью, частотой 300 МГц и аппаратным ускорением обработки голоса. Поддерживаются 2 цифровых микрофонных интерфейса, с возможностью параллельной обработки данных от 4 цифровых микрофонов.
Можно задействовать 2 независимых драйвера для телефонной гарнитуры с емкостью 16 Ом и выходной мощностью 32 мВт. Для поддержки гарнитур используются двухканальные 16-разрядные цифро-аналоговые преобразователи (ЦАП).
Доступны 2 шины мультиплексирования времени (TDM). Порты конфигурируемые, с поддержкой режимов импульсно-кодовой модуляции (РСМ) или Inter-IC Sound (I2S). В первом случае поддерживается синхронизация PCM и GCI, во втором — I2S. Каждый порт может выступать в роли ведущего или ведомого. В режиме РСМ каждый порт способен поддерживать до 4 двусторонних потоков передачи голосовых данных, в режиме I2S — до 2 двусторонних потоков со скоростью от 128 кб/с до 8 Мб/с.
Поддерживаются 2 порта последовательного интерфейса SPI. Производитель рекомендует в качестве основного порта взаимодействия с хост-процессором использовать ведомый (Slave) SPI-порт, поскольку он обеспечивает наиболее быструю загрузку и настройку прошивки устройства. Ведущий (Master) SPI-порт следует использовать для загрузки прошивки устройства с внешней Flash-памяти (в режиме автозагрузки).
Также доступен I2C-порт. По аналогии с SPI он может использоваться в качестве основного порта взаимодействия с хост-процессором, для загрузки устройства и настройки прошивки.
Набор портов GPIO можно использовать для создания отчетов о прерываниях и событиях, управления фиксированными режимами функционирования и параметрами загрузки. Также GPIO можно задействовать как порты ввода/вывода общего назначения для связи и управления внешними устройствами.
Для отладки и дополнительной настройки устройства предусмотрен порт UART.
Возможности сопроводительного ПО AcuEdge
Технология Microsemi AcuEdge включает бесплатный программный пакет, который значительно расширяет функционал аудиопроцессоров семейства Timberwolf и поддерживает такие алгоритмы обработки аудиосигналов, как оценка местонахождения источника звука и определение его направления (адаптивная диаграмма направленности), подавление акустического эха и шумов, определение звуковых команд и слов-инициаторов, а также многие другие возможности для улучшения разборчивости и субъективного качества голоса в жестких условиях эксплуатации (рис. 4).
Перечислим ключевые возможности программного обеспечения Microsemi AcuEdge:
- Двусторонняя передача аудио. Обеспечивает полнодуплексный канал голосового общения с использованием телефонных гарнитур.
- Подавление шумов. Уменьшает стационарные посторонние шумы от кондиционеров, вентиляторов, электроники и т. д.
- Направление звука. Обнаруживает местоположение источника звука.
- Формирование зоны источника звука. Определение области нахождения говорящего, что увеличивает четкость голоса и минимизирует нестационарные шумы.
- Обработка отдаленного звука. Мгновенно усиливает отдаленные сигналы.
- Распознавание голосовых команд на фоне других звуков.
- Распознавание ключевых слов для включения устройства.
- Распознавание командных фраз для голосового управления без подключения к сети.
Кроме того, ZL38052 поддерживает функции классификации звуков, что позволяет системе слежения распознавать и различать такие аудиособытия, как сигналы детекторов дыма (Т3) и детекторов угарного газа (Т4), звук бьющегося стекла.
В общем случае, для ZLS38052 производитель предлагает 2 профиля настроек для выбора нужного режима функционирования: полнодуплексная коммуникация и распознавание тревожных сигналов. Режим полнодуплексной коммуникации (ZLS38052.0):
- Улавливание звуков от отдаленных источников.
- Формирование зоны источника звука.
- Оценка местонахождения источника звука.
- Полное подавление узкополосного и широкополосного акустического эха.
- Поддержка подавления длинного эха (до 256 мс).
- Нелинейное эхоподавление для избежания резких искажений звука в динамиках гарнитуры.
- Обнаружение и подавление воя
- Предотвращение колебаний при эхоподавлении.
- Усовершенствованное шумоподавление для фильтрации звуков от находящихся рядом посторонних источников.
- Различные алгоритмы кодирования/декодирования сигналов: линейный 16-битный, G.722, G.711 A/µlaw.
- Эквалайзеры для передаваемого и принимаемого сигналов.
Режим распознавания тревожных сигналов (ZLS38052.2):
- Распознавание тревожных сигналов T3 (сигнализация датчиков дыма).
- Распознавание тревожных сигналов T4 (сигнализация датчиков возгорания).
- Распознавание звука бьющегося стекла.
- Программируемый детектор управления энергопотреблением.
Дополнительно поддерживается динамическое переключение между этими профилями непосредственно в процессе работы оборудования.
Дополнительные инструменты разработки
В дополнение к аудиопроцессорам семейства Timberwolf производитель Microsemi поставляет на рынок дополнительные инструменты для ускорения цикла разработки конечных продуктов.
В частности, для интерактивной настройки оборудования аудиопроцессора ZL38052 разработчики могут использовать совместимый программный пакет MiTuner с удобным графическим интерфейсом. MiTuner поставляется в продвинутой модификации ZLS38508 и более упрощенной ZLS38508LITE.
Возможности программного пакета включают поддержку автоматической и субъективной подстройки звука, настройку ключевых параметров разрабатываемой системы, визуальное отображение аудиодорожек с удобным контекстным меню программного управления параметрами звучания (рис. 5).
Также доступен полный комплект автоматической настройки MiTuner ZLE38470BADA, который обеспечивает легкое управление для тонкой ручной настройки возможностей технологии AcuEdge. В комплект входят блок аппаратного аудиоинтерфейса, микрофон и наушники, программный пакет ZLS38508 MiTuner (рис. 6).
Заключение
Возможности аудиопроцессоров ZL38052 и других моделей семейства Timberwolf от компании Microsemi позволяют применять их в голосовых приложениях с повышенными требованиями к точности и четкости обработки звука. Процессоры поддерживают передовую технологию Microsemi AcuEdge, набор высокоточных и интегрированных алгоритмов которой позволяет пользователям извлекать больше полезной информации из аудиопотоков.
Набор инструментов разработчика с поддержкой программной среды MiTuner позволяет проектировщикам удобно и быстро создавать требуемые эталонные конструкции, проводить их оперативное конфигурирование и отладку. Все это помогает разработчикам значительно расширить функционал конечного изделия и ускорить его выход на рынок.
По всем вопросам обращайтесь в департамент активных компонентов