Поговорим со своим мобильным

Современные электронные гаджеты разных производителей жестко конкурируют между собой. А потому их создатели стараются использовать в них новейшие технологии, чтобы получить преимущества перед конкурентами. В этом смысле важнейшую роль играют и технологии распознавания голоса.

Первые устройства, предназначенные для распознавания речи (то есть преобразования речевого сигнала в цифровую информацию), появились еще в начале 50-х годов. Однако они тогда не получили коммерческого распространения. Активное развитие этого сегмента технологий началось только в 90-е годы. Они предназначались для людей с ограниченными физическими данными, которые не в состоянии были набирать традиционным способом большие объемы текста.

В итоге начали создаваться специальные программы распознавания человеческого голоса и человеческой речи. Наиболее известной из них является приложение Microsoft Voice Command. Более того, с увеличение мощности мобильных устройств дает возможность создать программы с функцией распознавания речи и для них.

Следующей ступенью развития интерактивных голосовых систем (IVR) стали интеллектуальные речевые решения, которые автоматически синтезируют и распознают человеческую речь. Они становятся более независимыми, распознавая голос любого человека – технология SIND (без привязки к голосу конкретного человека).

Но производители гаджетов уже работают над созданием более эффективных технологий распознавания речи, среди которых наиболее перспективными считаются системы Silent Speech Interfaces (SSI) (Интерфейс Безмолвного Доступа). Они способны обработать речевые сигналы еще на стадии артикулирования, что позволяет преодолеть проблему чрезмерной чувствительности к посторонним шумам.

Большинство используемых сейчас программ использует систему распознавания речи по принципу «клиент-сервер» (client-server). Речевая команда поступает непосредственно на мобильное устройство пользователя, передается через Интернет на удаленный сервер, обрабатывается и направляется в виде команды назад на устройство.

Меньше используется системы распознавания речи, которые работают «на клиенте» (client-based) и самой распространенной из которых является Speereo Software. Суть этой системы в том, что речевая команда вводится на мобильное устройство и им же обрабатывается. Пользователь при этом более мобилен, не зависит от работы удаленного сервера и качества связи.

Однако пока применяемые в мобильных телефонах технологии несовершенны. Для запуска большинство программ распознавания необходимо вывести устройство из режима ожидания или взять в руки смартфон. Это неудобно, например, для пользования гаджетами за рулем автомобиля.

К тому же фильтрация фоновых шумов, аутентификация голоса владельца устройства требуют дополнительной мощности от мобильных устройств. Следующим шагом должно стать внедрение технологий, которые приведут к сокращению потребления энергии мобильного устройства.

Статьи

Новости