2019-7-25 16:58 |
В 1952 году трое инженеров компании Bell Laboratories — Стивен Балашек (Stephen Balashek), Рулон Биддалф (Rulon Biddulph) и Кей Дэвис (K. H. Davis) — представили публике первый в истории аппарат, способный распознавать человеческую речь. Он получил название Audrey. Его имя было образовано из слов automatic digit recognizer -«автоматический цифровой распознаватель» — хотя само устройство было полностью аналоговым.
На тот момент Audrey казался революционным изобретением — он умел с точностью до 99% распознавать человеческую речь, произносимую по телефону. Однако этот проект, в котором впервые была реализована идея голосового набора телефонного номера, не стал успешным.
«Audrey оказался экономически непривлекательным изобретением: само устройство занимало шестиметровую релейную стойку, дорого стоило, потребляло значительную мощность и часто ломалось. К тому же, его надежная работа была ограничена точным распознаванием цифр, произносимых конкретными собеседниками», — пиcал в книге Trends in Speech Recognition известный американский инженер Джеймс Фланаган.
Тестирование Shoebox — устройства по распознаванию речи от IBM, 1961 годНесмотря на неудачу Audrey, специалисты крупнейших телеком-компаний США продолжали работу в этом направлении. В 1960-80-х годах первенство в разработках технологии распознавания речи принадлежало все той же компании Bell, а также IBM и AT&T. До массового потребителя они добрались лишь к началу 1990-х годов, когда на рынке появилась кукла Julie с функцией распознавания детской речи и программа для компьютерной диктовки Dragon Dictate.
OK, GoogleК началу 2000-х годов развитие индустрии застопорилось. К этому моменту существующие технологии могли распознавать человеческую речь с точностью около 80%, однако с большим трудом успевали за скоростью изменения языковых привычек пользователей, на которые все сильнее влиял интернет.
Прорывом стало появление в 2008 году сервиса голосового поиска от Google: его можно было использовать на мобильных устройствах, которые идеально подошли для массового распространения новой технологии.
Как инженеры, так и пользователи стремились к тому, чтобы способы ввода информации на миниатюрных устройствах стали максимально удобными. Кроме того, Google перенес обработку данных от голосового ввода в мощные облачные вычислительные центры, объединил его с анализом поисковых запросов и в результате значительно повысил точность распознавания речи.
Сейчас система обработки голосового поиска Google включает сотни миллиардов слов. Достижения поисковой системы влияют на поведение пользователей: ожидается, что в 2020 году каждая третья сессия в интернете и каждый второй поисковый запрос будут совершаться при помощи голосовых команд.
Успех голосовых помощниковВ 2010-х годах технологии распознавания речи захватили еще больше пространства. Широкое распространение в том числе получила речевая биометрия, то есть запись голоса человека, используемая для его идентификации.
Обычный человек стал сталкивается с ней все чаще, прежде всего из-за распространения все тех же голосовых помощников. Они должны уметь распознавать голос своего хозяина, чтобы обеспечить ему безопасное взаимодействие со множеством сервисов, обрабатывающих персональную информацию. «Такому ассистенту можно доверить приватную информацию, не опасаясь давать ему доступ к почте, мессенджерам или мобильному банку. При этом письма и сообщения он сможет озвучить только в том случае, если услышит голос живого человека, а не его запись», — рассказал Bloomchain коммерческий директор группы компаний «Центр речевых технологий» (ЦРТ) Андрей Лысков.
Первый из подобных продуктов появился на рынке в 2011 году — им стал Siri, говорящий ассистент от Apple. В 2015 году Amazon выпустил первую смарт-колонку Echo с голосовым помощником Alexa. За несколько лет эти товары захватили мировой рынок, став привычной частью современной жизни. По данным исследования Juniper Research, к 2022 году 55% американских домохозяйств будут использовать голосовые помощники (прежде всего Google Assistant, Siri, Microsoft Cortana и Amazon Alexa), а общее количество подобных устройств в США достигнет 175 млн.
Продажи голосовых помощников в США и ВеликобританииНа российском рынке появляются собственные виртуальные ассистенты. В конце 2017 года «Яндекс» представил голосового помощника “Алису”. Сервис встроен как в собственные приложения компании, так и в партнерские; на начало 2019 года его услугами пользовались 8 млн человек.
Над созданием голосового ассистента сейчас также работают Сбербанк, Тинькофф банк и Mail.ru Group.
Подключился к этой работе и Центр речевых технологий, который занялся разработкой виртуального помощника под именем “Варвара”. Предполагается, что продукт ЦРТ будет монетизироваться по лицензионной модели: ассистент сможет встраиваться в любые устройства и приложения, подключаясь к ним из облака. Сторонние компании смогут выпускать устройства с ассистентом под своим брендом.
Распознавание речи в медицинеЕще одной областью широкого применения подобных систем стала медицина. По данным MarketsandMarkets, по итогам 2017 года именно сектор здравоохранения занимал самую большую долю на рынке программного обеспечения для распознавания голоса и речи.
Доля стартапов, разрабатывающих собственные технологии в области распознавания речи, по отраслям /// Данные: декабрь 2017 года«Распознавание голоса становится основной технологией, широко используемой для улучшения электронных систем регистрации медицинских данных. Она позволяет врачам вести голосовые записи вместо ручного набора текста или письма», — отмечается в исследовании. В частности, голосовых ассистентов используют более 70% американских специалистов, работающих на установках МРТ (магнитно-резонансной томографии).
Эксперты выделяют еще несколько перспективных направлений развития этой технологии: от первой помощи одиноким пожилым людям и распознавания нарушенной речи до сбора «голосовых биомаркеров», способных диагностировать некоторые серьезные заболевания.
Драйверы отрасли: банки и телеком«Но все же главный локомотив [отрасли речевой биометрии] – это телеком и банки, которые автоматизируют свои колл-центры. И это не дань моде, речь идет о реальном снижении операционных издержек и повышении удовлетворенности клиентов”», — отмечает Лысков.
По словам коммерческого директора ЦРТ, речевая биометрия помогает сотрудникам компаний быстро и естественно «узнавать» клиента, который пришел в офис, магазин или позвонил на горячую линию.
«Человеку не приходится проходить процедуру идентификации: система распознает его голос в ходе естественного общения и подгружает сотрудникам необходимые подсказки, основанные на истории взаимодействия с этим клиентом. Подобный сценарий использования технологий речевой биометрии один из самых распространенных. Он применим в любой индустрии и в компании любого размера”», — отмечает коммерческий директор ЦРТ.
В крупных компаниях для аутентификации своих клиентов стараются использовать разные биометрические модальности: сочетания голоса и изображения лица человека. Однако на деле часто именно голос оказывается единственной возможностью идентифицировать клиента: например, при звонке по телефону.
«В такой ситуации у нас есть только знания звонящего, вроде кодового слова, и его голос. В этой ситуации другие биометрические модальности не применимы», — говорит Лысков.
По этой причине компаниям, которые занимаются речевой биометрией, приходится решать две главные задачи. Во-первых, обеспечить качество, то есть максимально комфортное взаимодействие пользователя с устройством, через которое осуществляется идентификация. Во-вторых — высокую точность работы биометрической системы, которая в идеале вообще не должна допускать ошибок.
Решением этих вопросов заняты крупнейшие представители отрасли, большая часть которых сосредоточена в Северной Америке — на нее приходится 35% мирового оборота индустрии. В число ведущих разработчиков технологии распознавания речи входят крупнейшие технологические компании мира: Microsoft, Google, IBM, Amazon. Все они делают акцент на дальнейшее совершенствование голосовых помощников, сервисы по переводу голосовых сообщений в текстовые заметки, голосовое управление компьютерами и отдельными программами, автоматизацию документооборота.
В Северной Америке сосредоточены и крупнейшие компании в мире, которые занимаются совершенствованием методов сбора речевой биометрии. Большая часть из них предлагают своим клиентам продукты с мультимодальной идентификацией. Ее проводят сразу по нескольким биометрическим особенностям (изображение лица, отпечаток пальца, сканирование сетчатки и т.д.). Их услугами пользуются не только крупные финансовые и телекоммуникационные компании, но и медицинские компании, автопроизводители и государственные органы.
Крупнейший в мире разработчик технологии сбора речевой биометрии — компания Nuance Communication, основанная в 1993 году в Массачусетсе. Она известна линейкой своих продуктов под названием Dragon, которые присутствуют на рынке уже более двадцати лет. В число ее клиентов входят банки Barclays, HSBC, Bank of America, операторы связи T-Mobile, Telefonica, AT&T, Vodafone, автоконцерны Ford, Toyota, BMW, Audi, Mercedes, авиакомпании Delta, American Airlines, железнодорожный перевозчик Amtrak и сервис доставки FeDex. Капитализация компании составляет почти $5 млрд.
Речевая биометрия в РоссииКрупнейший игрок на российском рынке речевой биометрии — петербургская компания «Центр речевых технологий» (ЦРТ), основанная в 1990 году. В ее портфолио входят разработка системы записи телефонных разговоров, шумоочистки, речевого оповещения и биометрического доступа, синтезаторы речи, программы распознавания речи и ее преобразования в текст, системы аудиопротоколирования и даже военная продукция.
Данные: ЦРТКоммерческий директор ЦРТ Андрей Лысков в разговоре с Bloomchain отметил, что Россию можно отнести к мировым лидерам как по развитию технологий цифровой идентификации, так и по количеству и масштабу внедрений.
По его словам, как и в остальном мире, в стране больше всех заинтересованы во внедрении технологий речевой биометрии финансовый сектор, телеком и государственные структуры. Именно их представители и входят в число ключевых партнеров компании.
По словам Лыскова, компания предлагает комплексные решения по сбору, обработке и использованию биометрических данных. «Мы последовательно развиваем наш технологический и продуктовый портфель во всех сценариях взаимодействия «человек-человек» и «человек-машина». Это голосовая и лицевая биометрия, голосовая аналитика (ключевые слова, структура и эмоциональность диалогов, пол и возраст диктора), многоканальные чат-боты и голосовые помощники», — отметил он.
В ЦРТ также решают проблемы точности и качества работы своих систем. Так, в компании активно развивают анализ звуковых событий, которые могут исказить голос человека: это может быть хлопок, разбитое стекло, аномальная вибрация, шум агрегатов, чихание, звуки животных.
Также в ЦРТ пытаются сделать максимально естественным процесс взаимодействия человека с компьютером. «Нельзя назвать комфортной ситуацию, в которой пользователя вынуждают два или три раза повторять какую-то фразу строго в микрофон. ЦРТ качественно распознает слитную человеческую речь даже при сильном шуме на естественном для диалога расстоянии. Пока так не умеет никто в мире», — заявляет Лысков.
ЦРТ — один из мировых лидеров в разработке систем защиты голосовой биометрии от мошеннических атак. Весной прошлого года компания приняла участие в конкурсе Automatic Speaker Verification Spoofing and Countermeasures Challenge, который раз в два года проходит в рамках ключевой отраслевой конференции Interspeech. На нем компания заняла первое место, показав наибольшую устойчивость при попытках обмана своей системы телефонными мошенниками.
Альянс со СбербанкомО важности систем сбора биометрии в целом и технологий распознавания речи в частности свидетельствует интерес к ним со стороны крупного российского капитала. В апреле стало известно, что владельцем контрольной доли в ЦРТ станет Сбербанк.
Причин для закрытия сделки, размер которой оценивали в 5 млрд рублей, может быть несколько. Первая — стратегия по постепенному превращению крупнейшего банка России в «финансовую экосистему», которая включает в себя множество сервисов самого разного профиля. Вторая — попытка Сбербанка создать собственную систему биометрической идентификации клиентов, которая может заработать параллельно с Единой биометрической системой (ЕБС) от Ростелекома.
Экосистема СбербанкаНо любопытнее всего выглядит версия, о которой можно судить по заявлению заместителя председателя правления Сбербанка Станислава Кузнецова после заключения соглашения с ЦРТ.
«Экспертиза и опыт Сбербанка в части работы с AI и большими данными позволят ЦРТ увеличить применение голосовых технологий в стране, а также тиражировать российские технологии на международном уровне и претендовать на мировое лидерство», — отметил зампред правления Сбербанка.
До сих пор немногие российские компании, работающие в высокотехнологичной сфере, добивались крупного международного успеха. У ЦРТ есть неплохие шансы добиться хороших результатов не только в национальном, но и в глобальном масштабе.
Запись Ok, Google, или как устроен рынок голосовой биометрии впервые появилась Bloomchain.
Аналог Notcoin - Blum - Играй и зарабатывай Монеты