В наше життя технологія розпізнавання мови прийшла зовсім недавно - завдяки розумним помічникам в наших смартфонах і колонках. І отримала ряд захоплених відгуків від того, що машина може не просто зрозуміти, про що ми говоримо, але і відповісти нам - іноді з гумором і іронією.
Ми говоримо приблизно в чотири-п'ять разів швидше, ніж пишемо. Логічне запитання: чому ж технологічні компанії тільки зараз почали надавати можливості голосового управління?
Насправді ідея створення якоїсь машини для розпізнавання мови виникла приблизно в XVIII столітті. Тоді-то і відбулися перші зрушення в напрямку розвитку технології.
Саме в цей період відбулося головне досягнення - створення машини Фабера, яка базувалася на людській анатомії відтворення звуку і є першим синтезатором мови. Звичайно, темпи технологічного розвитку тієї епохи не дозволяли винахідникам піти далі, ніж механічна машина. Але, їх напрацювання стали незамінними для відкриттів, яким судилося з'явитися набагато пізніше.
В кінці 19 століття Томас Едісон створив диктофон, який дозволив робити записи голосу, але поки не розпізнавання. Він полюбився лікарям, секретарям і інших професій, в яких необхідно було багато записувати.
Технологія розпізнавання вперше стала реальністю тільки в 1952 році. Команда винахідників компанії Bell Labs створила машину Audrey, яка розпізнавала цифри від 0 до 9 з точністю до 90%, коли говорив винахідник, і від 70% до 80%, коли цифри називали інші учасники експерименту.
У 1997 році був створена комп'ютерна програма, Dragon's NaturallySpeaking. Вона відрізнялася тим, що могла безперервно розпізнавати до 100 слів за хвилину. Тобто, диктору не було необхідності робити паузи між словами.
Система машинного навчання зробила прорив в технології розпізнавання. Завдяки машинному навчанню в 2008 році Google запустив додаток Google Voice Search для iPhone. Великий обсяг даних, дозволив додатку навчитися і зробити великий стрибок в результатах, якщо порівнювати з попередніми технологіями розпізнавання. В кінці ХХ століття машини навчилися розпізнавати мову з точністю вище 90%.
Це привело нас до нового етапу розпізнавання мови, який зараз набирає все більшої популярності: голосовим ботам, які стали фундаментом для створення повноцінних голосових помічників: Google Assistant, Siri, Cortana, Alexa та ін. І якщо спочатку функції голосових помічників були створені під смартфони, то за останні кілька років концепція додатків, які активуються голосом, змінилася. Тепер місцем проживання голосових помічників стали практично всі домашні прилади, а в сфері технологій з'явився термін "Інтернет речей". Дослідження Google показали, що більше 50% користувачів готові перейти до системи "розумного будинку", в якому прилади підтримуються голосовими командами.
Якщо саме ці напрямки Вам цікаві, і Ви бачите своє майбутнє в ІТ-сфері, почніть вивчати Штучний інтелект разом з нами! Кафедра штучного інтелекту Державного університету телекомунікацій запрошує Вас на навчання!