Розпізнавання мовлення — Вікіпедія

Розпізнава́ння мо́влення (англ. speech recognition) або мо́влення-у-те́кст (англ. speech to text (STT))— процес перетворення мовленнєвого сигналу в текстовий потік. Не варто плутати із визначенням розпізнавання мови, оскільки «розпізнати мову» безпосередньо означає лише дати відповідь на питання, до якої мови належить сегмент мовленнєвого сигналу. Часто використовується у наборі технологій, що дають змогу керувати комп'ютером, використовуючи людський голос, вводити інформацію голосом, диктувати, транскрибувати (стенографувати) фонограми.

Історія[ред. | ред. код]

Перший пристрій для розпізнавання усної мови з'явився в 1952 році, він міг розпізнавати вимовлені людиною цифри. [1] В 1964 році на ярмарку комп'ютерних технологій у Нью-Йорку було представлено пристрій IBM Shoebox.

Комерційні програми з розпізнавання мовлення з'явилися на початку дев'яностих років. Зазвичай їх використовують люди, які через травми рук не в змозі набирати велику кількість тексту. Ці програми (наприклад, Dragon Naturally Speaking, VoiceNavigator) переводять голос користувача в текст, таким чином, розвантажуючи його руки. Надійність перекладу у таких програм не дуже висока, але з роками вона поступово покращується.

Збільшення обчислювальних потужностей мобільних пристроїв дозволило і для них створити програми з функцією розпізнавання усної мови. Серед таких програм варто відзначити Microsoft Voice Command, яка дозволяє працювати з багатьма прикладними програмами за допомогою голосу. Наприклад, можна включити відтворення музики в плеєрі або створити новий документ.

У комп'ютерах Apple Macintosh у налаштуваннях системи є вбудована функція Speech, що здатна аналізувати команди користувача при натисканні певної клавіші, або якщо команді користувача передує ключове слово.

Ще однією цікавою програмою є Speereo Voice Translator — голосовий перекладач. SVT здатна розпізнавати фрази, вимовлені англійською мовою, і «промовляти» у відповідь переклад однією з вибраних мов.

Для української мови відома розробка розпізнавання мовлення[2], яка дає змогу вводити текст голосом. Ця система працює зі словником понад 100 тисяч слів. Її можна завантажити та використовувати для диктування текстів середньої складності.

Інтелектуальні мовні прикладні програми, що дозволяють автоматично синтезувати і розпізнавати усну мову, є наступним етапом розвитку інтерактивних голосових систем IVR. Використання інтерактивного телефонного програмного забезпечення в наш час[коли?] є не даниною моді, а життєвою необхідністю. Зниження навантаження на операторів контакт-центрів і секретарів, скорочення витрат на оплату праці і підвищення продуктивності систем обслуговування — ось тільки деякі переваги, що доводять доцільність подібних програм.

Однак, прогрес не стоїть на місці і останнім часом[коли?] у телефонних інтерактивних програмах все частіше використовують системи автоматичного розпізнавання і синтезу мовлення. У цьому випадку спілкування з голосовим порталом стає природнішим, оскільки вибір в ньому може бути здійснений не тільки за допомогою тонового набору, але і за допомогою голосових команд. При цьому системи розпізнавання є незалежними від дикторів, тобто розпізнають голос будь-якої людини. Основною перевагою голосових систем є доброзичливість до користувача — він позбавляється від необхідності продиратися крізь складні і заплутані лабіринти голосових меню. Тепер достатньо вимовлення мети дзвінка, після чого голосова система автоматично перемістить абонента в потрібний пункт меню.

Наступним кроком технологій розпізнавання мови можна вважати розвиток так званих Silent Speech Interfaces (SSI) (Інтерфейсів Безмовного/Артикуляторного Доступу). Ці системи обробки мовлення базуються на одержанні й обробці мовних сигналів на ранній стадії артикуляції. Цей етап розвитку розпізнавання мови викликаний двома істотними вадами сучасних систем розпізнавання: надмірна чутливість до шумів, а також необхідність чіткої і ясної вимови при звертанні до системи розпізнавання. Підхід, заснований на SSI, полягає в тому, щоби використовувати нові сенсори, що не піддаються впливу шумів, як доповнення до оброблених акустичних сигналів.

Методи розпізнавання[ред. | ред. код]

Якість розпізнавання[ред. | ред. код]

На 2016 рік розробка з розпізнавання та синтезу мови від компанії Microsoft забезпечує якість розпізнавання, близьку до людини (5.9% помилок проти 5.1%) та здатна визначати контекст (спорт, комп'ютери тощо). В 2017 році компанія IBM досягла рівня помилок у 5.5%[3].

Примітки[ред. | ред. код]

  1. Davies , K.H., Biddulph, R. and Balashek, S. (1952) Automatic Speech Recognition of Spoken Digits, J. Acoust. Soc. Am. 24(6) pp.637 - 642
  2. Розпізнавання мовлення – введення тексту голосом українською мовою (VoiceTypist). Архів оригіналу за 5 березня 2016. Процитовано 12 серпня 2012.
  3. IBM ПРЕВЗОШЛА MICROSOFT В ЭФФЕКТИВНОСТИ РАСПОЗНАВАНИЯ РЕЧИ. Архів оригіналу за 23 серпня 2017. Процитовано 23 серпня 2017.

Див. також[ред. | ред. код]

Література[ред. | ред. код]

  • Т.К. Винцюк. Анализ, распознавание и смысловая интерпретация речевых сигналов. — Киев. Наукова думка, 1987.
  • Методы автоматического распознавания речи: В 2-х книгах. Пер. с англ./Под ред. У. Ли. — М.: Мир, 1983. — Кн. 1. 328 с., ил.
  • Синтез и распознавание речи. Современные решения: А.В. Фролов, Г.В. Фролов.

Посилання[ред. | ред. код]