Системы распознавания голоса - не существует
По сообщению издания Reuters миллионы пользователй сотовых телефонов в Англии получают расстройсва кистей и пальцев из-за чрезмерного употребления функций текстовых сообщений (СМС-ок попросту говоря). Некоторые посылают более 100 мессаг в день.
Вообще, современные средства коммуникации не оставляют людям шанса видеться воочию: ну в самом деле, если кто-то уже послал мессагу кому-то и все в ней сказал - зачем встречаться еще раз? :)
И кто мне сейчас скажет, что системы распознавания (не то, что преобразования) голоса существуют?
По моему, если бы они были, то люди бы просто напросто наговаривали текст. Но этого нигде нет, поэтому системы распознавания голоса - не существует.
Вообще, современные средства коммуникации не оставляют людям шанса видеться воочию: ну в самом деле, если кто-то уже послал мессагу кому-то и все в ней сказал - зачем встречаться еще раз? :)
И кто мне сейчас скажет, что системы распознавания (не то, что преобразования) голоса существуют?
По моему, если бы они были, то люди бы просто напросто наговаривали текст. Но этого нигде нет, поэтому системы распознавания голоса - не существует.
Comments (32):
после блогов и подкастов (то, что сейчас пытается популяризировать Вася Стрельиков), ИМХО, наступит время видеокастов. Снял на телефон - зааплодил на сервак - все подписанты скачали и воткнули. Вот такую прибабаху мы запустим к сентябрю, если не раньше. Денег, понятно, не заработаем. Но... траффик ничто - имидж модного портала всё :)
да потому что текст всё равно останется нужным
но если возникла необходимость "вотпрямздесьищас", то не бубнить же
аналогично - в метро, где нихрена не слышно
смс - на то и смс, чтобы обходиться без голоса
но это не значит, что эти случаи преобладают и ли то, что их нельзя преодолеть.
любой шум возможно отфильтровать, даже уменьшить! есть технология, что стоишь около работающего двигателя самолёта и ТИШИНА или шум на грани слуха. есть такое и почему бы в метро этого не сделать или ещё где в шумных местах? и сделают, вот увидишь :)
в мобильном мне это не нужно нафиг
в кпк - возможно
дома - только если переводить с диктофона в печатный вид: и то если это будет сопоставимо по скорости и "качеству" с ручным вводом
для остального есть сканеры и собственные ручки
легче говорить было бы. и быстрее. попробуй. :)
говорю я сумбурно, а печатаю гораздо организованней
м?
Такая система должна по определению отжирать большое количество ресурсов и далеко не каждый сотовый телефон сможет это количество ресурсов предоставить.
хорошо...сотовый я для пимера привёл. давайте обратим внимание на компьютеры. приведи мне хотя бы одного пользователя, который дома или на работе наговаривает тексты голосом в word, письма, в жж ли... - и я поверю, что такая система есть :)
Офис: куча сотрудников сидят и бубнят в микрофоны компов. Работать в такой обстановке будет на порядок сложнее.
Дом: еще сложнее, допустим, я могу одновременно работать и говорить по телефону. А если учесть, что работать я предпочитаю по ночам, когда все спят, это создаст дополнительные трудности.
Компьютеры в общественных местах (вот в ИХ существовании я сомневаюсь (((: ): Любой проходящий мимо узнает все, что ты не сильно горишь сделать достоянием общественности.
И еще: всяческие служебные значки и прочее удобнее набирать с клавы, чем произносить. Команды оболочки - точно так-же.
А если тебе надо набрать текст на языке, на котором ты не умеешь разговаривать??? ((:
Т.о. без клавы в любом случае не обойтись.
+ Вопрос окупаемости. Если она есть, то, вероятно, будет стоить достаточно недешево, поэтому рядовому пользователю ее использовать будет накладно.
зы. Я не утверждаю, что они есть, я просто говорю, что они МОГУТ существовать.
Вдобавок к тому, то, что человек ПИШЕТ, не всегда легко ДИКТУЕТСЯ. Когда человек хочет что-то написать, ему как правило нужно получить законченный результат, с конкретными словами, конкретными знаками препинания; и при этом в случае диктовки текста между ним и текстом стоят как минимум омофоны и знаки препинания. Как объяснить распознающему, если он не обладает человеческим интеллектом, что слово, произносящееся как "лук", во фразах "он вышел на луг косить траву" и "подняв луг, он выпустил стрелу в цель", пишется по-разному? А если это ещё и аббревиатура, наподобие LUG ("зашёл сегодня на встречу LUG-а и взял у них новый Мандрейк")? Как объяснить, что во втором предложении про луг надо ставить запятую - сказав слово "запятая"? И если да, как в таком случае продиктовать предложение "После деепричастных оборотов ставится запятая"? Человек (секретарь, например) это может понять по контексту - но для компьютерного распознавания речи в данном случае придётся реализовывать полномасштабный AI.
И опять же, огромное количество текста не так-то легко продиктовать, даже если распознаёт человек. Вот будут тебе диктовать учебник по квантовой физике - много ты сам поймёшь и напишешь? А если это будет статья с особенностями диалектов различных деревень Сибири? Или доклад с конференции нейрохирургов? Или беседы хардкорных геймеров с их использованием их уникального слэнга? Человек, пытаясь понять, что ему диктуют, имеет единственный шанс написать всё правильно - это переспросить. Переспрашивающая система распознавания речи - это уже что-то опять-таки AI-шное (кстати, у меня есть книга "Искусственный интеллект - современный подход" Стюарда Расселла и Питера Норвига - такой кирпичик увесистый, с один том "Искусства программирования" - тебе для твоей работы этого не надо?).
И это не говоря уже про то, что человек редко пишет сразу набело, даже если пишет и текст. Почти всегда он при этом редактирует написанное. Я даже представить не могу, сколько раз я за время написания этого комментария нажимал Backspace и курсорные стрелки. В случае с диктовкой, это усложняется.
это всё мелочи. главное - реализовать алгоритм, а уж управлять им - совсем другая забота.
если я начал писать и захотел исправить, я замолчу и нажму на BS :)
поправлю что нужно и продолжу говорить!
в результате этого образуется навык, что человек будет сперва думать, а потом уже говорить. :)))))
насчёт среды - это всё можно потом реализовать в виде надстроек и расширений, но именно над основой. :)
Так вот я про то и говорю, что... не получится.
Невозможно такое, что "внизу идёт распознавание отдельных звуков и конвертация в буквы, выше него построение слов из букв, выше него построение предложения из слов, выше него - анализ смысла всего текста". Потому что даже у самого лучшего распознавателя - человека - самая низкоуровневая часть - распознавание звуков - обратной связью задействует самые высокие уровни распознавания, считая, что "этот звук более вероятен как "г" чем "к", пусть даже он и звучит акцентированно как "к", поскольку в предложениях до этого речь шла о косьбе". Т.е., правильный перевод звука в букву - это не "буква=F(звук)", это скорее "буква=F(звук, предыдущие звуки слова, предыдущая произнесённая часть предложения, предыдущий текст)".
А ещё даже более вероятно - "буква=F(звук, предыдущие и последующие звуки слова, предыдущая и последующая часть предложения до его завершения, предыдущий и последующий текст)". И только в первом случае получится так, что то, что ты диктуешь, сразу появляется на экране; во втором случае, оно может не появиться на экране, пока система не поймёт, что ты закончил предложение... а то и весь текст.
А если таки надобно, чтобы на экране после диктовки оно сразу появлялось, то после появления введённое не "зафиксируется", а будет колебаться - система должна будет постоянно в дальнейшем процессе диктовки оценивать, правильно ли она поняла продиктованное, и если что - быть готовой мгновенно переправить что-то уже выведенное...
... ибо именно так ведёт себя человек, пишущий текст под диктовку.
верно, всё верно говоришь... всё будет так, как нужно
респект
ну и что ты мне прислал это? я эту ссылку видел в 1998 году... и что? что дальше то? :))
Какааая жалость. Судя по всему, мне теперь, чтобы позвонить конкретному человеку с мобильника, вместо того, чтобы произносить в гарнитуру его имя и тут же с ним соединяться, придётся доставать мобильник и искать там его номер... а всё потому, что Всеведущий Евгений Иванов Отменил Системы Распознавания Речи.
я ж говорю - это примитивная система сравнения-распознавания :) тупая донельзя. в ней же не происходит преобразование в текст и потом уже сравнение текста-цифер, а именно происходит просто тупое сравнение спектра-шаблона (который ты наговорил до этого - то есть, "научил" её, запрограммировал).
уточняю который раз - ПРЕОБРАЗОВАНИЯ.
пока занят, но скоро продолжу очередной этап...
Полтора года занят, ага.
А как сильно продвинулся за полтора года? Насколько хорошо твоя распознавалка уже сейчас речь распознаёт? Если она делает хотя бы 50% ошибок - то можно уже выпускать демо-версию и начать привлекать к себе внимание.
скоро увидим...не торопи