3 мая 2004. КлючСентябрь-праздник, 2004. Оранжевый цветочек

Системы распознавания голоса - не существует

По сообщению издания Reuters миллионы пользователй сотовых телефонов в Англии получают расстройсва кистей и пальцев из-за чрезмерного употребления функций текстовых сообщений (СМС-ок попросту говоря). Некоторые посылают более 100 мессаг в день.

Вообще, современные средства коммуникации не оставляют людям шанса видеться воочию: ну в самом деле, если кто-то уже послал мессагу кому-то и все в ней сказал - зачем встречаться еще раз? :)


И кто мне сейчас скажет, что системы распознавания (не то, что преобразования) голоса существуют?
По моему, если бы они были, то люди бы просто напросто наговаривали текст. Но этого нигде нет, поэтому системы распознавания голоса - не существует.

Comments (32):

    • webadmin
    • 02.03.2006 00:33
    • Москва / Москва
    Системы распознавания... а зачем?
    после блогов и подкастов (то, что сейчас пытается популяризировать Вася Стрельиков), ИМХО, наступит время видеокастов. Снял на телефон - зааплодил на сервак - все подписанты скачали и воткнули. Вот такую прибабаху мы запустим к сентябрю, если не раньше. Денег, понятно, не заработаем. Но... траффик ничто - имидж модного портала всё :)
    • да потому что текст всё равно останется нужным

  • а вот сидя на лекции, наговаривать под партой шепотом список покупок не очень-то удобно :))))
    • на лекции нужно учить предмет.
      • на лекции конспектировать нужно
        но если возникла необходимость "вотпрямздесьищас", то не бубнить же
        аналогично - в метро, где нихрена не слышно
        смс - на то и смс, чтобы обходиться без голоса
        • да, верно, есть случаи, где невозможны некоторые варианты.
          но это не значит, что эти случаи преобладают и ли то, что их нельзя преодолеть.
          любой шум возможно отфильтровать, даже уменьшить! есть технология, что стоишь около работающего двигателя самолёта и ТИШИНА или шум на грани слуха. есть такое и почему бы в метро этого не сделать или ещё где в шумных местах? и сделают, вот увидишь :)
          • вот лично имхо
            в мобильном мне это не нужно нафиг
            в кпк - возможно
            дома - только если переводить с диктофона в печатный вид: и то если это будет сопоставимо по скорости и "качеству" с ручным вводом
            для остального есть сканеры и собственные ручки
            • ага. а тут ты текст писала ногами? :)
              легче говорить было бы. и быстрее. попробуй. :)
              • собственными ручками
                говорю я сумбурно, а печатаю гораздо организованней
                м?
                • ага. кто-то палочками ест рис, кто-то руками, кто-то жуков с хрустом... :)
    • 7ocb
    • 02.03.2006 01:44
    То, что их не используют - не значит, что их нет.
    Такая система должна по определению отжирать большое количество ресурсов и далеко не каждый сотовый телефон сможет это количество ресурсов предоставить.
    • хорошо...сотовый я для пимера привёл. давайте обратим внимание на компьютеры. приведи мне хотя бы одного пользователя, который дома или на работе наговаривает тексты голосом в word, письма, в жж ли... - и я поверю, что такая система есть :)



      • Хех. Опять таки возникает вопрос юзабилити.

        Офис: куча сотрудников сидят и бубнят в микрофоны компов. Работать в такой обстановке будет на порядок сложнее.

        Дом: еще сложнее, допустим, я могу одновременно работать и говорить по телефону. А если учесть, что работать я предпочитаю по ночам, когда все спят, это создаст дополнительные трудности.

        Компьютеры в общественных местах (вот в ИХ существовании я сомневаюсь (((: ): Любой проходящий мимо узнает все, что ты не сильно горишь сделать достоянием общественности.

        И еще: всяческие служебные значки и прочее удобнее набирать с клавы, чем произносить. Команды оболочки - точно так-же.
        А если тебе надо набрать текст на языке, на котором ты не умеешь разговаривать??? ((:

        Т.о. без клавы в любом случае не обойтись.

        + Вопрос окупаемости. Если она есть, то, вероятно, будет стоить достаточно недешево, поэтому рядовому пользователю ее использовать будет накладно.

        зы. Я не утверждаю, что они есть, я просто говорю, что они МОГУТ существовать.
        • honeyman
        • 05.03.2006 22:48
        • Нижний Новгород / Нижегородская область
        Кстати, Евгений, ты вот что не подумал: не такому уж и большому количеству людей нужно распознавание речи. Хотя бы по той причине, что не так уж много людей постоянно ПИШУТ много текстов. Редактируют - да, смотрят - да. Пишут - нет. Ну вот как, по-твоему, система распознавания речи может помочь в редактировании таблички в Экселе? Или в написании скрипта на Перле, где знаков препинания больше, чем букв? Или при работе в юниксовом шелле на сервере?
        Вдобавок к тому, то, что человек ПИШЕТ, не всегда легко ДИКТУЕТСЯ. Когда человек хочет что-то написать, ему как правило нужно получить законченный результат, с конкретными словами, конкретными знаками препинания; и при этом в случае диктовки текста между ним и текстом стоят как минимум омофоны и знаки препинания. Как объяснить распознающему, если он не обладает человеческим интеллектом, что слово, произносящееся как "лук", во фразах "он вышел на луг косить траву" и "подняв луг, он выпустил стрелу в цель", пишется по-разному? А если это ещё и аббревиатура, наподобие LUG ("зашёл сегодня на встречу LUG-а и взял у них новый Мандрейк")? Как объяснить, что во втором предложении про луг надо ставить запятую - сказав слово "запятая"? И если да, как в таком случае продиктовать предложение "После деепричастных оборотов ставится запятая"? Человек (секретарь, например) это может понять по контексту - но для компьютерного распознавания речи в данном случае придётся реализовывать полномасштабный AI.
        И опять же, огромное количество текста не так-то легко продиктовать, даже если распознаёт человек. Вот будут тебе диктовать учебник по квантовой физике - много ты сам поймёшь и напишешь? А если это будет статья с особенностями диалектов различных деревень Сибири? Или доклад с конференции нейрохирургов? Или беседы хардкорных геймеров с их использованием их уникального слэнга? Человек, пытаясь понять, что ему диктуют, имеет единственный шанс написать всё правильно - это переспросить. Переспрашивающая система распознавания речи - это уже что-то опять-таки AI-шное (кстати, у меня есть книга "Искусственный интеллект - современный подход" Стюарда Расселла и Питера Норвига - такой кирпичик увесистый, с один том "Искусства программирования" - тебе для твоей работы этого не надо?).

        И это не говоря уже про то, что человек редко пишет сразу набело, даже если пишет и текст. Почти всегда он при этом редактирует написанное. Я даже представить не могу, сколько раз я за время написания этого комментария нажимал Backspace и курсорные стрелки. В случае с диктовкой, это усложняется.
        • это всё мелочи. главное - реализовать алгоритм, а уж управлять им - совсем другая забота.




          если я начал писать и захотел исправить, я замолчу и нажму на BS :)


          поправлю что нужно и продолжу говорить!


          в результате этого образуется навык, что человек будет сперва думать, а потом уже говорить. :)))))




          насчёт среды  - это всё можно потом реализовать в виде надстроек и расширений, но именно над основой. :)







            • honeyman
            • 05.03.2006 23:22
            • Нижний Новгород / Нижегородская область
            > насчёт среды - это всё можно потом реализовать в виде надстроек и расширений, но именно над основой. :)

            Так вот я про то и говорю, что... не получится.
            Невозможно такое, что "внизу идёт распознавание отдельных звуков и конвертация в буквы, выше него построение слов из букв, выше него построение предложения из слов, выше него - анализ смысла всего текста". Потому что даже у самого лучшего распознавателя - человека - самая низкоуровневая часть - распознавание звуков - обратной связью задействует самые высокие уровни распознавания, считая, что "этот звук более вероятен как "г" чем "к", пусть даже он и звучит акцентированно как "к", поскольку в предложениях до этого речь шла о косьбе". Т.е., правильный перевод звука в букву - это не "буква=F(звук)", это скорее "буква=F(звук, предыдущие звуки слова, предыдущая произнесённая часть предложения, предыдущий текст)".
            А ещё даже более вероятно - "буква=F(звук, предыдущие и последующие звуки слова, предыдущая и последующая часть предложения до его завершения, предыдущий и последующий текст)". И только в первом случае получится так, что то, что ты диктуешь, сразу появляется на экране; во втором случае, оно может не появиться на экране, пока система не поймёт, что ты закончил предложение... а то и весь текст.
            А если таки надобно, чтобы на экране после диктовки оно сразу появлялось, то после появления введённое не "зафиксируется", а будет колебаться - система должна будет постоянно в дальнейшем процессе диктовки оценивать, правильно ли она поняла продиктованное, и если что - быть готовой мгновенно переправить что-то уже выведенное...
            ... ибо именно так ведёт себя человек, пишущий текст под диктовку.
            • верно, всё верно говоришь... всё будет так, как нужно



        • Subject: Re: Reply to your post...md10_thumbup.gif
          респект
          • научитесь говорить по русски, пожалуйста.
            • учите русский, чтобы понимать юмор ©
    • ну и что ты мне прислал это? я эту ссылку видел в 1998 году... и что? что дальше то? :))

        • 1esha
        • 02.03.2006 05:02
        • Новосибирск / Новосибирская область
        И кто мне сейчас скажет, что системы распознавания (не то, что преобразования) голоса существуют?
    • honeyman
    • 04.03.2006 00:30
    • Нижний Новгород / Нижегородская область
    > Но этого нигде нет, поэтому системы распознавания голоса - не существует.
    Какааая жалость. Судя по всему, мне теперь, чтобы позвонить конкретному человеку с мобильника, вместо того, чтобы произносить в гарнитуру его имя и тут же с ним соединяться, придётся доставать мобильник и искать там его номер... а всё потому, что Всеведущий Евгений Иванов Отменил Системы Распознавания Речи.
    • я ж говорю - это примитивная система сравнения-распознавания :) тупая донельзя. в ней же не происходит преобразование в текст и потом уже сравнение текста-цифер, а именно происходит просто тупое сравнение спектра-шаблона (который ты наговорил до этого - то есть, "научил" её, запрограммировал).

        • honeyman
        • 04.03.2006 00:37
        • Нижний Новгород / Нижегородская область
        Я так понял, свой собственный мозг ты считаешь принципиально отличным от вышеописанного ;) ?
      • honeyman
      • 04.03.2006 00:35
      • Нижний Новгород / Нижегородская область
      Кстати, о распознавании речи: полтора года назад ты собирался всемогучую систему распознавания речи написать. Где можно посмотреть демо-версию?
      • уточняю который раз - ПРЕОБРАЗОВАНИЯ. 




        пока занят, но скоро продолжу очередной этап...

          • honeyman
          • 04.03.2006 00:38
          • Нижний Новгород / Нижегородская область
          Один хрен. Любая программа - это преобразование вектора входных данных в вектор выходных.
          • honeyman
          • 04.03.2006 00:45
          • Нижний Новгород / Нижегородская область
          > пока занят,
          Полтора года занят, ага.
          А как сильно продвинулся за полтора года? Насколько хорошо твоя распознавалка уже сейчас речь распознаёт? Если она делает хотя бы 50% ошибок - то можно уже выпускать демо-версию и начать привлекать к себе внимание.
          • скоро увидим...не торопи

              • honeyman
              • 04.03.2006 00:51
              • Нижний Новгород / Нижегородская область
              Выкладывай, не стесняйся. За полтора года можно систему распознавания изображений написать, не то что речи - значит, ты свою систему уже наверняка закончил и сейчас только её нейросетку обучаешь.