Читайте также
Общаться с компьютером становится все проще. Вместо клавиатуры и мыши уже сейчас достаточно речи и жеста, а в будущем, возможно, хватит и мысли. Только, по мнению специалистов, это может привести к потере здоровья и деградации нашего интеллекта.
С момента создания первого компьютера прослеживается тенденция к упрощению интерфейса взаимодействия с ним. Сначала информация вводилась в компьютеры переключателями, а "общение" велось в машинных кодах, известных узкому кругу программистов. Переход на перфокарты, а затем на привычные нам устройства ввода - клавиатуру и мышь - позволил упростить и интерфейсы взаимодействия. Программировать на первых персональных компьютерах было способно большинство технически подкованных людей, а уж с играми справлялись и далекие от техники пользователи. Правда, чтобы запустить игру, требовалось выучить десяток-другой команд, понимать, что такое дерево каталогов... или звать на помощь знакомого, сведущего в IT.
Современный компьютер не требует от владельца специальных навыков, интерфейс, особенно сенсорный, позволяет достаточно просто найти и запустить необходимое приложение. Но для написания постов в соцсети по-прежнему требуется знать раскладку клавиатуры, так что некоторым приходится долго набивать текст двумя пальцами. Облегчат их участь голосовые интерфейсы, которые все шире применяются в различных устройствах. Возможность просто надиктовать текст уже доступна многим. А если голосовой ввод невозможен, остается развести руками. Или помахать, или описать круг - это зависит от того, какую команду вы хотите дать системе управления жестами, которые нередко бывают реализованы в технике, управляемой голосом.
Отдать приказ голосом или жестом просто, но современный уровень техники позволяет не задумываться даже над произношением. Ведутся работы по управлению взглядом, а уж самое прямое общение между человеком и компьютером - чтение мыслей. Точнее, управление мыслью, которое на текущем технологическом уровне уже можно реализовать даже с помощью недорогих устройств. К чему ведет такое стремление предоставить самый простой способ ввода? Не упрощается ли пользователь одновременно с усложнением машины?
Легкое исчезновение клавиатуры
Начало 2000-х. "Лефт, лефт, оупен". Курсор скачет по иконкам и послушно открывает указанную программу. Отлично - голосовой ввод работает на КПК. Поход на кухню и попытка продемонстрировать возможности голосового ввода расставляют точки над i - даже шум льющейся воды нарушает работу системы распознавания. Приходится вернуться к вводу с сенсорного экрана.
Собственно, сам ввод с экрана был большим шагом если не к естественным интерфейсам, то к упрощению взаимодействия с компьютером. Выучить раскладку клавиатуры удается не каждому взрослому, а разблокировать экран и запустить нужное приложение под силу даже ребенку. При переходе от обычных телефонов к смартфонам, на которых надо отобразить не просто набираемый номер, а результат действия разнообразных программ, сенсорный дисплей оказался как нельзя кстати. Зачем утяжелять телефон клавиатурой и занимать кнопками место, когда все действия можно выполнить с экрана? Когда нужно - часть сенсорного экрана показывает клавиатуру, когда клавиатура не нужна - она исчезает. Так что распространение мобильных технологий ускорило переход на сенсорные экраны. Знаковым в этом плане стал выход очередной "настольной" операционной системы Microsoft - компания оптимизировала Windows 8 под работу с сенсорным интерфейсом.
Несмотря на внешнее однообразие, сенсорные дисплеи продолжают развиваться. Так, емкостные технологии позволили ввести технологию multitouch (распознавание нескольких одновременных касаний) - это тоже шаг к более естественным интерфейсам. Стало возможным менять размер графических элементов, например фотографий, сдвигая и раздвигая пальцы - вполне соответствует естественным движениям. Технологии Swype и ХТ9 дают пользователю возможность просто скользнуть пальцем по буквам экранной клавиатуры, а система потом сама соберет из них слово или предложит возможные альтернативы - получается быстрее, чем набирать текст вручную. К нынешней зиме Sony Mobile научила свой смартфон Xperia Sola "видеть" палец в нескольких сантиметрах от экрана, так что телефоном можно управлять даже в шерстяных перчатках. Еще более масштабно "подглядывание" экрана реализовано в Samsung SUR40 - 40-дюймовой панели со встроенным компьютером, созданной по технологии Microsoft PixelSense. Экран распознает одновременно до 50 касаний - можно работать впятером. А слой инфракрасных датчиков умеет снимать предметы, помещенные на поверхность SUR40. Причем программа сама пытается догадаться, чего хотел пользователь, начиная поиск похожих фотографий в сети. Пока это скорее высокотехнологичная игрушка, но уже доступная бизнес-пользователям, а не просто экспонат в музее.
Четче ругайтесь
Если переход на сенсорный интерфейс обусловлен стремлением упростить взаимодействие с электроникой, сделать его более "человеческим" (ткнул пальцем - сработало), то еще более естественным выглядит стремление производителей освоить голосовое управление. Пожалуй, самая известная программа распознавания - Siri, но есть аналогичные функции в смартфонах со всеми самыми популярными ОС: Android, Blackberry, Windows Phone. В целом они позволяют надиктовывать текст для заметок и SMS, запросы на поисковых страницах, искать адрес ближайшей кофейни, прогноз погоды, билеты и т. п. Фактически мы перешли на устные приказы слуге от указаний записочками.
По сравнению с системами голосового распознавания десятилетней давности разница разительная - не надо долго учить систему своему произношению, теперь она не сбивается от малейшего шума (но сильный по-прежнему не любит). Хотя до идеального распознавания еще далеко - надо старательно выговаривать отдельные слова, и ошибки все равно случаются. Но качество "перевода" у разных программ сопоставимое. Объяснение этому простое: сейчас можно не тратить ресурсы на разработку собственных алгоритмов, а использовать готовые решения. Например, библиотека Ndev компании Nuance просто встраивается в программу, и качество распознавания будет высоким. По неофициальным данным, алгоритмы этой компании использует Apple в Siri. Известно также, что алгоритмы распознавания Nuance Communication используются в телевизорах Samsung и в новых автомобилях Ford. Машины пока не тронутся с места по вашему повелению, но их медиасистема готова к вам прислушаться. Что касается телевизора, то он допускает управление не только исходным меню - в ноябре была анонсирована возможность голосового управления приложением Play, позволяющим проигрывать фильмы из интернет-кинотеатра. Так что производитель может расширять запас слов, который понимает телевизор, и вполне возможно, что в будущем мы сможем обходиться без пульта.
По мнению Виталия Юрченко, сотрудника компании Nuance, принципиальных проблем в распознавании языков нет: "Если уж удалось справиться с такими сложными языками, как финский или китайский, в котором значение имеет даже тон, то и с другими языками проблем не будет". Для наиболее распространенных языков (включая русский) разработаны акустические модели, которые облегчают процесс распознавания и в результате дают возможность распознавать голос на смартфоне (навигаторе, телевизоре и т. п.) без подключения к сети.
Современная тенденция в голосовых интерфейсах - работа над пониманием "смысла" сказанного. О разумности компьютера речи опять-таки не идет, но современные алгоритмы вполне способны из произвольной фразы извлечь информацию, необходимую данной программе или сервису. Именно системами голосового распознавания, а не только качеством "перевода" звуков в слова определяется ценность сервиса. Хорошо, когда есть контекст и билетному сервису надо выловить только даты путешествия и название пункта прилета. А если запрос задан так: "Куда-нибудь в теплые страны"? В этом направлении ведутся масштабные работы. В частности, российская компания ABBYY разрабатывает лингвистическую платформу Compreno. Теоретически такая система должна обеспечить перевод, анализ и понимание текстов на естественных языках. От обычного перевода это будет отличаться тем, что будут учитываться характер текста и другие нюансы, влияющие на смысл. Кроме того, в ее рамках будет разработана система интеллектуального поиска, который ищет ответы не по ключевым словам, а по общему смыслу вопроса. Более того, она нацелена на извлечение новых фактов, связей между объектами поиска или мониторинга, а также на определение авторства текстов. Еще один путь улучшения распознавания - добавить анализ мимики. Ведь когда мы видим движение губ собеседника, то лучше понимаем его.
Профессор Александр Рыжов, преподаватель МГУ и школы IT-менеджмента РАНХиГС при президенте РФ, специализирующийся на системах с нечеткой логикой, которые используются для распознавания звуков и образов, считает: "В распознавании есть проблемы, когда много "дикторов" и много "команд". В большинстве же ситуаций количество команд очень ограничено (не будете же вы обсуждать с телевизором или чайником проблемы мироздания?), количество "дикторов" - тоже (семья). Я думаю, скоро голос и жесты заменят пульты, чуть позже нейроинтерфейсы (возможно, с дополнительной техникой типа очков) вытеснят остальные способы ввода".
Помахать компьютеру ручкой
Если уж мы сравнили голосовое распознавание с устными приказами, то управление жестами даже аналогий не требует. Вполне естественно кивком согласиться на предложенный фужер с шампанским или взмахом руки показать направление, в котором удалился разыскиваемый коллега. Проще всего оказалось снимать жесты на камеру и распознавать их. Именно так поступил Microsoft, создавая игровую приставку Kinect. Геймер может управлять игровым процессом, двигая руками и ногами. Оператор "Билайн" также реализовал ТВ-приставку на базе Xbox, которой через Kinect можно управлять голосом и жестами, а также надиктовывать сообщения в Twitter. Скорее всего, именно их совместное использование будет востребовано. Если провести аналогию, то голос - это "клавиатура" для длинных текстов, а жесты - это "мышка" для быстрых действий в меню опций.
Наиболее показательно сочетание управления голосом и жестами реализовано в телевизорах Samsung с функцией Smart Interaction. Голосовое управление не работает, когда вокруг слишком громко, а если мы смотрим концерт или боевик? Искать пульт? И тут поможет управление жестами. Камеры, встроенные в телевизор, отслеживают жесты пользователя, позволяя переключать каналы. По цене телевизоры с технологиями распознавания голоса и жестов сопоставимы с моделями без таких возможностей, но с теми же диагональю и качеством матрицы, так что себестоимость новых технологий не так уж высока. Другое дело, что производители реализовывают их только в старших линейках, повышая их привлекательность.
Если говорить о чисто жестовом управлении, то пока это скорее экспериментальные решения. Например, Kinect применяется не только для игр - подразделение Microsoft Research создает с его помощью решения в медицине и других сферах. Так, в больнице общего профиля штата Массачусетс разработана технология обследования на рак толстой кишки. В системе VCViewer врач получает возможность управлять изображением органа жестами, не отвлекаясь от пациента. Решения такого типа менее массовые, но они затрагивают важнейшую область - здоровье людей. Из развлекательных решений отметим возможность создавать с помощью Kinect трехмерные изображения объектов. А в проекте Light Space пользователь видит картинку из трехмерных объектов, а камера Kinect позволяет взаимодействовать с ними: двигать, переносить. Кроме игр такие решения могут быть применены, например, в дизайне.
Материальное усилие мысли
Касание пальцем, жесты, проговаривание... а нужны ли нам посредники между мозгом и компьютером? Билл Гейтс предрекал, что нейроинтерфейсы придут в нашу жизнь и мы будем общаться с компьютером напрямую. Уже имеющиеся устройства свидетельствуют, что это реально, но, похоже, на пути внедрения нейроинтерфейсов есть и серьезные проблемы.
К счастью, все обойдется без щупов, воткнутых в затылок. (Хотя брат и сестра Вачовски, возможно, рассчитывали на патентные отчисления и расстроятся.) Несколько лет подряд на CeBIT демонстрируется установка, в которой обычный электроэнцефалограф (медицинский прибор, измеряющий токи в нейронах головного мозга) соединен с компьютером, на экране которого пользователь выбирает букву, которую хочет ввести. Основное применение таких приборов - изучение работы мозга пациентов, выявление патологий, но его также можно приспособить для печати небольших документов и несложных игр на компьютере для парализованных больных.
Упрощенные версии энцефалографа превратились в игровые манипуляторы. Они выглядят как головной обруч, который при подключении к компьютеру позволяет управлять играми силой мысли. Точность их невелика и большого распространения они пока не получили. Но российские ученые, образовавшие стартап NeuroG, считают, что, "обучив" прибор, введя в него типичные энцефалограммы тысяч испытуемых, можно будет достигнуть приемлемых результатов даже на недорогой (100-300 долларов) игровой приставке. Возможности современных нейроинтерфейсов прокомментировал Евгений Марченко, участник проекта NeuroG: "Насколько я знаю, у реально действующих систем скорость ввода информации невелика, редко превышает 30 бит в минуту ("да" или "нет" каждые две секунды). Это примерно соответствует одной букве каждые 10 секунд. Думаю, даже в самых быстрых экспериментах не преодолен рубеж 100 бит в минуту, скорость ввода еще зависит от процента ошибочно введенных символов - исследователи обычно удерживают ее в определенных пределах (20, 10, 5 процентов и меньше) исходя из поставленной задачи". По мнению Евгения Марченко, значительное влияние на точность и скорость нейроинтерфейса оказывает время обучения: "Как правило, его стараются сделать как можно меньше, что существенно ограничивает скорость передачи данных. Предполагаю, что при достаточно долгом обучении (возможно, несколько лет) без смены парадигмы даже с помощью современных "бюджетных" систем скорость можно довести до 300 бит в минуту". Что касается игр (а для более широкого применения мы можем перевести это в ориентацию в объемном пространстве), то, по словам Марченко, игровые нейроманипуляторы вполне справляются с платформенными играми, требующими четырех степеней свободы. А вот в полноценные шутеры (где требуется перемещаться по объемным помещениям, стрелять, сменять оружие) играть "мыслью" могут только единицы.
На рынке нейроинтерфейсов затишье - те же игровые нейроманипуляторы EPOC и NIA не снискали популярности, новые продукты почти не появляются. Евгений Марченко считает, что энтузиазм угас потому, что не удалось решить вопрос с ходу, слишком мала скорость нейроинтерфейсов, достигаемая при коротком обучении. Но при этом он отмечает, что такие организации, как DARPA, продолжают вкладывать большие средства в новые исследования в этой области.
Стремление к естественным интерфейсам понятно - хочется более комфортно общаться с компьютером, однако не каждая приятная вещь полезна. Так и переход на все более "человеческие" методы общения с компьютером может таить опасность для пользователя.
Мария Баулина, доцент кафедры клинической и специальной психологии Московского городского педагогического университета, предположила: "При переходе на голосовой интерфейс человек может лишиться такой высшей психической функции, как письменная речь: отпадет необходимость в освоении орфографии, фонетического состава слова. Кроме того, голосовой ввод требует навыка качественного стилистического построения предложений, что многим людям дается нелегко. Придется постоянно корректировать текст, а делать это гораздо проще, печатая на клавиатуре. Поэтому такое преимущество голосового ввода, как быстрота, может нивелироваться. Что касается нейроинтерфейсов, то пользователям будет трудно пользоваться им длительное время, так как постоянное удерживание в фокусе внимания отдельных букв или слов потребует больших энергозатрат организма. Традиционный же способ печати выполняется преимущественно за счет автоматизированных навыков, которые обеспечиваются фоновой активностью нейронов.
Считается, что нейроинтерфейс может стать спасением для инвалидов. Однако именно они будут испытывать самые большие сложности при использовании этого метода, поскольку зачастую им сложнее концентрировать внимание, чем здоровым людям". Кроме того, Мария Баулина высказала предположение, что у пользователей могут возникнуть проблемы со здоровьем из-за гиподинамии: появление жировых отложений на внутренних органах, снижение тонуса мышц, адаптивных возможностей сердечно-сосудистой системы. Многие офисные сотрудники и так часто страдают от лишнего веса и недостатка движения, а при активной работе мозга потребность в пище усилится, в то время как физическая активность снизится до минимума.
От звуков к смыслу
Процесс распознавания звука происходит по следующей схеме. При анализе аудиофайла детектор речи выделяет фрагменты, в которых есть слова, и посылает их на распознавание. Сначала звуковой ряд проходит спектральное преобразование, раскладывается по частотам. По данным частотного анализа выделяются фонемы (минимальные звуковые единицы речи), которые затем собираются в слова на базе акустических моделей для данного языка. Окончательный выбор слов (а вариантов при одном и том же наборе фонем может быть множество) производится с помощью фонетических и лексических сетей, которые, как кубики, перебирают возможные сочетания и оставляют наиболее вероятные. Если необходимо, можно добавить еще одну стадию, на которой выделяется смысл сообщения (например, программе для путешествий все равно, какой набор слов вы произнесли, ей нужны время и конечный пункт поездки).
Очки, управляемые взглядом
Взгляните, что мы делаем: надо посмотреть на экран, провести пальцем до нужного объекта или произнести команду. Есть путь короче. Компания Google представила прототип очков, которые управляются взглядом. В очки вмонтирован прозрачный ЖК-дисплей, благодаря которому пользователь видит так называемую дополненную реальность. Например, обложка книги, которую вы взяли с полки в гостях, будет распознана, и вам предложат приобрести ее в интернет-магазине; а проходя мимо кафе, вы сможете узнать цены, отзывы о нем и даже то, находятся ли там сейчас ваши друзья.
Управление взглядом стоит несколько особняком в естественных интерфейсах. Конечно, можно указать взглядом, "стрельнуть глазками", но обычно это из области "тонких чувств", полунамеков, а не полноценного общения людей. Вызывает вопрос способность глаз работать в таком режиме целый день. Кроме того, непонятна степень готовности этой технологии: пока существует всего несколько прототипов очков, да и не ясно, можно ли запустить их в производство.