Компьютерра PDA N161 (25.02.2012-02.03.2012) - Компьютерра
Шрифт:
Интервал:
Закладка:
А сырьевые рынки? Нефть, газ, руда, пушнина, лягушки (упорно ходили слухи, что где-то поблизости выращивают лягушек и продают во Францию за валюту)? Ну, во-первых, сырьё возьмёт на себя функцию денег, что и снимет проблему "чем расплачиваться за прибавленную стоимость". А во-вторых (тут меня опять осенило), сырьём могут стать те же умы! Скупать будут умных на корню, таких, которые сразу или же после предварительной обработки смогут придумывать новые процессы, которые воплотятся в новые товары, которые будут завоевывать новые рынки (усталость давала-таки о себе знать, и косноязычие всё больше овладевало мной). Потом, оглянувшись на всякий случай, я спрятал книгу в портфель. Никто её и не хватился, а то б я вернул, я бы непременно вернул!
Отработав до восьми на дежурстве и, без перерыва, до трёх на приёме, я пришёл домой. Понимая, что далеко не Ленин, раз, и далеко не в Швейцарии, два, я переложил книгу с тезисами в коробку "неоконченного", где она и лежала до недавнего времени вместе с повестью о жизни Вересаева, прерванной на восьмой странице, переделкой беляевского романа "Человек-Амфибия" и прочими дерзаниями молодости.
Голубятня: Чудо Compreno
Автор: Сергей Голубицкий
Опубликовано 28 февраля 2012 года
Больше всего на свете мне хочется выделить тему сегодняшнего рассказа из потока рядовых событий IT, которыми заполняется информационное пространство моей колонки. Новые гаджеты - это замечательно. Новый удачный софт -бальзам на истерзанную душу пользователя. Проект Compreno, над которым компания ABBYY корпит уже 15 лет и выводит, дай бог, в этом году на стадию готового к потреблению продукта - это не новое, и тем более - не очередное событие.
Compreno - это полноценная, не имеющая аналогов в истории технологическая революция. Масштаб этой революции, значение ее для людей (именно для всех людей, а не только для любителей компьютеров) сопоставимы разве что с изобретением World Wide Web или электронной почты. Никак не меньше. Для наглядности можно перевести эту революцию в понятные материально-купюрные реалии: если ABBYY спокойно, без суеты коммерциализирует Compreno хотя бы в десятой части возможных ее практических применений, а затем выйдет на фондовый рынок, капитализация компании затмит всех кумиров сегодняшнего дня - от Apple, грамотно и стильно эксплуатирующего весьма и весьма посредственные в технологическом отношении решения, до Google, умудряющегося заводить в тупик охапками большую часть собственных перспективных начинаний.
Впрочем, довольно авансов и эмоций (хотя завсегдатаев Голубятен ни тем, ни другим давно не удивишь ☺ - пора представить Compreno во всем его величии. Начну с лапидарного компендиума: Compreno - это технология перевода любого человеческого языка на универсальный язык понятий. Соответственно, Compreno включает в себя и сам этот универсальный язык понятий, который ABBYY 15 лет (тайком ☺ разрабатывала в своих исследовательских лабораториях.
Результат ошеломляет: Универсальная Семантическая Иерархия (УСИ) - ядро языка понятий - насчитывает сегодня 60 тысяч элементов в универсальном разделе когнитивной модели, 80 тысяч - в русском разделе, и 90 тысяч - в английском! Ничего даже отдаленного в мире не существует.
Перспективы, которые открывает Compreno, безбрежны и разнообразны:
- компьютеризированный перевод текста с любого языка на любой на качественном уровне, несопоставимым со всеми распространенными сегодня системами перевода;
- полноценный интеллектуальный поиск без специализированного синтаксиса запросов (Поиск по смыслу, извлечение фактов и связей между объектами поиска/мониторинга; мониторинг компаний и персоналий и построение аналитических отчетов на основе параметров разного типа и др.);
системы искусственного интеллекта самых разнообразных профилей и применений;
- автоматическое распознавание речи;
- классификация документов и поиск похожих документов по смыслу;
- анализ тональности в мониторинге;
- реферирование и аннотирование (написание краткого содержания длинных документов)
и это только начало.
За пару дней до своей индийской зимовки я встретился с Татьяной Даниэлян, заместителем директора по лингвистическим технологиям компании ABBYY, и Сергеем Андреевым, генеральным директором и президентом группы компаний ABBYY и на протяжении полных двух часов сидел, широко разинув рот и охая от восторга по мере того, как в мое сознание вливались подробности революционного проекта, подкрепленные полноценной демонстрацией действующего прототипа движков машинного перевода и системы интеллектуального поиска.
Все то время, что Сергей и Татьяна, сами едва сдерживая восторг от собственных достижений, стягивали завесу тайны с Compreno, меня не покидало чувство того, что я участвую в каком-то акте добровольного промышленного шпионажа. Согласитесь, масштаб проекта ошеломляет: 15 лет интенсивной работы сотен людей, 50 миллионов долларов собственных инвестиций, совсем недавно усиленных сколковским грантом в 475 миллионов рублей. Вся компьютерная мощь головного офиса ABBYY (а он, поверьте на слово, ошеломляет: 6 этажей 7-этажногоогромного П-образного здания) в любую свободную минуту задействована для просчетов, необходимых для отладки и совершенствования Compreno, в первую очередь УСИ.
Впрочем, шпионаж - это лишь в моей голове, поскольку, разумеется, беседа наша состоялась в момент, когда Abbyy вышла на финишную прямую и была готова раскрыть миру свои карты.
Подробности Compreno я донесу читателям со слов Сергея Андреева и Татьяны Даниэлян - не потому, что не доверяю собственным суждениям, а потому что рассказ у обоих получился гладким и содержательным, зачем же плодить сущности?
Начало разработки Compreno пришлось на 90е годы, когда в арсенале ABBYY (в те годы - еще BIT Software) уже числилось два ледокола: словари Lingvo и программа для распознавания текста FineReader. Продукты продавались по всему миру, были хитами и приносили стабильную прибыль - манна небесная для романтических проектов вроде Compreno, стресс которых не пережил бы ни один сторонний инвестор (вкладывать миллионы долларов в нечто совершенно революционное да к тому же и с неизвестными перспективами? а вдруг ничего не получится? нет уж увольте!).
ABBYY обошлась без чужих денег и это спасло Compreno, позволив довести до победного конца проект со столь колоссальными материальными и людскими затратами.
Успех обеспечил и правильный изначальный выбор направления для разработки системы автоматического перевода. В 90-е в мире правила одна королева - Rule-Based Translation Model, классическая модель перевода, основанная на ограниченном наборе готовых правил для некоторой пары языков. Одна из проблем RBTM - в накоплении все новых и новых правил, которые в какой-то момент просто начинают конфликтовать между собой. Анализируя предложение, мы можем применить разные комплекты правил, при этом машине неведомы приоритеты. Перевод, основанный на RBTM, как правило, не озабочен полным синтаксическим анализом: вместо него предложение делится на фреймы, на которые затем интерполируют существующие в системе правила для получения перевода. RBMT системы не учитывают семантику.
В начале XXI века усилиями Google мир подсел на иглу нового алгоритма перевода - так называемой статистической модели. Основа СМ - наличие обширной базы разнонаправленных переводов. Мы задаем статистическому движку предложение для перевода, он ищет в базе данных как в словаре варианты уже существующих переводов аналогичного текста и после незначительных изменений выдает вполне приличный результат.
Изменения не самые существенные. Предположим нам нужно перевести предложение «в комнате стоит красный стул», а в статистической базе уже есть переведенная фраза «в комнате стоит зеленый стол» - решение элементарно: берется уже существующий шаблон перевода и новые слова просто заменяются по словарю.
Поскольку в СМ используются уже готовые человеческие переводы заведомо высокого качества, то на выходе получается весьма недурственный результат, ибо для осуществления перевода не нужно погружаться в синтаксис, специфику фразеологии конкретного языка и проч.
Все замечательно, однако, лишь до тех пор, пока дело не касается переводов в направлениях с так называемым низким покрытием (скажем, каким-нибудь, румынско-русским или тайско-венгерским).
Где брать аналоги? По словам Сергея Андреева опасность подстерегает также при уходе в предметные области на массовых направлениях, потому что параллельных текстов становится сильно меньше, чем в бытовой и разговорной тематике. Сочетание ухода в предметную область и не самого массового направления перевода приводит к слабым результатам. Скажем, IT. Казалось бы, какие сложности могут возникнуть у машинного перевода с текстом на тему информационных технологий? В самом деле - никаких, если мы занимаемся русско-английским переводом. Зато они тут же возникнут на русско-французской ниве! Статистическая база в этом направлении чрезвычайно скудная и лакуны возникают на каждом шагу.