Цифровой журнал «Компьютерра» № 204 - Коллектив Авторов
Шрифт:
Интервал:
Закладка:
— Есть подборка так называемых features: это компании, персоны, места, объекты и отдельные темы. Их около миллиона, и они используются для автоматического анализа текста.— Каков внутренний механизм сервиса в общих чертах?
Например, где-то в новостях впервые упоминается Google Glass. Система ещё не знакома с этим понятием, но уже может по контексту сделать вывод, что это новый продукт компании Google. Затем выполняется поиск по другим источникам. Так можно составить представление о типе устройства и его свойствах.
Если становится много публикаций про Bitcoin и Litecoin, то выделяется новая актуальная тема — криптовалюта. Кроме того, есть масса скрытых классификаторов. По ним можно определить, например, что текст имеет республиканский или демократический уклон.
Другое важное направление — построение и проверка гипотез. Например, мы предполагаем, что люди из сферы финансов часто играют в гольф. Начинаем показывать каждому из них лучшие новости о гольфе и оцениваем реакцию, подтверждая или опровергая свою гипотезу. Цель — постоянно улучшать знания о пользователе, находить новые интересы и паттерны его поведения.
Это примеры прямой логики или парадигмы Big Data? Последняя ищет неявные, парадоксальные на первый взгляд связи.
Гипотезы как появляются в результате работы технологий машинного обучения, так и создаются руками. При этом многие из них получаются гораздо менее явными, чем в примере с гольфом.
— Это сложный термин. Его все используют, но у всех он означает разные вещи. В классическом понимании Big Data — это любая задача, где размер данных превышает текущие возможность простого анализа, но сама парадигма для всех разная. Сейчас мы не оперируем такими объёмами информации, как Amazon или Google, но наши данные намного более рафинированы. Мы пытаемся постоянно фильтровать огромный поток исходных текстов новостей и сужать их до относительно компактного набора терминов, понятных для систем машинной логики.— Что вы думаете о Big Data в целом?
Обычно под технологиями Big Data понимают процедуру получения сложные выводов по результатам анализа неструктурированных данных объёмом в петабайты. У нас другой путь. Мы стараемся учесть интересы людей в реальном времени. Каждый сервис самодостаточен и «знает» о человеке всё, что требуется ему для работы, поэтому он может быстро распределить входящий поток новостей по темам и делать персонализированную подборку.
— История запросов показывает потребности человека в настоящий момент или в недавнем прошлом. У Amazon хранится история покупок людей за многие годы. Это отличные данные для предсказания их потребностей в будущем, особенно возникающих с постоянной периодичностью. Когда есть такая же история просмотренного контента, её гораздо сложнее превратить в деньги. Либо нужно перевести её на другой сценарий (например, на ту же историю покупок), либо найти, как можно монетизировать сам акт чтения новостей.— Что насчёт схемы монетизации? Мне кажется, ваш сервис может предложить гораздо более тонкую рекламную модель, чем поисковые системы.
— Я думаю, здесь может работать более тонкая схема. Если человек когда-то— Какова ваша стратегия монетизации? искал пластиковые окна, то Google потом продолжает показывать объявления об их продаже, хотя окна бывают нужны примерно раз в двадцать лет. У вас можно получить более детальное представление о человеке, и реклама будет работать гораздо дольше.
Мы ищем новые форматы рекламы. В виде новостей, которые пишут не СМИ, а компании. Любая крупная фирма производит массу новостного контента, с которым потом очень неэффективно работает. Контент консьюмер-брендов по уровню очень похож на журналистский: них есть свои издания и свои блоги, в которых они пишут весьма интересные вещи. Это может быть тур по фабрике, история изобретения, рассказ о программах поддержки развивающихся стран. Так у бренда появляется возможность рассказать о новых продуктах, инициативах. Возникает хороший канал общения с потребителем.
— Мы придумали для них способ эффективнее работать с контентом. Показывать его не широким массам, а именно тем, кто заинтересуется с высокой долей вероятности. Объёмы обычной дисплейной рекламы падают. На мобильных устройствах её эффективность практически нулевая. Сейчас гораздо эффективнее купить рекламу в Facebook или у нас, поскольку будет видно, кому именно она показывается и кого интересует.— Расскажите о своей роли в этом процессе.
Четыре месяца назад мы запустили новый продукт, который называем News360 Promoted Content. Работаем с Intel, SAP, Xerox, Coca-Cola и целым рядом других крупных компаний, производящих новостной контент. За счёт точного знания интересов наших пользователей мы даём им уровень вовлечения в контент в 5–10 раз более высокий, чем традиционная дисплейная реклама. При этом всегда очень аккуратно относимся к тому, чтобы пользователь точно знал, какие статьи он видит органически, а какие — за деньги.
Сейчас в США наблюдается бум развития такого формата рекламы. Он более эффективен, чем традиционная.
— Обычная реклама никуда не денется, но за персонализированной интернет-рекламой будущее. Такой вариант гораздо удобнее, поскольку он не меняет формат потребления контента для читателя. Человек продолжает смотреть Facebook, Twitter и News360, а параллельно ему показывается что-то— Какие изменения отмечаются в результате смены парадигмы? рекламное, но действительно полезное. Так достигается гораздо больший процент возврата рекламных инвестиций.
— Рассматриваете ли вы конфликт между предоставлением создателям контента читательской аудитории и перераспределением рекламных бюджетов от них в свою пользу? Каковы стратегии взаимоотношений участников? Читателям ведь не обязательно переходить по ссылкам. Они могут получать контент непосредственно у вас.
— В этой системе три главных действующих лица: читатель, производитель контента и рекламодатель. Если убрать любого из них, система перестанет существовать. Поэтому мы на сто процентов заинтересованы в том, чтобы компании, поставляющие контент, могли зарабатывать деньги и были рады сотрудничать с нами.
Основная идея в том, чтобы давать им возможность монетизировать свой контент через нас. Показывать его в виде связанных материалов. Если на promoted-статью люди переходят из другой статьи, то её создатель получает большую часть вознаграждения за просмотр.
Мы воспринимаем обработанный новостной поток как наш продукт — точно так же, как Google считает своим трудом результат поисковой выдачи. Однако как только человек переходит по ссылке и открывает текст статьи, он перестаёт быть на нашей территории. За рекламу на ней мы готовы отдавать прибыль изданию и автору статьи.
Это не уникальная модель: очень многие новостные компании за последний год начали напрямую продавать места под рекламный контент, и уже есть несколько рекламных сетей, специализирующихся на этом. Самая большая — Outbrain, которая делает что-то похожее на News360 Promoted Content, но не на мобильных устройствах, а в вебе. Например, в конце любого материала CNN есть её секция From the web, и она не отмечена как рекламная. Это способ заработка, поскольку данные статьи оплачены крупными компаниями.
— Flipboard — всё-таки немного другой продукт. Его цель в том, чтобы сделать максимально удобное чтение курирующихся кем-то— Самое известное приложение подобного рода — Flipboard. У Flipboard нет никакой технологии персонализации, автоматического подбора статей и тому подобного, но это ничуть ему не мешает. И расходы (на серверы и др.) в пересчёте на одного пользователя у них наверняка меньше. Вопрос: нужны ли в этом случае такие сложные технологии? другим журналов; наша — создать для каждого уникальный поток контента подобранный конкретно под него. В нашем видении будущего второе — нужнее и интереснее, но это в принципе разные сценарии, и многие пользователи используют Flipboard и News360 вместе.
Вопрос про масштабы инфраструктуры. N360 загружает и анализирует более ста тысяч статей в день. Это, вероятно, само по себе должно требовать каналов, серверов и т. п., как у маленького поисковика, а ещё и пользователи есть, которые загружают контент.
Масштабы инфраструктуры большие, но не космические: всё-таки мы индексируем пока не весь интернет, а только сотню тысяч источников (примерно 250 тысяч статей в день). Основная нагрузка — это способность в реальном времени применить довольно сложный портрет персонализации пользователя на весь свежий новостной контент — и так, чтобы это происходило за миллисекунды.
— Судя по пресс-релизам, вы открылись в 2011 году. Мобильные приложения редко надолго остаются в топах App Store. Как правило, происходит всплеск интереса, а потом он только падает. За два года вы должны были придумать какой-то способ поддерживать интерес к приложению. Или количество новых скачиваний падает?