Поисковик от КМ.ru посоревнуется с "Яндексом" и Google
Компания
Над будущим сервисом трудятся разработчики "КМ онлайн" и специалисты холдинга e-Style, в который входит компания, рассказал "Вебпланете" руководитель проекта "Поиск KM.ru" Сергей Татевосян. Обкатка технологий и алгоритмов ведется на тестовом кластере объемом в 100 млн. документов, к моменту запуска поисковика индекс достигнет порядка миллиарда документов. Сейчас поисковик обрабатывает только текст. Другие типы документов - такие как изображения, видео и др., планируется добавлять постепенно.
Среди ключевых технических наработок "Поиска КМ.ru" г-н Татевосян отмечает автоматизированную систему по оценке качества поиска, которая позволяет минимизировать "ручной труд":
"Это автоматическая простукивалка выдачи, которая смотрит на качество выдачи в целом (позиции вручную оцененных документов) и на позиции, занимаемые документами-маркерами (когда по запросу «Газпром» выдается сайт Газпрома и т.п.)", - поясняет он.
Вторым важным элементом поискового движка назван софт, оптимизирующий коэффициенты в формуле релевантности - с его помощью разработчики могут совершенствовать формулу, внося в нее "неограниченное число параметров".
За счет этих и других разработок, а также "новых тенденций в представлении результатов" (детали относительно веб-интерфейса поиска компания пока не раскрывает, но именно на него делают ставку в вопросе конкуренции с нынешними лидерами) - компания рассчитывает вывести свой продукт на уровень других "промышленных" поисковиков, таких как Яндекс, Google, Рамблер, Yahoo, Ask.com и др.
"Поиск KM.ru" не будет играть на поле "глубокого веба" - там, где речь идет об индексации контента, закрытого для общего доступа, уточняет г-н Татевосян. "Тут есть один способ – дать вебмастеру возможность предоставить поисковому роботу логин и пароль для доступа к подобным документам. Если поисковик этим занимается без ведома владельцев сайтов, это уже хакерство и, значит, не наша область", говорит он.
К ордам оптимизаторов, усложняющих жизнь большинству крупных поисковых сервисов, у него также двоякое отношение: "Сама по себе оптимизация выдачу только улучшает, так как вебмастер грамотно использует заголовки, ссылки и текст документа, то есть хорошо владеет языком разметки HTML. С черными методами оптимизации борьба будет вестись как с помощью алгоритмов, так и ручным трудом. Совсем без ручного труда здесь не обойтись - именно люди решают, что есть накрутка, обман поисковой машины. В этом случае анализируются большие объемы данных и создаются алгоритмы для борьбы с подобными проявлениями".
Что касается разговоров об "интеллектуальных" алгоритмах распознавания содержания, Сергей не скрывает скепсиса:
"При слове "интеллектуальные" мне слышатся там-тамы и бубны, как и при словах "искусственный интеллект". Когда сейчас говорят о семантике - это те же ключевые слова, только заключенные в другие тэги (я имею в виду т.н. семантический веб, размеченный вручную). Семантику в чистом виде «промышленные» поисковые машины сейчас не индексируют. Смысл нетекстового контента (например, изображений) можно "распознавать" с помощью OCR-программы, подавая ей на вход картинки со страниц, что не представляет из себя ничего нового.
Касательно наших разработок – да, мы занимаемся семантикой документов, то есть не ручной их разметкой, а автоматизированным распознаванием смысла документа (об этом можно прочесть в нашей статье на семинаре РОМИП-2008 (
Несмотря на очевидную заинтересованность создателей "Поиска KM.ru" в совершенствовании технологической стороны поиска, компания не целится на рынок корпоративного софта и планирует играть главным образом как бесплатный веб-сервис, который будет окупаться за счет медийной и контекстной рекламы.
"Это стоило нам трех лет напряженной работы, килограмм прочитанной литературы и участия во многих профильных семинарах", - шутит Сергей Татевосян на вопрос об инвестициях в создание проекта."На рекламу подобного сервиса обычно уходит больше, чем на его разработку. Общая цена вопроса – несколько миллионов долларов, включая разработку, оборудование в виде нескольких тысяч серверов и маркетинг", - добавляет он.