Поисковик от КМ.ru посоревнуется с "Яндексом" и Google

Компания "КМ Онлайн" намерена представить рынку свой поиск по Интернету масштаба "Яндекса" и Google. Сервис, в разработку и запуск которого компания инвестирует несколько миллионов долларов, будет запущен под самостоятельным брендом на отдельном домене в следующем году.

Над будущим сервисом трудятся разработчики "КМ онлайн" и специалисты холдинга e-Style, в который входит компания, рассказал "Вебпланете" руководитель проекта "Поиск KM.ru" Сергей Татевосян. Обкатка технологий и алгоритмов ведется на тестовом кластере объемом в 100 млн. документов, к моменту запуска поисковика индекс достигнет порядка миллиарда документов. Сейчас поисковик обрабатывает только текст. Другие типы документов - такие как изображения, видео и др., планируется добавлять постепенно.

Среди ключевых технических наработок "Поиска КМ.ru" г-н Татевосян отмечает автоматизированную систему по оценке качества поиска, которая позволяет минимизировать "ручной труд":

"Это автоматическая простукивалка выдачи, которая смотрит на качество выдачи в целом (позиции вручную оцененных документов) и на позиции, занимаемые документами-маркерами (когда по запросу «Газпром» выдается сайт Газпрома и т.п.)", - поясняет он.

Вторым важным элементом поискового движка назван софт, оптимизирующий коэффициенты в формуле релевантности - с его помощью разработчики могут совершенствовать формулу, внося в нее "неограниченное число параметров".

За счет этих и других разработок, а также "новых тенденций в представлении результатов" (детали относительно веб-интерфейса поиска компания пока не раскрывает, но именно на него делают ставку в вопросе конкуренции с нынешними лидерами) - компания рассчитывает вывести свой продукт на уровень других "промышленных" поисковиков, таких как Яндекс, Google, Рамблер, Yahoo, Ask.com и др.

"Поиск KM.ru" не будет играть на поле "глубокого веба" - там, где речь идет об индексации контента, закрытого для общего доступа, уточняет г-н Татевосян. "Тут есть один способ – дать вебмастеру возможность предоставить поисковому роботу логин и пароль для доступа к подобным документам. Если поисковик этим занимается без ведома владельцев сайтов, это уже хакерство и, значит, не наша область", говорит он.

К ордам оптимизаторов, усложняющих жизнь большинству крупных поисковых сервисов, у него также двоякое отношение: "Сама по себе оптимизация выдачу только улучшает, так как вебмастер грамотно использует заголовки, ссылки и текст документа, то есть хорошо владеет языком разметки HTML. С черными методами оптимизации борьба будет вестись как с помощью алгоритмов, так и ручным трудом. Совсем без ручного труда здесь не обойтись - именно люди решают, что есть накрутка, обман поисковой машины. В этом случае анализируются большие объемы данных и создаются алгоритмы для борьбы с подобными проявлениями".

Что касается разговоров об "интеллектуальных" алгоритмах распознавания содержания, Сергей не скрывает скепсиса:

"При слове "интеллектуальные" мне слышатся там-тамы и бубны, как и при словах "искусственный интеллект". Когда сейчас говорят о семантике - это те же ключевые слова, только заключенные в другие тэги (я имею в виду т.н. семантический веб, размеченный вручную). Семантику в чистом виде «промышленные» поисковые машины сейчас не индексируют. Смысл нетекстового контента (например, изображений) можно "распознавать" с помощью OCR-программы, подавая ей на вход картинки со страниц, что не представляет из себя ничего нового.

Касательно наших разработок – да, мы занимаемся семантикой документов, то есть не ручной их разметкой, а автоматизированным распознаванием смысла документа (об этом можно прочесть в нашей статье на семинаре РОМИП-2008 (pdf)".

Несмотря на очевидную заинтересованность создателей "Поиска KM.ru" в совершенствовании технологической стороны поиска, компания не целится на рынок корпоративного софта и планирует играть главным образом как бесплатный веб-сервис, который будет окупаться за счет медийной и контекстной рекламы.

"Это стоило нам трех лет напряженной работы, килограмм прочитанной литературы и участия во многих профильных семинарах", - шутит Сергей Татевосян на вопрос об инвестициях в создание проекта."На рекламу подобного сервиса обычно уходит больше, чем на его разработку. Общая цена вопроса – несколько миллионов долларов, включая разработку, оборудование в виде нескольких тысяч серверов и маркетинг", - добавляет он.







Интересные новости
Перша українська криптобіржа Kuna закрила депозити та оголосила дату припинення роботиПерша українська криптобіржа Kuna закрила депозити та оголосила дату припинення роботи
TON різко зріс на тлі виїзду Дурова з ФранціїTON різко зріс на тлі виїзду Дурова з Франції
Блок рекламы


Похожие новости

Google програв судовий процес щодо антимонопольного штрафу ЄС у розмірі $2,7 млрдGoogle програв судовий процес щодо антимонопольного штрафу ЄС у розмірі $2,7 млрд
Google заплатив Apple $20 млрд, щоб стати стандартним пошуковиком у SafariGoogle заплатив Apple $20 млрд, щоб стати стандартним пошуковиком у Safari
Google планує стягувати плату за пошукову систему на основі ШІGoogle планує стягувати плату за пошукову систему на основі ШІ
Чатбот зі штучним інтелектом від Google вже доступний в Україні: що він можеЧатбот зі штучним інтелектом від Google вже доступний в Україні: що він може
Axios: Як Google намагається протистояти у сфері ШІ компаніям Microsoft та OpenAIAxios: Як Google намагається протистояти у сфері ШІ компаніям Microsoft та OpenAI
Google помилково відіслала деяким користувачам Google Pay від $10 до $1000Google помилково відіслала деяким користувачам Google Pay від $10 до $1000
Google порахував, скільки мільярдів доходу отримали українські стартапи у 2022 роціGoogle порахував, скільки мільярдів доходу отримали українські стартапи у 2022 році
«Податок на Google»: Держбюджет вже отримав 6,3 мільярда«Податок на Google»: Держбюджет вже отримав 6,3 мільярда
Google запускає чат-бот Bard для конкуренції з ChatGPTGoogle запускає чат-бот Bard для конкуренції з ChatGPT
Фонд держмайна починає співпрацю з Google: що це значитьФонд держмайна починає співпрацю з Google: що це значить
Последние новости

Подгружаем последние новости