Джон Мюллер о роли TF-IDF в алгоритме Google

Во время последней видеовстречи для вебмастеров сотрудник Google Джон Мюллер ответил на вопрос о роли TF-IDF в алгоритме Google.

Согласно Wikipedia, «TF-IDF – это статистическая мера, используемая для оценки важности слов в контексте документа, являющегося частью коллекции документов… Этот показатель используется в задачах анализа текстов и информационного поиска».

Вопрос к Мюллеру звучал так:

«Что вы думаете о ключевых словах TF-IDF? Использует ли Google аналогичный механизм? Должны ли мы использовать эту технику, чтобы улучшить свой контент?».

Мюллер ответил следующее:

«…ключевые слова TF-IDF – это показатель, который используется в информационном поиске. Что касается попыток понять, какие слова являются релевантными на странице, то мы используем множество различных методов из поиска информации. И есть много таких метрик, появившихся за эти годы».

В целом ответ Мюллера можно расценить как намёк на то, что не стоит фокусироваться на одной старой метрике, поскольку Google также использует много других метрик.

«Моя общая рекомендация здесь – не фокусироваться на этом виде искусственных метрик, поскольку вы не можете воспроизвести эту метрику напрямую, потому что она основана на общем индексе всего контента в интернете. Так что вы не можете взять эту метрику “в работу”, потому что на самом деле её у вас нет»

Далее Джон Мюллер описал лучшую альтернативу этому подходу:

«Вместе этого я бы настоятельно рекомендовал сфокусироваться на сайте и его пользователях и убедиться, что то, что вы предоставляете, в долгосрочной перспективе будет тем, что Google будет по-прежнему признавать и использовать как нечто ценное».

Он также отметил, что TF-IDF – это очень старая метрика, а современный информационный поиск более сложный и не сводится к использованию только одного показателя. При этом фокус на пользователях – это намного лучший подход, поскольку он обеспечивает иммунитет к изменениям. Главная цель Google – предоставление самых полезных результатов поиска. Если делать упор на полезный контент, то страница с большей вероятностью будет оставаться популярной и появляться в Google.

Мюллер также упомянул, что TF-IDF используется для отсева стоп-слов (в английском языке это «and», «the», «that»). Не исключено, что это единственная область применения этого показателя в алгоритме Google.




!

Если для Вас конкретно эта новость оказалась важной или интересной - пожалуйста, поделитесь ею в своей любимой социальной сети с помощью кнопок, расположенных под этим текстом. Это поможет нам в будущем делать более качественную подборку материалов, исходя из Ваших потребностей\интересов.




Коды для вставки в блог\форум

blog comments powered by Disqus


Вспомним другие новости из этого раздела?


Internet и сети

←+Ctrl+→

Интересные новости
Австралийская блогер притворилась больной раком, чтобы люди покупали ее книгу. А на прибыль накупила криптовалютуАвстралийская блогер притворилась больной раком, чтобы люди покупали ее книгу. А на прибыль накупила криптовалюту
Google отслеживает покупки пользователей с помощью GmailGoogle отслеживает покупки пользователей с помощью Gmail
У 49 млн Instagram-звезд собрали контакты и выложили в онлайн
Google Сайты получили обновлённый футерGoogle Сайты получили обновлённый футер
Пользователи больше доверяют сайтам компаний, чем GMB – исследованиеПользователи больше доверяют сайтам компаний, чем GMB – исследование
Блок рекламы


Похожие новости

В Google Duo стали доступны групповые видеозвонкиВ Google Duo стали доступны групповые видеозвонки
Google добавил возможность заказывать еду прямо из результатов поискаGoogle добавил возможность заказывать еду прямо из результатов поиска
Ирландский регулятор разберётся, соблюдает ли Google GDPRИрландский регулятор разберётся, соблюдает ли Google GDPR
Google решил проблему с индексацией свежего контентаGoogle решил проблему с индексацией свежего контента
Google: инструмент «Параметры URL» не предназначен для удаления страниц из поискаGoogle: инструмент «Параметры URL» не предназначен для удаления страниц из поиска
Google предупредил о текущих проблемах с индексациейGoogle предупредил о текущих проблемах с индексацией
Google запускает новый дизайн мобильной выдачиGoogle запускает новый дизайн мобильной выдачи
Ведущий специалист по борьбе с веб-спамом Google Брайан Уайт покинул компаниюВедущий специалист по борьбе с веб-спамом Google Брайан Уайт покинул компанию
Google выпустил три новых курса по машинному обучениюGoogle выпустил три новых курса по машинному обучению
Google уведомил ряд клиентов G Suite о хранении их паролей в текстовом видеGoogle уведомил ряд клиентов G Suite о хранении их паролей в текстовом виде
Последние новости

Подгружаем последние новости