Израильские специалисты придумали, как извлекать суть из электронных писем

Сегодня в мире зарегистрировано более трёх с половиной миллиардов учётных записей электронной почты. Каждый день серверы пересылают порядка ста пятидесяти миллиардов писем. По данным ЗАО «Лаборатория Касперского», более двух третей из них обычно составляет нежелательная корреспонденция. Есть, конечно, противоспамовые фильтры, но это не панацея. Они плохо поддаются точной настройке и временами пропускают спам, но фильтруют важные письма. Команда израильских исследователей считает, что нашла решение этой проблемы.

Проект под руководством профессора университета Бен-Гуриона Марка Ласта (Mark Last) будет особенно актуален для пользователей мобильных устройств. В рамках предложенной концепции вся текстовая часть сообщений разбивается на блоки и подвергается глубокому анализу. Из каждого блока выделяются ключевые слова, которые затем используются для тезисного представления письма. Таким способом длинные письма «выжимаются» максимум до пары сотен слов, благодаря чему с их сутью часто можно ознакомиться, даже не открывая их.

Общий алгоритм реферирования текста (изображение: lexalytics.com)
Общий алгоритм реферирования текста (изображение: lexalytics.com)

Марк занимался разработкой подобных алгоритмов с 1996 года, когда был аспирантом в Тель-Авивском университете. Это было задолго до появления термина «большие данные». Тогда их называли просто методами интеллектуального анализа неструктурированных данных.

Подобные методы были опробованы ранее при анализе веб-страниц. Как поясняет Марк, в интернете есть десятки тысяч сайтов, пропагандирующих терроризм. Однако их совсем не просто найти. Они маскируются под сайты общественных организаций, новостных агентств и тематические форумы.

Марк и его команда разработали алгоритм статистического и семантического анализа веб-контента, выстраивающий «характеристические модели» страниц по результатам их сканирования. Основной вклад в результат анализа даёт учёт числа и характера употребления ключевых слов. В данном случае это «враг», «мученик» и специфические фразы. Например, на таких сайтах никогда не используется словосочетание «террорист-смертник». Вместо него применяется понятие «человеческая бомба» и разные аллегории.

Данные методы обработки текстовых данных и технология автоматического реферирования применяется аналитиками, пресс-службами крупных компаний, сотрудниками спецслужб и представителями других профессий, которым приходится ежедневно обрабатывать большой объём информации.

Любопытная деталь биографии: Марк родился в России, затем эмигрировал в Израиль и поступил в университета Бен-Гуриона. Сейчас он профессор кафедры инженерных информационных систем и занимается исследованиями по одному из самых актуальных ИТ-направлений.

Пока описанные алгоритмы ориентированы в первую очередь на англоязычные тексты. Параллельно они адаптируются для иврита, арабского и других языков. Хотя Марк и отмечает, что его команда разрабатывает методы, а не конечный программный продукт, соответствующая патентная заявка уже подана в США.








Интересные новости
Українські хакери вразили російські підприємства до Дня РЕБ РФУкраїнські хакери вразили російські підприємства до Дня РЕБ РФ
Ілон Маск хоче брати гроші з нових користувачів XІлон Маск хоче брати гроші з нових користувачів X
Блок рекламы


Похожие новости

РоSSийские хакеры постоянно атакуют систему Starlink, специалисты пока справляютсяРоSSийские хакеры постоянно атакуют систему Starlink, специалисты пока справляются
Специалисты зафиксировали рассылку опасных писем с почты сотрудника госорганаСпециалисты зафиксировали рассылку опасных писем с почты сотрудника госоргана
Anonymous "слили" 600 тыс. писем крупнейшего поставщика энергокомплекса РФAnonymous "слили" 600 тыс. писем крупнейшего поставщика энергокомплекса РФ
Хакеры выложили в свободный доступ 15,6 тысяч писем компании, связанной с Минобороны РФХакеры выложили в свободный доступ 15,6 тысяч писем компании, связанной с Минобороны РФ
Украинские специалисты отразили масштабные DDoS-атаки на сайты госоргановУкраинские специалисты отразили масштабные DDoS-атаки на сайты госорганов
Украинские специалисты предотвратили масштабную кибератаку на энергетический сектор УкраиныУкраинские специалисты предотвратили масштабную кибератаку на энергетический сектор Украины
Специалисты по кибербезопасности назвали самые популярные пароли среди украинцев и в мире
Politico: роSSийские хакеры украли тысячи писем сотрудников Госдепа
Прокуратура Киева предупредила о рассылке зараженных вирусом писем
Мошенники придумали новую схему кражи денег через Zoom
Последние новости

Подгружаем последние новости