Предыстория феномена Big Data: от фараонов до Второй мировой
В последнее время вокруг парадигмы обработки информации, получившей название «большие данные», развернулся настоящий бум. По
Попробуем кратко рассмотреть феномен «больших данных» в историческом аспекте, по возможности не отвлекаясь на технологии и экономику. Такие понятия, как облачные вычисления, программное обеспечение (Hadoop, NoSQL и т.п.), фермы многопроцессорных серверов и прочие детали реализации фундаментальных дисциплин и алгоритмов останутся вне рассмотрения. Довольно того, что вычислительные мощности существуют.

Античные корни статистики

Все началось в ветхозаветные времена, и не в переносном, а в самом буквальном смысле этого слова. Откроем Библию, книгу «Числа».
Постановка задачи:
- исчислите все общество сынов Израилевых по родам их, по семействам их, по числу имен, всех мужеского пола поголовно: от двадцати лет и выше, всех годных для войны у Израиля, по ополчениям их исчислите их (1:2-3)
- исчисли сынов Каафовых из сынов Левия по родам их, по семействам их, от тридцати лет и выше до пятидесяти лет, всех способных к службе, чтобы отправлять работы в скинии собрания. (4:2-3)
Исполнение:
- И взял Моисей и Аарон мужей сих, которые названы поименно, и собрали они все общество в первый день второго месяца. И объявили они родословия свои, по родам их, по семействам их, по числу имен, от двадцати лет и выше, поголовно, как повелел Господь Моисею. И сделал он счисление им в пустыне Синайской. (1:17-19)
- и было всех вошедших в исчисление шестьсот три тысячи пятьсот пятьдесят. (1:46)
- И исчислены все левиты, которых исчислил Моисей и Аарон и начальники Израиля по родам их и по семействам их, от тридцати лет и выше до пятидесяти лет, все способные к службе для работ и ношения в скинии собрания; и было исчислено их восемь тысяч пятьсот восемьдесят (2:46-48)
В сущности, в современной статистике это называется классификацией по первичному прямому признаку – возрасту. Количественное соотношение возрастных групп позволяет сделать некоторые выводы о продолжительности жизни во времена Моисея. Подсчет трофеев в главе 31, определение стоимости «по пяти сиклей за человека» и многое другое можно описать в терминах статистики, но тогда этой дисциплины попросту не существовало.
В древности обеспечение пропитанием на случай неурожая или стихийных бедствий составляло важный аспект бытия. Ещё во времена фараонов египтяне запасали зерно на случай непредвиденного разлива Нила, а «Великий амбар» в располагающемся у берегов Инда
В третьем веке до нашей эры Архимед пишет «
Некоторые люди полагают, государь Гелон, что число песка по величине бесконечно; я говорю не только о песке, которые который имеется в окрестностях Сиракуз и остальной Сицилии, но и о том, который имеется во всех странах, как населенных, так и не населенных. Есть, однако, и такие, которые не считают его бесконечным, но тем не менее думают, что не существует такого имеющего название числа, которое было бы больше его количества.
И действительно, такого числа не было, Архимед вводит понятие степени, которое называет числами первого, второго и т. д. порядка, создав тем самым позиционную систему счисления. Это был гигантский шаг вперёд.
Галера Шрёдингера
Вообще говоря, античность являет для нас неисчерпаемый источник знаний. С развитием древнегреческого флота появилась традиция: первый тост «За живых!», второй «За мертвых!», а третий «За тех, кто в море!». Если с первыми двумя все ясно, то третий нуждается в пояснении. Экипаж галеры, ушедшей за горизонт в условиях отсутствия радиосвязи, спутников и развитых средств навигации, находится в суперпозиции двух состояний – живого и мертвого. Источник в античности, а вся слава досталась коту в коробке.
Ярким примером умения, с которым древние греки использовали сбор и обработку данных, является обнаружение и разработка серебряной жилы на свинцовых рудниках Лариума. Она позволила им построить флот из двухсот кораблей, способный контролировать морскую торговлю между Афинами и колониями, от Массалии и Кирены до Пантикапея. Попутно были заложены основы логистики и понимание важности морской мощи в перемещении товаров по всей ойкумене того времени. Не тем же ли самым занимаются современные контейнерные перевозчики и логистические гиганты вроде UPS?
Настоящего искусства в обращении с данными в экономических и военных интересах достигли в Древнем Риме. После введения института цензурата Сервием Туллием органы власти стали получать значительное количество сведений практически о всех аспектах деятельности. Помимо политических функций, в обязанности
Руководствуясь этими сведениями, органы власти принимали решения. Достаточно вспомнить
Практика ценза пережила Римскую империю. В 1086 году по приказу Вильгельма Завоевателя была составлена «

За Граунтом последовал Эдмунд Галлей, более известный как первооткрыватель кометы, названной его именем. Его статья «
XVII-XIX века были временем становления статистики как основы работы с данными. От Гюйгенса до Гаусса, от Байеса до Пирсона, от распределений до регрессий… Это наследие подробно изучается в ВУЗах, поэтому нет нужды останавливаться подробно. Важно то, что в это время закладывались фундаментальные теоретические основы обработки «больших данных».

Математика как оружие

Обработка данных играла во Второй Мировой войне особенную роль. Для повышения эффективности боевых действий требовались, наряду со старыми, новые методы. Появившаяся в результате дисциплина называлась «
В 1940 году во время «битвы за Британию» лондонские статистики тщательно фиксировали местоположение каждой упавшей на город бомбы. По плотности бомбометания можно было делать выводы об интересующих Германию целях, подбирать более эффективные места для зенитных батарей и надежнее прикрывать критические объекты эскадрильями истребителей.

Статистика помогала Великобритании не только отражать атаки вражеских бомбардировщиков, но и планировать собственные авианалёты. Данные, предоставленные разведкой, определяют цели, исследование операций предлагает действенные методы. Как осуществлять заход на цель? Сколько нужно самолетов? В каком порядке? Какие типы бомб использовать? Для успешного исхода боевого столкновения нужны данные, много данных. Потери тщательно фиксировались, а на их основе статистические подразделения вооруженных сил формировали


Пережило второрое рождение детище XX века — теория массового обслуживания (
На поприще разведки, сиречь добычи данных, математика доказала оправданность своего применения. Вот показательный
Деревянная бомба
Иногда противостояние разведок обретало вполне материальный характер. Во время войны немцы построили фальшивый аэродром для введения противника в заблуждение. Деревянные ангары, макеты самолетов, заправщиков и прочего аэродромного хозяйства. Однажды прилетел британский бомбардировщик, сбросил одну-единственную бомбу, после чего строительство было прекращено. Бомба была сделана из дерева. Англичанам свойственна изысканность особого рода.
При массовом производстве изделий во время войны исключительную важность приобретает достижение максимума выхода продукции при минимуме затрат. Так появилась
Эти колоссальные изменения привели к изменению самой штатной структуры вооруженных сил. В армии США существует перечень MOS (military occupation speciality code), аналог наших военно-учетных специальностей. Посмотрим
В послевоенный период развитие математики продолжилось, появилась дисциплина «

Как данные стали большими

В докладе McKinsy «

Так как и когда данные стали большими? Они были большими всегда. Их «величина» определяется только двумя факторами. Первое — наличие вычислительной мощи. Человечество накачивает кремниевые мускулы беспрецедентными темпами. Римский цензор не справился бы с «большими данными», и даже всего пятьдесят лет назад статистики положили бы полжизни на задачу, которая сейчас решается за несколько часов или дней. Другой фактор — необычайная дешевизна транзакции. Для совершения покупки в «Амазоне» не нужно ехать в США — интернет в состоянии передать любые объемы данных за корткое время.
Таким образом, весь информационный шум вокруг феномена «больших данных» сводится к обсуждению технологий, лежащих в их основе, и деталей реализации, но не теоретических основ. Ничего принципиально нового в этой парадигме нет — весь фундамент заложен десятки и сотни лет назад. В этом аспекте «большие данные» — это деревянная бомба, старое вино в новых мехах, традиционные методы в технологическом окружении, невиданном доселе.
Да, теперь мы в состоянии делать то, что не могли раньше. Временами эти достижения вводят в оторопь. Например, современные «повелители данных» способны с высокой точностью
Время покажет, что мы получим после внедрения «больших данных» в полном объеме. Гадать не стоит. Одно можно сказать с уверенностью – будет интересно.