Apache Software Foundation отметила важную роль, которую сыграли Open Source-инструменты для «панамских документов»

Некоммерческая организация Apache Software Foundation (ASF) заявила, что продукты с открытым исходным кодом, в частности и в особенности развиваемые под её крылом, сделали возможной расследование по крупной утечке конфиденциальных данных, о которой стало известно в прошлом году как о Панамских документах (Panama Papers).

Общение журналиста S?ddeutsche Zeitung
Общение журналиста S?ddeutsche Zeitung / Иллюстрация с сайта En.Wikipedia.Org

В 2015 году немецкая газета S?ddeutsche Zeitung получила от анонимного источника огромный архив данных — 11,5 миллионов файлов общим объёмом в 2,6 терабайта, в которых упоминалось множество мировых лидеров и высокопоставленных чиновников. После продолжительного анализа данных, проводимого 400 журналистами с 6 континентов на протяжении более года, некоторые данные из этого архива начали публиковаться для широкой общественности, что стало огромным событием для мира журналистики и политики. Недавно эта работа была удостоена Пулитцеровской премии 2017 года в категории журналистики (Explanatory Reporting).

Как сообщает ASF, обработка информации в 214 888 документах стала возможной благодаря использованию ряда Open Source-утилит, поддерживаемых в этом фонде:

  • Tika — для обработки документов (извлечения метаданных и структурированного текста);
  • Solr — для поиска и индексации текста;
  • PDFBox — для распознавания текста в PDF-документах;
  • POI — для извлечения и управления документами в форматах Excel, Word и PowerPoint;
  • Commons — для ускорения разработки инструментов, предназначенных для работы с документами.

Называя эти проекты интегральной частью расследования, ASF уточняет, что в проекте работы с «панамскими документами» были задействованы и другие Open Source-приложения включая Tesseract-ocr для распознавания текста (в изображениях), Project Blacklight и Jackcess (для чтения и записи баз данных в формате MS Access).

Дмитрий Шурупов по материалам Blogs.Apache.org, En.Wikipedia.Org.







Интересные новости
Незавершенная версия Windows 7 работает лучше Vista
Программист открыл заблокированные возможности Windows 7
Quick Slide Show 2.32: создание flash-презентаций
Покупатели гоняются за старыми компьютерами ради Windows XP
Визуализатор V-Ray 1.5 Service Pack 2 с поддержкой 3ds Max 2009
Блок рекламы


Похожие новости

Сем Альтман повернеться на посаду СЕО OpenAIСем Альтман повернеться на посаду СЕО OpenAI
Скандал в OpenAI: 90% працівників пригрозили перейти в MicrosoftСкандал в OpenAI: 90% працівників пригрозили перейти в Microsoft
Microsoft найняла колишнього главу OpenAIMicrosoft найняла колишнього главу OpenAI
Засновники OpenAI закликали до регулювання, щоб ШІ не захопив людствоЗасновники OpenAI закликали до регулювання, щоб ШІ не захопив людство
Гендиректор OpenAI «побоюється» ChatGPT і впевнений, що через даний ШІ зникне низка професійГендиректор OpenAI «побоюється» ChatGPT і впевнений, що через даний ШІ зникне низка професій
Більш креативна та рідше вигадує факти: OpenAI запустила нову модель модель GPT-4Більш креативна та рідше вигадує факти: OpenAI запустила нову модель модель GPT-4
Microsoft хоче інвестувати $10 мільярдів у компанію OpenAI, яка розвиває штучний інтелектMicrosoft хоче інвестувати $10 мільярдів у компанію OpenAI, яка розвиває штучний інтелект
Steam отметила быстрый рост числа пользователей Windows 11 — уже до конца года их может стать больше, чем у Windows 10Steam отметила быстрый рост числа пользователей Windows 11 — уже до конца года их может стать больше, чем у Windows 10
Apache выпустила уже третий патч для закрытия уязвимости в библиотеке Log4j — второй снова не справился
Обнаружен максимум ОЗУ, которую способен “съесть” Chrome
Последние новости

Подгружаем последние новости