Как АНБ и ЦРУ используют дата-центры и облака

Специальный корреспондент
Собака

Собака

Пресс-служба
Команда форума
Private Club
Регистрация
13/10/15
Сообщения
54.809
Репутация
62.390
Реакции
277.002
RUB
0

Дата-центр АНБ в Юте

Агентство национальной безопасности США — технологически очень продвинутая организация. Это неудивительно, учитывая масштабы данных, которые приходится обрабатывать. Петабайты перехваченного интернет-трафика и телефонных разговоров, миллиарды текстовых сообщений из мессенджеров и сотовых сетей — ежедневно. Всё это нужно распознать, классифицировать, индексировать для мгновенного поиска по ключевым словам, выстроить социальный граф и так далее.

Благодаря Сноудену мы представляем, как работают . Теперь давайте посмотрим, какие вычислительные мощности для этого задействуются.
Дата-центры

fhos7rgn_or-bx6enls93sdyjzm.jpeg


Главный под кодовым названием Bumblehive (Шмель) введён в строй в сентябре 2013 г. Ориентировочная стоимость строительства на площади почти 10 га оценивается в $1,5 млрд.

Объём дискового хранилища Шмеля в 2013 году оценивали в (5×10²¹). Для сравнения, в 2020 году мировой объём IP-трафика оценивается примерно в 250 эксабайт в месяц ( ), то есть примерно 3 зеттабайта в год. С подводных межконтинентальных кабелей АНБ уже в 2013 году снимало , а сейчас гораздо больше.

Поэтому АНБ наверняка пришлось сделать апгрейд дисковых накопителей в последние годы, если они по-прежнему хотят сохранять копию всего мирового интернет-трафика.



c987e99ca7292f5d5516c8b6fc42a270.png


На схеме показаны:


  • четыре помещения для серверов общей площадью 9290 м²;
  • офис для технического и административного персонала;

    tmj5q_p57r4dhetmdbx2xevfk3w.jpeg

  • генераторы резервного питания и баки с топливом, которого хватает на трое суток работы дата-центра;

    0t4bnxhnxzimmswlptbt4z41w0k.jpeg

    Запасы воды и топлива
  • резервуары с водой и насосы, пропускная способность 6,4 млн л в сутки;


  • холодильники и теплообменники, через которые проходит вода, всего около 60 тыс. тонн охлаждающего оборудования;
  • электрическая подстанция;
  • отдел охраны, где установлены центр системы видеонаблюдения, система обнаружения проникновения и другие подсистемы общей стоимостью $10 млн.

Площадь всех административных и технических зданий 83 613 м².

Другую техническую информацию по дата-центру Шмель см. .

Место в Юте выбрано не случайно. Оказывается, крупнейшие американские ЦОД располагаются .

dt4wwugrthansptxrbld26glscu.png


По стечению обстоятельств такой маршрут взяли для первой трансконтинентальной железной дороги, строительство которой завершилось в 1869 г. Вдоль неё непрерывная полоса отчуждения шириной 60 м, под которой сейчас оптические каналы связи.

Другие дата-центры АНБ не такие впечатляющие. Есть суперкомпьютер в Форт-Миде, где находится штаб-квартира. Он нужен для оперативной деятельности. Также в строю ЦОД в Сан-Антонио (Техас), криптологические центры в Джорджии стоимостью $286 млн и Сант-Антонио (Техас) стоимостью $300 млн, которые используются для взлома шифров.


Внутри куполов скрыты радиоантенны для прослушки спутниковой связи по программе шпионажа FORNSAT

Из документов Сноудена выяснилось, что у АНБ есть небольшой ЦОД даже в Великобритании. Дата-центр на станции (Field Station 8613) была секретно построен в период с 2009 по 2012 годы с бюджетом $40 млн.



Menwith Hill Station занимается хранением и анализом трафика, собранного в этой местности, обрабатывая более 300 млн телефонных звонков и электронных сообщений в сутки. Данные нужны в реальном времени для операций по захвату и уничтожению террористов, которые ЦРУ проводит по всему миру.

Но в целом Шмель стал центральным звеном в инфраструктуре АНБ, как показано на диаграмме. Шмель сам по себе стал облаком.

0tc2pb-clsti4uk01b3bdv_fcwe.jpeg


Дата-майнинг

После утечки данных от Сноудена стало понятно, что АНБ занимается массовой слежкой и собирает данные на всех граждан ДО совершения преступлений, а не на конкретных подозреваемых ПОСЛЕ преступления. Видимо, второй подход считают устаревшим и не таким эффективным.

ghbvpcf8a00eqefdfphflghzocs.jpeg


ka8bxyeno2ix8h1l1qoptshhe0o.jpeg


Вот список некоторых целей по сбору данных АНБ. Каждый тип данных нуждается в классификации, индексировании и отдельном анализе:


  • поисковые запросы;

    базы данных с поисковыми запросами государственных служащих с указанием места работы и IP-адреса сотрудника:

    5-vntf2b_yfgh1ani_wnovxrv8m.jpeg

  • посещённые сайты;
  • полученная и отправленная почта;
  • активность в соцсетях (Facebook, Twitter и др.)
  • активность в блогах: опубликованные и прочитанные посты, оставленные комментарии ( на технологию определения темы текста путём анализа существительных);
  • звукозаписи телефонных переговоров с биометрической идентификацией личности по голосу ( );
  • видеозвонки через Zoom, Google Meet и др.;
  • ДНК;
  • и многое другое.

Объём растёт в экспоненциальной прогрессии. Например, в последние годы добавились видеозаписи с камер наблюдения.

Раньше людям хватало аудиозвонков и текстовых сообщений. А теперь всё больше трафика генерируют видеозвонки и видеоконференции.

В дата-центре Шмель установлен суперкомпьютер . В каждую стойку Cray XC30 входит до 384 процессоров Intel Xeon E5-2600 либо Intel Xeon E5-2600 V2.

nq89vqw_mhuaemvey4musvhbfpw.jpeg

Cray XC30

onjkkuvllvgfepwj_-4zc4s7ktq.jpeg

Распаковка суперкомпьютера Cray XC30 ( )

Конструктивно стойка содержит три блейд-шасси, по 16 лезвий в каждом. В свою очередь, в каждом блейде — четыре двухпроцессорных вычислительных узла.

gylb4muqmaltzd9g5e23c9r3mzq.jpeg


hqddy5s5nadesmvaw-xxirq3nsc.jpeg


На узел устанавливается 32-128 ГБ памяти с пропускной способностью до 117 ГБ/с. Для связи между узлами применяется фирменная шина интерконнекта Aries.

Суперкомпьютеры XC30 работают под управлением операционной среды Cray Linux Environment, в состав которой входит SUSE Linux Enterprise Server.

Облачные сервисы

Дата-центр в Юте стал последним крупным проектом по строительству инфраструктуры для американских спецслужб. Как и многие другие заказчики, они посчитали более выгодным арендовать мощности облачных провайдеров, а не заниматься техническим обслуживанием собственных дата-центров.

Сейчас ЦРУ и АНБ постепенно отказываются от собственных ЦОД — и переходят в облако, причём частично используют инфраструктуру обычных провайдеров, начиная с AWS.

Агентства вроде ЦРУ и АНБ — самые «жирные» заказчики для облачных провайдеров. Бюджеты не ограничены, объёмы данных колоссальные.

Commercial Cloud Enterprise

В ноябре 2020 года , что ЦРУ заключило «мультиоблачный» контракт Commercial Cloud Enterprise (C2E) сразу с пятью облачными провайдерами: Amazon Web Services, Microsoft, Google, Oracle и IBM, в то время как с 2013 года она эксклюзивно пользовалась только AWS по . Теперь ЦРУ переходит в гибридное облако и будет выбирать наиболее подходящего поставщика облачных услуг для конкретных рабочих нагрузок.

Финансовые условия нового контракта не разглашаются, но документация для тендера от 2019 говорит, что бюджет может составлять «десятки миллиардов долларов» на следующие пятнадцать лет.

ЦРУ специализируется на деятельности исключительно иностранных организаций и граждан. Другое дело — АНБ. Вот уже эта структура осуществляет прослушку электронных коммуникаций и за границей, и внутри страны, охватывая всё местное население. Объёмы данных у них на порядок больше, чем у ЦРУ.

Intelligence Community GovCloud

По примеру других разведывательных агентств, к 2018 году АНБ бóльшую часть своих данных в облако. Но совсем другое облако — это Intelligence Community GovCloud, которое работает на инфраструктуре АНБ (on-premise), на стандартном железе, но с использованием множества уникальных наработок АНБ по аппаратной и программной части.

Commercial Cloud Enterprise и Intelligence Community GovCloud от ЦРУ и АНБ — в каком-то смысле два «конкурента». Каждое из 16-ти агентств, которые входят в , может выбрать C2E или GovCloud.

Кроме того, есть ещё инфраструктура «Джедай» (Joint Enterprise Defense Infrastructure, JEDI) Минобороны США, которое заключило эксклюзивный контракт с Azure в октябре 2019 года, но до сих пор правомерность сделки оспаривается в суде компанией Amazon.

С точки зрения логической архитектуры Intelligence Community GovCloud — это общий центр, единая среда для удобной работы с множеством разрозненных источников данных. Оно описывается как «озеро данных» (data lake), которое запрашивает данные из внешних хранилищ АНБ и других ведомств.

Информационный директор АНБ Грег Смитбергер рассказывал, что благодаря GovCloud стало проще применять алгоритмы машинного обучения. Вся информация, поступающие в озеро, помечается тегами с указанием источника и уровня доступа — у кого есть право работать с этими данными. Это должно защитить в том числе от таких масштабных утечек, как в случае с Эдвардом Сноуденом. Ведь он работал в консалтинговой компании Booz Allen Hamilton (подрядчик АНБ) и формально не должен был получить доступ к секретным файлам, которые вынес из .

fc26jekpiae3vpbviwd7k7z1oto.jpeg

Кадр из фильма «Сноуден»

АНБ сейчас тоже смотрит в сторону гибридного облака на публичной инфраструктуре. О проекте Hybrid Compute Initiative (HCI) информационный директор Разведывательного сообщества США Джон Шерман на конференции AFCEA NOVA. Он говорит, что это будет своего рода эволюционное развитие GovCloud.

HCI и C2E будут работать параллельно. АНБ допускает, что при наличии специфических задач со всплесками нагрузки они тоже могут воспользоваться услугами црушного проекта. Хотя ведомства конкурируют между собой, но готовы сотрудничать по некоторым взаимовыгодным направлениям.

Гибридная платформа HCI будет работать в дата-центрах сторонних облачных провайдеров, но АНБ считает важным, чтобы географически они размещались как можно ближе к её собственной инфраструктуре «для скорости». В некоторых приложениях АНБ сетевая задержка является критичным фактором.




 
Сверху Снизу