Почему AI-инфраструктура должна измениться: Cisco о сетях, хранении и безопасности для эпохи ИИ

Перестройка основы: почему инфраструктура ИИ должна измениться. По мере перехода ИИ-нагрузок от экспериментов к критически важным задачам начинают проявляться неожиданные проблемы, проверяющие базовые принципы построения сетей, систем хранения и моделей безопасности. За почти два десятилетия наблюдения за развитием инфраструктуры можно сказать: текущий этап принципиально отличается от предыдущих. Речь идёт не об оптимизации существующих решений, а о полном их переосмыслении.

Восстановление Фундамента: Почему Инфраструктура Искусственного

Барьер пропускной способности и развитие co-packaged optics

Современные кластеры для обучения ИИ требуют огромной пропускной способности. Обучение сложных моделей может включать десятки и сотни тысяч GPU, обменивающихся данными на скоростях, которые ещё недавно казались невозможными. Уже сегодня суммарная пропускная способность отдельных систем достигает сотен петабит в секунду, что выводит традиционные оптические решения на предел возможностей.
Отрасль стремительно переходит к использованию кремния с пропускной способностью 102,4 Тбит/с как стандарта для крупных ИИ-платформ. Узким местом становится не столько вычислительная мощность, сколько скорость передачи данных между компонентами системы. Новые решения позволяют максимально задействовать GPU, сокращая простои и повышая эффективность. 102,4 Тбит/с становится минимальным уровнем для конкурентоспособных ИИ-кластеров.

С ростом скоростей до 800G, 1,6T и выше увеличиваются требования к энергопотреблению и появляются потери при передаче сигнала, что усложняет масштабирование.

Технология LPO (Linear-drive Pluggable Optics) становится всё более востребованной. Исключение DSP из трансиверов позволяет напрямую соединять чип с оптическим модулем, снижая энергопотребление до 50 %, уменьшая задержки и стоимость. Для инфраструктур с высокими требованиями к пропускной способности LPO становится ключевым элементом.

Следующий шаг — CPO (Co-Packaged Optics), где оптические компоненты интегрируются непосредственно в коммутатор. Это снижает потери, уменьшает энергопотребление на 30–40 % и улучшает качество сигнала, а также увеличивает плотность портов.

CPO расширяет возможности проектирования сетей: позволяет объединять сотни GPU в одном уровне или сокращать количество уровней сети, уменьшая задержки и упрощая архитектуру.
Переход к CPO потребует новых подходов к обслуживанию, охлаждению и логистике, однако для масштабных ИИ-систем он становится необходимым.

Scale-across: за пределами одного кластера

Развитие ИИ-сетей прошло несколько этапов: scale-up объединял GPU внутри одной системы, scale-out расширял инфраструктуру в пределах дата-центра.

Сегодня возможности scale-out достигают предела. Ограничения связаны не с вычислениями, а с доступностью ресурсов в одной локации. Новый этап — объединение кластеров между собой.
Scale-across рассматривает ресурсы из разных мест как единое целое, но при этом возникают новые сложности, связанные с задержками и распределённостью.

Для решения этих задач необходимы мощные маршрутизаторы с высокой пропускной способностью и глубокими буферами. Инфраструктура должна объединять функции маршрутизации и коммутации. Без адаптации к новым требованиям возможны узкие места и падение производительности.

Появляются и новые подходы: алгоритмы оптимизируют передачу данных с учётом топологии сети, задачи распределяются с учётом задержек, а системы становятся более устойчивыми к временным рассинхронизациям.

Сети теперь должны не только обеспечивать скорость, но и учитывать структуру и контекст, принимая интеллектуальные решения. Управление становится таким же важным, как и передача данных.
Компании, освоившие scale-across, получают доступ к вычислительным ресурсам, недостижимым для традиционных архитектур.

Хранилище: недооценённое узкое место

В обсуждениях ИИ-инфраструктуры внимание часто сосредоточено на вычислениях и сетях, в то время как хранение данных недооценивается.

Однако именно системы хранения становятся серьёзным ограничением. Обучение моделей требует работы с огромными объёмами данных и частых операций записи и чтения, особенно при восстановлении после сбоев.

Инференс требует быстрого доступа к моделям и кэшам с минимальными задержками. В результате системы хранения становятся фактором производительности, а не просто ёмкости. Простой GPU из-за задержек в доступе к данным приводит к финансовым потерям.

В ответ появляются новые решения: распределённые файловые системы, интеллектуальное распределение данных по уровням хранения и кэширование между вычислениями и дисками. Использование RDMA снижает задержки до микросекунд.

Главное изменение — необходимость проектировать системы хранения изначально с учётом ИИ-нагрузок, а не добавлять их позже.

Безопасность в эпоху ценных моделей

ИИ-модели представляют огромную ценность. Их создание требует значительных инвестиций, а веса моделей становятся критическим активом.

Угрозы включают кражу моделей, утечки данных и внутренние риски. При этом высокая скорость передачи данных увеличивает потенциальную уязвимость.

Современные решения включают аппаратную защиту, конфиденциальные вычисления и сегментацию сети. SmartNIC и DPU позволяют разгрузить CPU и обеспечивать защиту на уровне оборудования.

DPU контролируют сетевые соединения, фильтруют трафик и защищают от атак, работая независимо от основной системы. Это делает их важным элементом архитектуры нулевого доверия.

Кроме того, появляются угрозы, специфичные для ИИ: манипуляции входными данными, отравление обучающих наборов и анализ модели для извлечения конфиденциальной информации.

Безопасность ИИ — это не только соответствие требованиям, но и защита активов, ценность которых может превышать стоимость оборудования.

Путь вперёд

Компании-лидеры уже инвестируют в инфраструктуру нового типа, уделяя внимание не только вычислениям, но и сетям, хранению и безопасности.

Решения, принимаемые сегодня, определят, кто сможет создавать и использовать ИИ будущего, а кто будет зависеть от внешних ресурсов.

Для специалистов в области инфраструктуры это уникальное время: формируется не просто развитие, а основа будущих технологий.

Перейти к списку новостей