Архитектурные решения суперкомпьютеров
Заказать уникальный реферат- 22 22 страницы
- 7 + 7 источников
- Добавлена 10.11.2022
- Содержание
- Часть работы
- Список литературы
- Вопросы/Ответы
Введение 3
1. Сферы применения суперкомпьютеров 4
2. Суперкомпьютеры 7
3. Матричные суперкомпьютеры 8
4. Архитектура современных суперЭВМ 10
5. Оценки производительности суперЭВМ 17
6. Архитектурные тенденции 21-го века 18
Заключение 20
Список используемой литературы 21
Кластеры являются классическим примером неплотно соединенных систем.Преимуществом кластерного подхода по сравнению с SMP-серверами является улучшенная масштабируемость. В отличие от SMP-серверов, где рост конфигурации ограничен пропускной способностью шины, добавление компьютеров в кластер позволяет увеличить пропускную способность ОЗУ и подсистем ввода-вывода.В кластерных системах различные модели обмена сообщениями (PVM, MPI и т. д.) используются для обмена данными между процессами, работающими на разных компьютерах в одной задаче. Однако задача распараллеливания в таких системах с памятью, распределённой между отдельными компьютерами в рамках этих моделей, гораздо сложнее, чем в модели общего поля памяти, такого как в SMP-серверах. К этому добавим чисто аппаратные проблемы задержек в передаче сообщений и повышенные скорости передачи данных. Поэтому круг проблем, которые могут быть эффективно решены в кластерных системах, довольно ограничен по сравнению с симметричными сильно связанными системами. Эти системы также имеют свои собственные подходы к параллельной обработке запросов баз данных.Различные суперкомпьютеры могут объединяться в кластеры, например, минисуперSsau J90, но самыми известными кластерами в мире суперкомпьютеров являются IBM SP2 и SGI POWER CHAL ENGEarray. Возможность иметь большое количество узлов процессора в SP2 позволяет одновременно классифицировать этот компьютер как систему MPP.МРР-системы (MIMD)Основным признаком, по которому систему относят к архитектуре MPP, является число процессоров (n). Строгой границы не существует, но обычно считается, что при n >= 128 - это уже МРР, а при n <= 32 - еще нет.Совсем не обязательно, чтобы система MPP имела распределенную оперативную память, в которой каждый процессорный узел имеет свою локальную память. Например, компьютеры SPP1000/XA и SPP1200/XA являются примером систем с массивным параллелизмом, память которых физически распределена между гипернодами, но логически является общей для всего компьютера. Однако большинство компьютеров MPP имеют как логически, так и физически распределенную память.В любом случае системы MPP относятся к классу MIMD. Если говорить о компьютерах MPP с распределённой памятью и отвлекать от организации ввода-вывода, то эта архитектура является естественным расширением кластера на большое количество узлов. Поэтому такие системы характеризуются всеми преимуществами и недостатками кластеров. Более того, из-за возросшего числа процессорных узлов гораздо более значимыми становятся как плюсы, так и минусы (процессорный узел - это компьютерный блок, который может содержать несколько процессоров, например, как в компьютерах SNI/Pyramid RM1000, и иметь SMP-архитектуру сам по себе).Благодарясвоей масштабируемости именно системы MPP сегодня являются лидерами по производительности компьютеров; самый яркий пример - IntelParagon. С другой стороны, проблемы параллелизма в системах MPP по сравнению с кластерами, содержащими несколько процессоров, становятся еще более трудными для решения. Кроме того, увеличение производительности с ростом числа процессоров обычно снижается довольно быстро. Повысить теоретическую производительность компьютеров несложно, но гораздо сложнее найти задачи, которые могли бы эффективно загружать процессорные узлы.Сегодня не так много приложений могут эффективно работать на компьютере MPP, кроме того, существует также проблема переносимости программ между системами MPP с различными архитектурами. Попытка в последние годы стандартизировать модели обмена сообщениями еще не устранила всех проблем. Эффективность распараллеливания во многих случаях сильно зависит от деталей архитектуры системы ГЭУ, например, топологии соединения узлов процессора.Наиболее эффективной является топология, в которой любой узел может взаимодействовать непосредственно с любым другим узлом. Однако в системах ГЭУ это технически сложно реализовать. Обычно процессорные узлы в современных MPP-компьютерах образуют либо двумерную решётку (например, в SNI/Pyramid RM1000), либо гиперкуб (как в суперкомпьютерах nCube).Поскольку синхронизация параллельных процессов в узлах требует обмена сообщениями, которые должны идти от любого узла системы к любому другому узлу, важной характеристикой является диаметр системы c1 - максимальное расстояние между узлами. В случае двумерной решетки d _ sqrt (n), в случае гиперкуба d ~ 1n (n). Таким образом, с увеличением числа узлов архитектура гиперкуба является более выгодной.Время передачи информации от узла к узлу зависит от начальной задержки и скорости передачи. В любом случае во время передачи процессорные узлы успевают выполнять множество команд, и такое соотношение производительности процессорных узлов и передающей системы, скорее всего, будет поддерживаться - прогресс в производительности процессора намного больше, чем в полосе пропускания каналов связи. Поэтому инфраструктура каналов связи является одним из основных компонентов компьютера ГЭУ.Несмотря на все трудности, сфера применения ЭВМ ГЭУ постепенно расширяется. Различные системы ГЭУ эксплуатируются во многих ведущих суперкомпьютерных центрах мира, что четко следует из списка TOR500. Помимо уже упомянутых, следует особо отметить компьютеры Cray T3D и Cray TZE, которые иллюстрируют тот факт, что мировой лидер по производству векторных суперкомпьютеров CrayResearch больше не фокусируется исключительно на векторных системах. Наконец, нельзя не помнить, что последний суперкомпьютерный проект Минэнерго США будет основан на системе MPP на базе PentiumPro.ТранспьютерыТранспутер (слово, производное от слов транзистор и компьютер) - 32-разрядный микропроцессор, включающий в себя:• Сокращенный набор команд CPU (RISC) со скоростью до 35 миль.• 64-разрядный плавающий арифметический сопроцессор (FPU) с пиковой производительностью до 3,5 Мбит/с, работающий параллельно с ЦП.• 4 КБ внутренней оперативной памяти с обменным курсом 120 МБ/с.• 32-разрядная шина памяти, позволяющая адресовать до 4 ГБ внешней памяти чипу и имеющая скорость 40 МБ/с.• Четыре последовательных двунаправленных канала, которые позволяют транспутеру взаимодействовать с внешним миром, работая параллельно с CPU и имея скорость передачи 5/10/20 Мбит/с.• Таймер с разрешением 1 мкс.• Сигналы управления системой: инициализация, анализ, ошибка, управление загрузкой и анализ состояния транспутера, ошибки сигнализации.• Внешний интерфейс событий, обеспечивающий асинхронную связь между внутренним процессом и внешним событием.Транспутеры расположены на транспутерных модулях (TRAM или TPAM) - вторичных платах, содержащих транспутер, ОЗУ, возможно коммутаторы для выбора режимов, интерфейс, включающий розетки/вилки питания, 4 линии связи, внешние линии событий и сигналы управления системой. В зависимости от состава TPAM может иметь различные физические размеры, которые стандартизированы и пронумерованы.TRAMS расположены на объединительных платах, которые либо непосредственно входят в состав компьютера, либо соединены вместе и составляют сетевой компьютер. Объединительные платы, подключенные к компьютеру (компьютерные платы-переносчики), имеют два типа:1. Платы общего назначения загружаются по каналу связи, первоначальная загрузка которых осуществляется программой хоста по каналу связи, соединяющему хост-компьютер и транспутер (roottransputer), специально выделенный для взаимодействия с хост-компьютером.2. Платы, загружаемые из ПЗУ, предназначенные для автономных встроенных систем.Оценки производительности суперЭВМПоскольку для выполнения вычислений по реальным числам традиционно использовались суперкомпьютеры, с этими вычислениями связана большая часть сегодняшних расчетных характеристик производительности. В первую очередь они включают пиковую производительность, измеряемую в миллионах операций с плавающей запятой, которые компьютер теоретически может выполнять за 1 секунду (MFLOPS). Пиковая производительность - величина, которая практически не достижима. Это связано, в частности, с проблемами заполнения функциональных конвейерных устройств, что характерно не только для векторных superComputers, но и для компьютеров на базе RISC-микропроцессоров. Это особенно важно для суперконвейерной архитектуры микропроцессоров, например DEC Alpha, которая характеризуется использованием относительно длинных трубопроводов. Понятно, что чем больше конвейер, тем больше времени «инициализации» требуется для его заполнения. Такие конвейеры эффективны при обработке длинных векторов. Поэтому для оценки вектора superComputers было введено понятие как длина полупроизводства - длина вектора, при которой достигается половина пиковой производительности.Более реальные оценки производительности основаны на времени выполнения различных тестов. Конечно, лучшие тесты - это реальные пользовательские задачи. Однако такие оценки, во-первых, весьма специфичны, а, во-вторых, часто недоступны или вообще отсутствуют. Поэтому обычно используются более универсальные тесты, но традиционные методы оценки производительности микропроцессоров - SPEC- в мире суперкомпьютеров, как правило, не используются. Это связано, в частности, с их низкой информативностью - особенно SPEC 92 - для суперкомпьютерных приложений, хотя новый стандарт SPEC 95 обеспечивает более реальную картину производительности. Сегодня оценки SPEC доступны только для суперкомпьютеров, использующих RISC-микропроцессоры. Недавно был анонсирован специальный новый стандарт SPEChpc96 для высокопроизводительных вычислений.Поскольку большую часть времени исполнения программ обычно занимают циклы, иногда они используются в качестве тестов, например, известные ливерморские циклы. Самым популярным на сегодняшний день тестом производительности должен стать Linpack, который является решением системы И линейных уравнений гауссовым методом. Поскольку известно, сколько операций с реальным числом необходимо выполнить для решения системы, зная время вычисления, можно вычислить количество операций, выполняемых в секунду. Существует несколько модификаций этих тестов. Как правило, компьютерные фирмы дают результаты при N 100. Свободно распространяется стандартная программа Fortran, которая должна выполняться на суперкомпьютере, чтобы получить результат теста. Эта программа может быть изменена только путем замены вызовов подпрограмм, обеспечивающих доступ к среде выполнения процессора. Другой стандартный тест относится к случаю N = 1000, связанному с использованием длинных векторов. Эти тесты могут выполняться на компьютерах с разным количеством процессоров, давая также оценки качества распараллеливания.Для систем ГЭУ интереснее тест Linpack-parallel, в котором производительность измеряется большими Ии количеством процессоров. Здесь лидирует 6768-процессорный IntelParagon (281 GFLOPS при N = 128600). Что касается производительности процессора, то при N = 100 T916 Cray (522 MFLOPS) ведет, при N = 1000 и Hitachi S3800 (6431 и 8000 MFLOPS соответственно) с точки зрения пиковой производительности. Для сравнения, процессор в AlphaServer 8400 имеет 140 MFLOPS при N = 100 и 411 MFLOPS при N = 1000.Для суперкомпьютеров с высокой степенью параллельности в последнее время все чаще используются параллельные эталонные тесты NAS, которые особенно хороши для вычислительных задач по динамике газа и жидкости. Их недостатком является фиксация алгоритма решения, а не текста программы.Архитектурные тенденции 21-го векаАрхитектура суперкомпьютера с воздушным охлаждением IBM BlueGene использует тактовую частоту процессора в обмен на низкое энергопотребление, позволяя использовать больше процессоров.используется при комнатной температуре с использованием обычного кондиционирования воздуха. Система BlueGene/P второго поколения имеет процессоры со встроенной логикой для связи между узлами. Он энергоэффективен и обеспечивает 371 MFLOPS/W.Компьютер K представляет собой однородный водоохлаждаемый процессор с распределенной системой памяти.с кластерной архитектурой. В нем используется более 80 000 процессоров SPARC64 STARTfx, каждый с восемью ядрами, всего более 700 000 ядер - почти в два раза больше, чем в любой другой системе. Состоит из более 800 шкафов, каждый с 96 вычислительными узлами (каждый с 16 ГБ памяти) и 6 узлами ввода-вывода. Хотя и более мощные, чем следующие пять систем в списке TOP500 вместе взятых, на уровне 824,56 MFLOPS/W он имеет самое низкое соотношение мощности и производительности из всех существующих больших суперкомпьютерных систем. Последующая система для компьютера K, называемая PRIMEHPC FX10, использует то же самое шестимерное конечное соединение, но всё же только один процессор на узел.В отличие от K-компьютера, Tianhe-1A System использует гибридную архитектуру и объединяет центральные и графические процессоры. Он использует более 14 000 процессоров Xeon общего назначения и более 7 000 графических процессоров общего назначения (GPGPU) NvidiaTeslaна приблизительно 3500 блейд-серверах. Имеет 112 компьютерных шкафов и 262 терабайта распределённой памяти; 2 петабайта дискового хранилища реализованы с помощью кластерных файлов Lustre. Для подключения процессоров в Tianhe-1 используется собственная высокоскоростная сеть связи. Запатентованная сеть межсоединений была основана на Infiniband QDR, дополненная процессорами FeiTeng-1000 китайского производства. В случае межсоединений, система в два раза быстрее Infiniband, но медленнее, чем некоторые межсоединения на других суперкомпьютерах.Ограничения конкретных подходов продолжают проверяться, поскольку границы достигаются посредством крупномасштабных экспериментов, например, в 2011 году IBM прекратила свое участие в проекте BlueWatersPetaflops в Иллинойсском университете. Архитектура BlueWaters основана на процессоре IBM POWER7 и должна иметь 200 000 ядер с «глобально адресуемой памятью» в петабайтах и 10 петабайтах дискового пространства. Цель стабильногопетафлопа привела к выбору конструкции, оптимизировавшей производительность одноядерных процессоров и, следовательно, меньшее количество ядер. Тогда ожидалось, что меньшее количество ядер повысит производительность программ, которые плохо масштабируются для большого количества процессоров. Архитектура большой глобально адресуемой памяти была нацелена на эффективное решение адресных задач памяти для однотипных программ. Ожидалось, что BlueWaters будет работать с устойчивой скоростью, по крайней мере, один петафлоп, и полагался на специализированный подход с водяным охлаждением для управления теплом. За первые четыре года работы Национальный научный фонд потратил на проект около 200 миллионов долларов. Вскоре после этого IBM выпустила вычислительный узел Power 775, основанный на технологии этого проекта, но по сути отказался от подхода BlueWaters.Архитектурные эксперименты продолжаются в нескольких направлениях, например, система Cyclops64 использует подход суперкомпьютер-на-кристалле, в сторону от использования массивных распределённых процессоров. Каждая 64-разрядная микросхема Cyclops64 содержит 80 процессоров, и вся система использует глобальную архитектуру адресации памяти. Процессоры соединены коммутационной панелью без внутренней блокировки и взаимодействуют друг с другом через глобальную перемежающуюся память. В архитектуре нет кэша данных, но половина каждого банка SRAM может использоваться как RAM. Хотя этот тип архитектуры допускает неструктурированный параллелизм в системе динамической несмежной памяти, он также создает проблемы в эффективном отображении параллельных алгоритмов в многоядерную систему.ЗаключениеСегодня в мире суперкомпьютеров наблюдается новая волна, вызванная как достижениями в микропроцессорной технике, так и появлением нового спектра задач, выходящих за рамки традиционных исследовательских лабораторий. Наблюдается быстрый прогресс в производительности RISC-микропроцессоров, которая растет значительно быстрее, чем производительность векторных процессоров. Например, микропроцессор HP RA-8000 отстает от T90 Cray лишь примерно в два раза. В результате в ближайшем будущем вероятно дальнейшее смещение векторных суперкомпьютеров компьютерами, использующими RISC-микропроцессоры, такие как, например, IBM SP2, Convex/HP SPP, DEC AlphaServer 8400, SGI POWER CHALENGE. Это подтвердили результаты рейтинга TOR500, где лидерами по количеству установок стали системы POWER CHALLENGE и SP2, опередившие модели ведущего производителя суперкомпьютеров - CrayResearch.Тем не менее очевидно, что разработка векторных суперкомпьютеров продолжится, по крайней мере от CrayResearch. Возможно, он начинает сдерживаться из-за требований совместимости со старыми моделями. Так, система CrayComputer Cray-4 не нашла потребителя, обладающего конфигурационными характеристиками и производительностью, близкими к новейшей системе Cray T90 от CrayResearchпо в 2 раза заниженной цене, но несовместимой с компьютерами CrayResearch. В результате CrayComputer обанкротилась.Успешно развиваются системы, основанные на архитектурах MPP, включая распределенную память. Появление новых высокопроизводительных микропроцессоров с использованием дешевой КМОП-технологии значительно повышает конкурентоспособность этих систем.Что касается новых решений из архитектур VLIW, то можно с уверенностью предположить, что, по крайней мере, в ближайшие два года процессорам RISC опасаться нечего.Список используемой литературыВл. В. Воеводин “Суперкомпьютерная грань компьютерного мира”IEEEComputer ”Рынок аппаратных средств”М. Кузминьский, Д. Волков “Современные суперкомпьютеры: состояние и перспективы”Левин В. К. “Отечественные суперкомпьютеры”Б. В. Пальцев “PC против суперкомпьютеров”“Computerworld Россия”НИВЦ МГУ “Основные классы современных параллельных компьютеров”
1. Вл. В. Воеводин “Суперкомпьютерная грань компьютерного мира”
2. IEEE Computer ”Рынок аппаратных средств”
3. М. Кузминьский, Д. Волков “Современные суперкомпьютеры: состояние и перспективы”
4. Левин В. К. “Отечественные суперкомпьютеры”
5. Б. В. Пальцев “PC против суперкомпьютеров”
6. “Computerworld Россия”
7. НИВЦ МГУ “Основные классы современных параллельных компьютеров”
Вопрос-ответ:
Для чего используются суперкомпьютеры?
Суперкомпьютеры используются для решения сложных вычислительных задач, которые невозможно выполнить на обычных компьютерах. Они применяются в различных областях, таких как наука, исследования, прогнозирование погоды, разработка новых лекарств и т.д.
Что такое матричные суперкомпьютеры?
Матричные суперкомпьютеры - это специализированные вычислительные системы, предназначенные для обработки матричных вычислений. Они имеют высокую параллелизацию и могут эффективно решать задачи, связанные с линейной алгеброй, такие как нахождение собственных значений и векторов, решение систем линейных уравнений и т.д.
Как оценивается производительность суперкомпьютеров?
Производительность суперкомпьютеров оценивается по различным метрикам, таким как количество операций в секунду (FLOPS), скорость передачи данных, время выполнения конкретной задачи и т.д. В современных суперкомпьютерах также учитывается энергоэффективность, т.е. количество операций, выполненных на единицу энергии.
Какие архитектурные тенденции можно наблюдать в суперкомпьютерах 21 века?
В суперкомпьютерах 21 века можно наблюдать такие архитектурные тенденции, как увеличение числа вычислительных ядер, применение графических ускорителей (GPU) для обработки параллельных вычислений, использование распределенных вычислений с помощью кластеров и облачных технологий.
Как отличаются кластеры от SMP серверов?
Кластеры являются неплотно соединенными системами, состоящими из отдельных узлов, которые могут работать независимо друг от друга. Преимуществом кластерного подхода по сравнению с SMP серверами является улучшенная масштабируемость, т.е. возможность добавления новых узлов кластера для увеличения общей производительности. В отличие от SMP серверов, где рост конфигурации ограничен архитектурой.
Зачем используются суперкомпьютеры?
Суперкомпьютеры используются для решения сложных вычислительных задач, которые требуют огромного количества операций в секунду. Они применяются в различных областях, включая науку, исследования, проектирование, моделирование и анализ данных.
Что такое матричные суперкомпьютеры?
Матричные суперкомпьютеры - это специализированные вычислительные системы, предназначенные для работы с матрицами и выполнения операций линейной алгебры. Они обладают высокой производительностью и эффективны при решении задач, связанных с обработкой больших массивов данных.
Как оценивают производительность суперкомпьютеров?
Производительность суперкомпьютеров обычно оценивается с помощью таких показателей, как количество операций с плавающей запятой в секунду (FLOPS), время выполнения конкретной вычислительной задачи и количество операций, которое устройство способно выполнить за определенный период времени.
Какие архитектурные тренды можно наблюдать в 21 веке?
В 21 веке наблюдаются следующие архитектурные тренды в суперкомпьютерах: увеличение числа вычислительных ядер на одном процессоре, развитие технологий параллельных вычислений, использование графических процессоров для обработки данных, а также разработка более энергоэффективных и экологически чистых систем.
Чем кластеры отличаются от SMP серверов?
Основное отличие кластеров от SMP серверов заключается в их масштабируемости. Кластеры представляют собой набор отдельных компьютеров, соединенных вместе, что позволяет легко масштабировать вычислительную систему путем добавления или удаления узлов. В отличие от этого, SMP серверы представляют собой единую вычислительную систему с несколькими процессорами, которые работают над одной задачей.
Какие архитектурные решения применяются в суперкомпьютерах?
Суперкомпьютеры используют различные архитектурные решения, такие как многопроцессорность, векторные вычисления, распределенные вычисления и т.д. Эти решения позволяют суперкомпьютерам обрабатывать огромные объемы данных и выполнять сложные вычисления.
В каких сферах применяются суперкомпьютеры?
Суперкомпьютеры применяются в различных областях, таких как научные исследования, моделирование погоды, экономические и финансовые расчеты, медицинские исследования, разработка новых материалов и лекарств и многие другие. Они позволяют решать сложные задачи, которые требуют больших вычислительных ресурсов.