Haswell в теории - как был построен новейший процессор Intel?

  1. В общем об архитектуре
  2. инструкции
  3. Выходная часть
  4. Входная часть
  5. Экономия энергии
  6. Графические процессоры

На этой неделе состоялась премьера процессоров Intel Haswell четвертое поколение серии Core. Хотя тема компьютерных компонентов становится все менее популярной, я решил описать, почему они интересны. Эта тема важна, потому что через несколько дней в магазинах появятся первые ультрабуки, которые будут оснащены процессорами Haswell. Они должны иметь более низкое энергопотребление и более высокую эффективность. Давайте проверим, стоит ли ждать покупки компьютера несколько дней, и определимся с моделью с более новой компоновкой.

В общем об архитектуре

В общем об архитектуре

Как всегда в деле Intel также на этот раз модель Tick-Tock была использована здесь. Напоминаем, что это предполагает внедрение новой архитектуры каждый год (Tock) и технологического процесса (Tick). Эта стратегия использовалась со времен Core 2 Duo и изучалась до сих пор. На этот раз мы получаем новую архитектуру Haswell в старшем 22 нм процессе. Итак, сейчас мы находимся в фазе (Tock).

Конечно, архитектура Haswell основана на предыдущих процессорах, но они были в значительной степени переработаны, чтобы заставить ее работать еще лучше. Так что не изменилось? В течение шести лет процессоры имеют четырехкомпонентный командный контроллер и такие решения, как Macro-op Fusion и Micro-op Fusion, которые последовательно объединяют инструкции в пакеты перед вводом их в декодер и после их декодирования и проверки. Intel также использовала блоки планирования для разделения декодированной информации между последовательными исполнительными блоками и тем же объемом кэша первого уровня, работающего с инструкциями и данными.

Сам чип Haswell состоит из трех основных частей: системного агента, ядер и графического макета. Системный агент - это место, которое некоторое время назад заменило северный мост, установленный на материнских платах. Он содержит контроллеры памяти, PCI-Express, DMI и I / O. Кроме того, процессоры будут включать четыре ядра и графический макет. Целое связано друг с другом кольцевой шиной, расположенной в кеше третьего уровня.

инструкции

Внедрение практически каждого нового поколения процессоров предполагает добавление новых наборов инструкций. Это 256-битные векторные инструкции AVX2 (Advance Vector Extenson) I FMA (Fused Multiply-Add). AVX2 - это инструкции, которые позволяют вам работать с одной инструкцией над вдвое большей порцией данных (256 вместо 128 бит), чем в случае AVX. AVX2 допускает 256-битные векторные действия, выполняемые над целыми числами, так что инструкции AVX2 могут заменить инструкции SSE. Это позволит вам обрабатывать вдвое больше данных, чем раньше, что приведет к повышению эффективности.

В свою очередь, инструкции FMA позволяют умножить два числа и добавить результат этого действия к третьему числу. Благодаря этому станет возможным значительно ускорить расчеты. Как? Представьте, что операция умножения занимает 5 циклов процессора и добавляется 3 цикла. Если процессор не поддерживает FMA, весь процесс занимает 8 циклов, в противном случае только 5.

Если процессор не поддерживает FMA, весь процесс занимает 8 циклов, в противном случае только 5

Корпорация Intel также представила инструкции TSX (Transactional Synchronization Extensions) в своих процессорах, которые повышают производительность и, кроме того, упрощают создание многопоточных приложений. Это возможно благодаря введению возможности синхронизации данных с уровня транзакций, находящихся в разделяемой памяти. Этот процесс должен поддерживаться инструкциями RTM (Restricted Transactional Memory). Они состоят из инструкций XBEGIN, XENF, XTEST и XABORT. Здесь также используются инструкции по обработке растровых изображений в регистрах.

Стоит помнить, что введение новых инструкций не равносильно внезапному повышению эффективности. Много воды в Висле пройдет, прежде чем разработчики будут использовать полную архитектуру Haswell. Однако, так как он похож на Sandy Bridge и Ivy Bridge, он не должен провалиться на премьере. В случае процессоров AMD, основанных на модульной архитектуре (Bulldozer), все было иначе. Хотя эти подразделения были быстрыми в теории, оказалось, что они опередили свое время, и программы не были адаптированы к ним. Поэтому в первые месяцы они были намного медленнее процессоров Intel. Со временем эта разница уменьшилась.

Выходная часть

Выходная часть

Intel также позаботилась о том, чтобы инструкции могли обрабатываться быстрее. По сравнению с предшественниками процессоры Intel Haswell отображают восемь, а не шесть выходных портов, что позволяет процессору обрабатывать еще две инструкции за рабочий цикл. Кроме того, здесь был установлен один ALU (арифметическая логика) и блок генерации адреса (AGU). Они используются для поддержки операций записи. Арифметическое и логическое устройство также может освободить первые два выходных порта (0 и 1), потому что они используются инструкциями FMA. Дополнительный блок генерации адреса может освободить исполнительные блоки во втором и третьем порте, что будет эффективно влиять на процесс загрузки команд.

Входная часть

Входная часть

Помимо количества выходных портов, количество входных портов также увеличилось с 54 до 60. Это позволяет одновременно выполнять больше инструкций. В свою очередь, длина буфера ReOrder увеличилась с 168 до 192 позиций. Он отвечает за изменение порядка последовательных инструкций. Он должен организовать их таким образом, чтобы они могли быть сделаны как можно больше в кратчайшие сроки. Кэши, которые позволяют переупорядочивать операции чтения и записи, также были увеличены, и очередь распределения была расширена дважды для каждого из восьми потоков.

Кэши, которые позволяют переупорядочивать операции чтения и записи, также были увеличены, и очередь распределения была расширена дважды для каждого из восьми потоков

Другим улучшенным элементом процессорной части, ответственным за загрузку данных, является система прогнозирования скачков. Теперь он может справиться с двумя прыжками за один такт. Кроме того, он может следовать нескольким инструкциям. Кроме того, процессоры Haswell могут лучше понять историю поведения данной инструкции, лучше предсказать ее поведение в данной ситуации и повысить эффективность всего процессора.

Кроме того, процессоры Haswell могут лучше понять историю поведения данной инструкции, лучше предсказать ее поведение в данной ситуации и повысить эффективность всего процессора

У изменения также был способ управлять регистрами. Набор физических регистров, известных из процессоров Sandy Bridge и Ivy Bridge, все еще используется, что не позволяет изменять местоположение данных перед вычислениями, но теперь часть регистров с фиксированной и переменной скоростью может содержать 168 частей данных, а не 160 и 144 как ранее.

Набор физических регистров, известных из процессоров Sandy Bridge и Ivy Bridge, все еще используется, что не позволяет изменять местоположение данных перед вычислениями, но теперь часть регистров с фиксированной и переменной скоростью может содержать 168 частей данных, а не 160 и 144 как ранее

Intel также решила улучшить кеш-память не третьего, а первого и второго уровня. Прежде всего, они характеризуются более высокой пропускной способностью данных, имеют возможность сохранять и считывать вдвое больше данных в бизнес-памяти и могут обмениваться 64 байтами данных за один такт. До сих пор можно было обмениваться только 32 байтами данных. Последнее изменение - возможность отправлять 32-системные запросы в системную память вместо 16-битных пакетов данных. Эти изменения повысят производительность, прежде всего, в приложениях, использующих новые инструкции AVX, но будут менее заметны и в старых программах.

Экономия энергии

Haswell - это архитектура, созданная в основном для мобильных устройств. По-видимому, в режиме ожидания и в режиме ожидания они должны потреблять в 20 раз больше энергии, чем доступные на данный момент устройства. Благодаря этому предполагается, что некоторые ультрабуки с процессорами Haswell могут работать даже от батареи в течение дня, а стандартный ультрабук с процессором Intel Haswell позволит работать по крайней мере 9 часов без питания от сети. В противном случае его нельзя будет назвать ультрабуком.

Рецепт снижения энергопотребления в процессорах Intel - это вдохновение систем для смартфонов и планшетов и внедрение нескольких решений. Первый - это регулятор напряжения, который на существующих компьютерах был не в процессоре, а в материнской плате. Благодаря этому процессор может управлять своим напряжением с большой скоростью и точностью. Также было введено состояние глубокого сна C7 (до сих пор самым низким состоянием было C6). Скорость перехода между отдельными состояниями также улучшилась на 25%. В результате этих изменений процессор гораздо быстрее впадает в состояние покоя, а затем потребляет незначительную часть энергии.

Многие люди могут чувствовать смущение сейчас. C6? C7? Что происходит? Ну, это состояния питания процессора и называются C0-C6. Кроме того, существуют состояния производительности процессора (P0-P4), а также энергетические состояния и производительность всего компьютера, в свою очередь G0-G3 и S0-S5. Большее число в данном состоянии означает, что потребляется меньше энергии, а меньшее число означает большую эффективность. Например, самое высокое состояние G3 - отключение компьютера, G2 и S5 - выключение компьютера, но оставление вилки в розетке, G1 и S4 - это спящий режим. Поднимаясь вверх, мы будем потреблять все больше и больше энергии, и после перехода в состояние G0, состояние G0, S0, (C1-C6) появится, когда процессор начнет работать, и G0, S0, C0, (P0-P4), когда процессор активно Он работает.

Сейчас это может показаться странным, но Intel сделала это еще сложнее. Это связано с тем, что Intel решила ввести состояния S0i или варианты состояния S0, в котором компьютер включен. Например, состояние S0i3 является экономичным как состояние S3, но сохраняет состояние S0, характеризующее эффективность. Не идентично, но очень похоже. Однако это будет наименьшей проблемой, поскольку для возврата в состояние полной емкости потребуется всего одно мгновение. По аналогии, S0i4 и другие будут доступны. Программное обеспечение (также система) не знает о существовании промежуточных состояний, ими управляет микроконтроллер в процессоре.

Благодаря этому в S0i3 Ultrabook или другом компьютере можно будет не просыпаться в течение многих дней, чтобы он работал в течение коротких периодов времени, а затем обновлять информацию, такую ​​как почта, сообщения Facebook и мессенджеры и т. Д. Для правильной работы этой функции необходимо иметь настраиваемый компьютер (включая сетевую карту) и программное обеспечение. Эта функция не всегда может работать должным образом на стационарных, самостоятельно собранных компьютерах. Однако, если мы решим купить готовую машину, например ноутбук, все должно работать в лучшем порядке. Intel и производитель машин должны позаботиться об этом.

Влияние на улучшение рабочего времени батареи также приводит к разделению системы на более автономные зоны питания. Процессоры предыдущего поколения состояли из трех таких зон. Первый - это уже упомянутый системный агент, второй - это кэш с кэш-памятью последнего уровня, а третий - это графический макет. В процессорах Haswell ядра были значительно отделены от кеша и кольцевой шины. Это связано с тем простым фактом, что чем больше фрагментация, тем больше экономия энергии. Это связано с тем, что на каждый элемент подается оптимально низкое напряжение, а любой ненужный сегмент отсекается или отключается. Работа нескольких компонентов с одним напряжением означает, что все будут работать с напряжением самого требовательного элемента. И целое займет больше энергии, чем должно.

Особое внимание было уделено технике дефицита мощности, которая включает в себя больше, чем раньше основных компонентов. Кроме того, отдельные цепи, которые могут быть динамически отключены от источника питания, меньше, чем раньше. Это также приводит к потреблению энергии, особенно в состоянии покоя и низкой активности.

Другими решениями по энергосбережению являются состояния питания C7-C10, в которых не только отключается питание процессора, но даже не поддерживается содержание памяти L3, кольцевая шина останавливается и многие части процессора (процессоров) отключаются. Еще одно интересное решение - снизить базовую частоту с 100 МГц до 24 МГц. Базовая тактовая частота - это частота, которая при умножении на множитель дает конечную тактовую частоту ядер. Например, если у вас относительно новый процессор Intel с тактовой частотой 3900 МГц, он имеет базовую частоту 100 МГц и множитель 39. Вернется время с 24 МГц до 100 МГц, но это будет намного короче, чем при использовании жесткого диска или экрана. По этой причине этот процесс будет незаметным с точки зрения эффективности, в отличие с точки зрения энергоэффективности. Кроме того, в ультрамобильных версиях Haswell южный мост также будет находиться в корпусе процессора. Благодаря этому процессор будет контролировать свою тепловую мощность, таким образом, температуру и сможет выбирать самые безопасные и лучшие временные параметры в турбо-режиме.

Графические процессоры

Еще одним нововведением является интеграция совершенно новой графической системы с процессором. Это устройство будет доступно в трех версиях, отличающихся по конструкции и производительности. Они связаны только схожей архитектурой и поддержкой новейших библиотек DirectX 11.1, OpenGL 4.0 и Open CL 1.2.

Самая слабая версия интегрированной видеокарты с официальным названием Intel HD Graphics известна своим именем GT1 и будет оснащена 6 вычислительными блоками. Вторым по величине графическим процессором является HD Graphics 4200, 4400, 4600, 4600 и P4700 (кодовое название GT2) с 20 блоками, а лучшим является Intel HD Graphics 5200 (GT3e) с 40 вычислительными блоками. Кроме того, будет Iris Pro Graphics 5200, который будет иметь чип GT3, обогащенный памятью CrystalWell.

Кроме того, будет Iris Pro Graphics 5200, который будет иметь чип GT3, обогащенный памятью CrystalWell

Это незаменимый элемент для достижения производительности, намеченной Intel. До недавнего времени большинство интегрированных видеокарт имели возможность использовать только оперативную память компьютера. Вскоре выяснилось, что из-за необходимости общаться с ним по шине FSB, HyperTransport или другому решению оно недостаточно эффективно. Вот почему AMD начала использовать встроенную память SidePort в материнской плате. Этот элемент больше не был нужен, когда AMD создала APU и подключила GPU к CPU, который вместе имел доступ к контроллеру памяти. В случае с предыдущими процессорами Intel графический чип подключается к кэш-памяти третьего уровня и контроллеру оперативной памяти с помощью последовательной шины. Оказалось, что этого было недостаточно. Теперь Intel будет обрабатывать до 128 МБ оперативной памяти eDRAM в процессорах с лучшей встроенной видеокартой. Это медленнее, чем кэш-память L3, но это ... это плюс. Благодаря этому у процессора не будет проблем с расстановкой приоритетов для данной памяти.

Новые подразделения Intel преуспевают, когда дело доходит до поддерживаемых разрешений и количества экранов. Благодаря улучшенному аппаратному ускорению видео движок. Поддерживаются форматы SVC и MJPEG, и видео не будет воспроизводиться в формате 4K HD (4096 × 2304 пикселей) или Quad HD (3840 × 2160 пикселей). Важной новинкой является добавление поддержки DisplayPort 1.2. Что это значит? Что ж, благодаря этому монитору Quad HD сможет подключаться к компьютеру одним кабелем. Ранее доступные устройства Ivy Bridge также поддерживают такие высокие разрешения, но при использовании Display Port 1.1 для их подключения вам потребуется использовать два кабеля.

Еще одна новая функция - поддержка трех независимых потоков изображений. Благодаря этому можно ожидать бесперебойной работы трех выходов изображения. Хотя к Ivy Bridge можно подключить три монитора, процессор поддерживает только два видеопотока, которые разделены на три. Возникает несколько проблем. Если у нас есть два выхода порта дисплея и любой другой на диске, мы получаем изображение с трех мониторов. Если у нас есть Display Port и другой выход, мы получим изображение на двух мониторах, то же самое, если на нашей плате есть два разных типа вывода, чем Display Port.

Intel также улучшила технологию Clear Video, чтобы улучшить качество отображаемого изображения. Изменения в основном состоят в добавлении системы, которая улучшает цветовую гамму. Кроме того, графическая система, установленная в процессорах Haswel, основанная на анализе последовательных кадров, может создавать промежуточные кадры и увеличивать количество кадров, испускаемых за одну секунду, с 24 или 30 до 60. Это значительно улучшит плавность изображения. Intel также улучшила функцию быстрой синхронизации, позволяя заменять процессор графическим чипом во время кодирования и сжатия видео. Изменения были ограничены увеличением эффективности обработки, которая уже работала лучше, чем в случае с конкурентами, а теперь немного улучшилась.

Последняя новинка - усовершенствование системы стабилизации изображения. Как и в случае Clear Video, операция выполняется на основе анализа последовательных кадров и работы соответствующего алгоритма, который предсказывает вероятное движение камеры.

Также прочитайте: Haswell на практике - что каждый должен знать о новых процессорах и ... ультрабуках

Так что не изменилось?
Как?
C6?
C7?
Что происходит?
1.2. Что это значит?