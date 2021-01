Начислено вознаграждение Этот материал написан посетителем сайта, и за него начислено Этот материал написан посетителем сайта, и за него начислено вознаграждение

Что не так с Zen2 и Zen3?

Я по образованию инженер-электроник, а по должности – ведущий инженер, который от «обычных» инженеров отличается тем, что не является узким специалистом, следовательно не знает ничего о конкретном, и знает понемногу обо всём 😊.

И вот, с высоты своей удручающей некомпетентности я решил взглянуть на системные проблемы процессоров с архитектурой Zen2 и Zen3.

Идея систематизировать все проблемы, связанные с Райзенами, у меня возникла ещё в момент перехода с Zen на Zen+ и окончательно оформилась к моменту выхода Zen3, поскольку проблемы эти росли как снежный ком.

С выходом Zen я убедился, что прежние системы охлаждения на тепловых трубках начали терять свою эффективность, особенно с выходом Ryzen R9 Threadripper, которому про запас была куплена трехсекционная AIO.

Zen+ обострил наметившиеся проблемы – температурные перепады стали более резкими.

Zen2 заставил перейти с AIO на кастомную СЖО, тем не менее проблемы не то что никуда не делись, с переходом на чиплетную компоновку возникли эффекты, с которыми никто до настоящего времени всерьёз не сталкивался и не разбирался.

Zen3 подвёл черту под эпопеей на сокет АМ4 и оставил открытым вопрос «что не так со всеми этими процессорами и что со всем этим делать?».

Данный опус и должен внести ясность в понимание этого вопроса и по мере возможности на него ответить.

1 Что не так с компоновкой?

На рисунке 1.1 представлена новая (по сравнению с Zen и Zen+) чиплетная компоновка процессора, введённая в Zen2, в Zen3 она не претерпела никаких изменений, немного выросла площадь CCD (см. рисунок 1.2), как далее станет ясно, рост площади не компенсирует плотность теплового потока и проблемы с теплоотводом остаются теми же, если не усугубляются.

Рисунок 1.1 – Пример чиплетной компоновки процессоров Zen2 и Zen3

Рисунок 1.2 – Различие чиплетов у Zen2 и Zen3

Первое что выявил переход на чиплеты – это полную неготовность производителей систем охлаждения к новым процессорам. На бумаге всё было прекрасно – что воздушные, что жидкостные СО обеспечивали требуемый TDP, однако, топология… Дело в том, что у всех систем охлаждения зона наилучшего теплового контакта находится в центре подошвы, т.е. предполагается, что источник тепловой мощности у процессора находится в центре крышки (теплораспределителя), что только усугубляет проблемы с теплоотводом, создаваемые малой площадью чиплетов. Из-за несовпадения самой нагретой зоны с зоной наилучшего теплового контакта тепловая мощность вынуждена преодолевать более протяженный путь, следовательно, нагрев ядер увеличивается. Новая чиплетная компоновка принесла с собой и ещё одну проблему – традиционное расположение тепловых трубок у «башен» и микроканалов у ватеблоков не соответствует расположению чиплетов под крышкой процессора. Получалось так, что тепловые трубки и микроканалы шли вдоль линии чиплетов, так что на два чиплета могла приходиться всего одна тепловая трубка, а в случае с микроканалами ватерблока на сечение чиплета приходилась едва ли не четверть. Причём такое расположение перегружало тепловую трубку или задействованные микроканалы тепловой мощностью. Максимальная тепловая мощность, отводимая тепловой трубкой, составляет 35–40 Вт, в то время как TDP чиплета 100 Вт минимум, а в случае двух чиплетов – 200 Вт. Что касается микроканалов, то они, проходя вдоль чиплетов, неэффективно собирают тепловую энергию, когда при поперечном течении жидкости теплоотвод был бы гораздо эффективнее.

Рисунок 1.3 – Расположение чиплетов при установке процессора в сокет

2 Что с частотой, напряжением и мощностью?

С тепловой мощностью процессора всё просто – она точно равна потребляемой электрической мощности в силу закона сохранения энергии. Электрическая мощность выводится из законов Джоуля-Ленца и Ома, как должно быть известно каждому школьнику из курса физики:

P = U × I = U2 / R = U2 / (1 / (ω × C)) = ω × C × U2 = 2 × π × f × C × U2,

где U – напряжение питания. В;

R = 1 / (ω × C) = 1 / (2 × π × f × C) – сопротивление процессора в цепи питания;

ω = 2 × π × f – круговая частота;

π = 3.14156…;

f – частота процессора, Гц;

C – суммарная подзатворная ёмкость процессора, Ф.

С точки зрения теории электрических цепей, такая цепь считается линейной.

Дело в том, что базовым элементом всех современных цифровых микросхем является КМОП-инвертор, попеременно коммутирующий нагрузку на напряжение питания и «землю» (корпус). Нагрузкой является такой же вентиль, с абсолютно теми же характеристиками. А поскольку КМОП имеет очень малые (по времени) сквозные токи, по сравнению с токами и постоянной времени перезарядки подзатворных емкостей, то схема вентиля на рисунке 2.1 вырождается в линейную цепь, представленную на рисунке 2.2, и формула расчёта мощности оказывается справедливой.

Рисунок 2.1 – Простейший КМОП-вентиль (инвертор)

Рисунок 2.2 – Эквивалентная схема КМОП-вентиля (инвертора).

Для AMD Ryzen R9 5950x имеем следующие базовые характеристики:

F0 = 3400 МГц; U0 = 1,0 В; P0 = 105 Вт.

Соответственно, максимальные характеристики:

fmax = 4900 МГц; Umax = 1,5 В; Pmax = ?

Pmax можно найти из соответствия:

Такую мощность развил бы Zen3, не будь ограничений по энергопотреблению и температурам. Разговор о температурах нас ждёт в следующем разделе.

3 Что с температурами?

Современные процессоры AMD изготавливаются по технологии «7 нм» с применением 400 мм кремниевых пластин («вафель») с толщиной 0,9 мм. Такая толщина требуется для обеспечения прочности пластины во время технологических операций с ней. Диаметр пластины – один из определяющих параметров конечной стоимости чипа, чем больше диаметр и меньше площадь самого чипа, тем больше чипов можно разместить на пластине и, в конечном итоге, дешевле сам чип.

Рабочие структуры чипа (диффузионные, межслойная изоляция и металлизация) располагаются внизу чипа, так как контактные площадки металлизации чипа припаиваются с помощью шаровых контактов (бессвинцовый припой) к ответным контактным площадкам печатной платы-подложки. Толщиной КМОП-структур можно пренебречь, так как по сравнению с самим чипом (800 – 900 мкм) они выглядят как сверхтонкие плёнки (0,065 – 0,090 мкм). Теплораспределительная крышка процессора припаивается к верхней поверхности кристалла с помощью индия.

Рисунок 3.1 – Конструкция процессоров Zen2 и Zen3,

чиплеты показаны условно

Рисунок 3.2 – Конструкция процессора в разрезе,

сечение выполнено по чиплетам CCD.

Учитывая конструкцию процессора, показанную на рисунках 3.1 и 3.2, получается следующая тепловая схема.

Тепло от полупроводниковых структур распространяется двумя путями:

кристалл – шаровые контакты – металлизация подложки – выводы сокета – металлизация материнской платы; кристалл – кремний – припой – теплораспределитель – термоинтерфейс – подошва кулера.

Тепловая цепь распространения тепла по первому направлению:

шаровые контакты припоя 0,05 мм; металлизация подложки – 8 слоёв металлизации и диэлектрика – 8×0,05 мм (40х40 мм); выводы сокета – 1331 контакт (Ø1х3 мм) металлизация материнской платы (6 или 4 слоя меди и диэлектрика).

Тепловая цепь распространения тепла по второму направлению:

кремний 0,9 мм (80 мм2 или 74 мм2); индий 0,1 мм (80 мм2 или 74 мм2); крышка теплораспределительная 2 мм (38х38 мм); термоинтерфейс 0,05 мм; подошва кулера или ватерблока – 2 мм.

Для расчёта тепловых цепей я принял несколько серьёзных упрощений:

тепловые потоки распространяются по кратчайшему пути и имеют минимальное сечение, равное площади чипа (74 мм2); чип представлен идеальным источником мощности с равномерным распределением по площади; теплоёмкость материалов в звеньях тепловой цепи не учитывается; шаровые контакты под пайку представлены как олово с толщиной

0,05 мм и занимающие всю площадь чипа; слои стеклотекстолита и металлизации на печатной плате процессора объединены в один с учётом количества данных слоёв; в конечном звене тепловой цепи стоит идеальный теплосъёмник, температура которого всегда равна 30℃.

Для вышеуказанных участков тепловой цепи получим следующие характеристики:

№ Материал Толщина, м Площадь, м2 Теплопроводность, Вт/(м×К) Тепловое сопротивление Тепловая цепь 1 1 Олово 0,00005 0,000080 65,26 0,00958 2 Медь (6 слоёв) 0,0012 0,000080 394 0,0381 3 Стеклотекстолит 0,0012 0,000080 0,3 50,0 4 Медь (контакты) 0,003 0,000080 394 0,0952 Тепловое сопротивление R1 = 50,1 Тепловая цепь 2 1 Кремний 0,0009 0,000080 98,9 0,114 2 Индий 0,0001 0,000080 81,9 0,0153 3 Никель 0,00005 0,000080 90,9 0,00688 4 Медь 0,002 0,000080 394 0,0635 5 Никель 0,00005 0,000080 90,9 0,00688 6 Термоинтерфейс 0,00005 0,000080 8,5 (28,1) 0,0735 7 Медь (теплосъемник) 0,002 0,000080 394 Тепловое сопротивление R2 = 0,292

Пользуясь свойством электротепловой аналогии, можно рассчитать тепловые потоки и температуру кристалла, заменив тепловую цепь электрической как на рисунке 3.3.

На рисунке 3.3 источник тепловой энергии представлен идеальным источником тока I1, тепловая мощность кристалла 170 Вт – отдаваемым источником током в

170 А. Хорошо видно, что основной тепловой поток мощностью 169 Вт идёт через крышку процессора и лишь около 1 Вт – через шаровые контакты к подложке.

Перегрев кристалла относительно температуры теплоносителя в СЖО составляет 49℃, значит при температуре теплоносителя 30℃ температура кристалла будет 79℃, как показано на рисунке 3.4.

Из приведенных иллюстраций следует, что тепловым потоком, идущим через шаровые контакты к подложке процессора, можно пренебречь.

Рисунок 3.3 – Распределение температурных потоков и перегрев кристалла.

Рисунок 3.4 – Тепловые потоки и температуры.

4 Что с надёжностью?

Показатели надёжности рассчитываются по книге «Расчёт показателей надёжности радиоэлектронных средств» под ред. С.М. Боровикова – Минск: БГУИР, 2010 – 68 с.: ил. Авторы ссылаются на систематизированные и уточнённые данные следующих руководств, справочников и стандартов:

Reliability prediction of electronic equipment: Military Handbook MIL–HDBK–217F. – Washington: Department of defense DC 20301, 1995. – 205 p.;

A universal model for reliability prediction of Electronics components, PCBs and equipment. RDF 2000: reliability data handbook / Paris: UTE C 80-810. 2000. – 99 p.;

Reliability Prediction Model for Electronic Equipment: The Chinese Military/Commercial Standard GJB/z 299B. – Yuntong Forever Sci.-тек. Co. Ltd. China 299B.

Модель прогнозирования эксплуатационной интенсивности отказов, согласно этому источнику:

λэ = (λкр∙Kt+λкорп∙KE)∙KQ∙KL,

где λкр – интенсивность отказов ИМС, обусловленная кристаллом, для микропроцессоров;

Kt – коэффициент температурного режима

Ea – энергия активации образования дефектов, для КМОП-ИМС Еа = 0,35 эВ;

Ткр – температура кристалла ИМС;

λкорп – интенсивность отказов ИМС, связанная с отказами корпуса, для герметизированных корпусов λкорп = 2,8∙10-4∙n1,08 ∙10-6 1/ч, для негерметизированных корпусов λкорп = 3,6∙10-4∙n1,08∙10-6 1/ч, где n – число выводов корпуса;

KE – коэффициент эксплуатации, равный для помещений с частичным регулированием климатических условий 1,5;

KQ – коэффициент качества, для коммерческих ИМС KQ=10;

KL – коэффициент продолжительности промышленного производства ИМС (отлаженности техпроцесса), устанавливаемый из условия:

для продолжительности производства L = 1 год KL=1,48.

Поскольку в книге нет данных для 64-разрядных процессоров, но прослеживается закономерность удвоения интенсивности отказов кристалла λкр с удвоением разрядности процессора, я принял λкр = 1,12∙10-6 1/ч;

Для температур в интервале от 25℃ (комнатная температура) до 150℃ (максимальная критическая температура кристалла для кремниевых полупроводниковых приборов) показатели надёжности процессора будут иметь значения, представленные в таблице 4.1

Из таблицы 4.1 видно, что с ростом температуры наработка процессоров на отказ снижается, причём как T0, имеющая физический смысл как срок службы процессора, так и Т95%, показывающая время эксплуатации, в течение которого вероятность безотказной работы процессора будет не ниже 0,95 либо время, в течение которого не менее 95% процессоров будут работоспособны.

В таблице 4.1 есть характерные реперные точки: помимо 25℃, это 80℃ - температура, близкая к расчётной температуре кристалла, полученной в разделе 3, и 90℃ - температура, заявленная AMD как максимально допустимая.

При 90℃ ресурс процессора Т0 = 26282 ч (3,0 года) чудесным образом совпадает с гарантийным сроком боксовых процессоров (3 года), что подтверждает правильность проведенных расчётов.

Таблица 4.1 – Показатели надёжности процессора в зависимости от температуры кристалла

Ткр, ℃ Kt Lэ, 1/ч Т0, ч T95%, ч P(1000 ч) 25 0.10 0.0000206283 48477 2487 0.9796 30 0.13 0.0000210476 47511 2437 0.9792 35 0.16 0.0000215536 46396 2380 0.9787 40 0.19 0.0000221604 45126 2315 0.9781 45 0.24 0.0000228834 43700 2242 0.9774 50 0.29 0.0000237398 42123 2161 0.9765 55 0.35 0.0000247484 40407 2073 0.9756 60 0.42 0.00002593 38565 1978 0.9744 65 0.50 0.0000273071 36621 1878 0.9731 70 0.60 0.000028904 34597 1775 0.9715 75 0.71 0.0000307472 32523 1668 0.9697 80 0.84 0.0000328651 30427 1561 0.9677 85 0.98 0.0000352881 28338 1454 0.9653 90 1.15 0.000038049 26282 1348 0.9627 95 1.34 0.0000411823 24282 1246 0.9597 100 1.55 0.0000447249 22359 1147 0.9563 105 1.79 0.0000487157 20527 1053 0.9525 110 2.06 0.0000531958 18798 964 0.9482 115 2.36 0.0000582084 17180 881 0.9435 120 2.70 0.000063799 15674 804 0.9382 125 3.07 0.0000700148 14283 733 0.9324 130 3.49 0.0000769055 13003 667 0.9260 135 3.94 0.0000845226 11831 607 0.9190 140 4.45 0.0000929195 10762 552 0.9113 145 5.00 0.0001021518 9789 502 0.9029 150 5.61 0.0001122768 8907 457 0.8938

T95% – время наработки, при котором 95% процессоров из партии остаются работоспособными;

P(1000 ч) – вероятность безотказной работы в течение 1000 часов.

5 Что в итоге?

5.1 Забудьте о воздушном охлаждении!

Итак, мы видим, что основной проблемой, препятствующей разгону и безотказной работе процессора является температура кристалла процессора. При характерных для Zen2 и Zen3 плотностях тепловых потоков воздушные системы охлаждения подошли к пределу своей эффективности. Тепловые трубки и испарительные камеры начинают свою работу от 50℃ на крышке процессора/основании кулера. Прибавьте к этой температуре рассчитанный в разделе 3 перегрев в 49℃, и получите 99℃ на кристалле…

Ясно, что с таким кулером о разгоне можно забыть и процессор придётся эксплуатировать, в лучшем случае, в номинале. Не стоит забывать, что перегрев рассчитан для идеального кулера, поэтому возможны ситуации, когда и в номинале работа будет под вопросом, а потому придётся ещё сильнее ограничивать процессор, например, отрицательным оффсетом по напряжению и фиксацией максимальных частот.

В утешение любителям воздушных кулеров скажу, что и системы жидкостного охлаждения приблизились к пределу своей эффективности. Особенно хорошо это видно по AIO, которые по своей эффективности недалеко ушли от топовых воздушных кулеров.

5.2 Как можно сильнее понизить Ткр?

5.2.1 Смена термоинтерфейса

Если вы по каким-либо причинам не сменили термопасту на жидкий металл (ЖМ), самое время это сделать. И дело не в том, что ЖМ имеет высокую теплопроводность. Нет, теплопроводность современных паст давно сравнялась с теплопроводностью ЖМ, но в пользу последнего свидетельствуют два обстоятельства:

все термопасты построены на кремнийорганической (силиконовой) основе и, следовательно, подвержены старению; наполнителем термопаст служат теплопроводные порошковые материалы, имеющие плохую пластичность, следовательно, требование минимальной толщины слоя термоинтерфейса невыполнимо, ЖМ раскатывается по контактирующим поверхностями в микроны, в то время как термопаста – слоем в десятки, а то и в сотню микрон.

На этом, к сожалению, все преимущества ЖМ заканчиваются, а недостатков у него гораздо больше:

высокая химическая активность благодаря входящему в состав ЖМ галлию, нельзя использовать ЖМ с алюминием (!), а медную и никелевую поверхность надо тщательно очищать; склонность ЖМ к кристаллизации после диффузии галлия в крышку процессора и в основание кулера, чреватая образованием неразъёмного соединения крышки и основания; опасность замыкания электрических цепей случайно упавшей каплей ЖМ.

5.2.2 Тщательный отбор комплектующих для СЖО

Во-первых, водоблок для процессора должен быть медным, а микроканалы ориентированы поперёк чиплетов. Естественно, зона микроканалов должна покрывать всю площадь чиплетов CCD и cIOD.

Во-вторых, медные радиаторы должны обеспечивать запас по рассеиваемой мощности, которая для 5950х просто бьёт все рекорды;

В-третьих, в контуре должна стоять производительная помпа, обеспечивающая достаточные расход теплоносителя и давление в системе.

5.2.3 Модификация СЖО с понижением температуры теплоносителя

Учитывая, что по пути от кристалла до теплоносителя системы охлаждения происходят потери, обеспечивающие перегрев на 49℃ относительно основания водоблока, крайне желательно снизить температуру хладагента, тогда и температура кристалла сместится на эту величину в более комфортную для разгона и стабильности сторону. Это значит, что система охлаждения превратится в двухконтурную.

Во внутреннем контуре будет циркулировать антифриз с температурами ниже 0℃, а внешний контур будет охлаждать сам теплоноситель с помощью теплового насоса – элемента Пельтье или «фреонки».

Применение чиллера для теплоносителя накладывает дополнительные требования к теплоизоляции ватерблока и шлангов/трубок с целью недопущения образования на них конденсата (росы).

К сожалению, и охлаждение теплоносителя до отрицательных температур не отменяет такого отрицательного явления как термоциклирование, которое неизбежно происходит в работе процессора. Материалы из которых изготовлен процессор имеют разные коэффициенты теплового расширения, в результате чего в проводниках и диэлектрике образуются трещины, треснуть может и сам кристалл, поскольку он припаян к крышке теплораспределителя с помощью индия…

И здесь нет разницы, от -10 до +50 процессор прогревается или от +30 до +90.

5.2.4 Скальпирование процессора

Скальпирование 3950х/5950х – это экстремальное мероприятие, поскольку под крышкой этих процессоров и так находится припой. Скальпирование «на холодную» чревато повреждением кристаллов, но даже если подойти к процессу с умом, это может оказаться лишенным всякого смысла.

Смысл скальпирования – укорачивание тепловой цепи путём исключения лишних звеньев. В разделе 3 мы уже заключили, что ветвью теплопередачи от кристалла к подложке процессора можно пренебречь. Давайте ещё раз взглянем на оставшуюся тепловую цепь

№ Материал Толщина, м Площадь, м2 Тепло-проводность,

Вт/(м×К) Тепловое

сопротивление Мощность, Вт Перегрев, ℃ 1 Кремний 0,0009 0,000080 98,9 0,114 170 19,34 2 Индий 0,0001 0,000080 81,9 0,0153 170 2,59 3 Никель 0,00005 0,000080 90,9 0,00688 170 1,17 4 Медь 0,002 0,000080 394 0,0635 170 10,79 5 Никель 0,00005 0,000080 90,9 0,00688 170 1,17 6 Термоинтерфейс 0,00005 0,000080 8,5 (28,1) 0,0735 170 3,78 7 Медь (теплосъемник) 0,002 0,000080 394 0,0635 170 10,79 Перегрев кристалла относительно теплоносителя системы охлаждения 49,62

Звенья тепловой цепи, соответствующие строкам таблицы, выделенным цветом, можно исключить.

№ Материал Толщина, м Площадь, м2 Тепло-проводность,

Вт/(м×К) Тепловое

сопротивление Мощность, Вт Перегрев, ℃ 1 Кремний 0,0009 0,000080 98,9 0,114 170 19,34 2 Термоинтерфейс 0,00005 0,000080 8,5 (28,1) 0,0735 170 3,78 3 Медь (теплосъемник) 0,002 0,000080 394 0,0635 170 10,79 Перегрев кристалла относительно теплоносителя системы охлаждения 33,91

Неплохо, непосредственной установкой ватерблока на кристаллы удалось выиграть дополнительные 14℃. Но, к сожалению, только на бумаге, поскольку кристаллов в процессоре 3, и все они могут иметь разную высоту, которую компенсирует слой индия в качестве припоя. Это значит, что ЖМ в качестве термоинтерфейса может потерять свои преимущества, и надо задуматься о металлических прокладках из того же индия, благо он мягкий и его можно раскатывать в пластинки.

А как на счёт серебра в качестве материала водоблока? Нет, разница в теплопроводности не оправдывает разницу в стоимости. При теплопроводности серебра 420 Вт/(м×К), оно способно отыграть у меди какие-то десятые доли градуса.

Ещё есть возможность сократить перегрев ядер процессора шлифовкой кристаллов до половины толщины – на 0,4 мм, что обещает выигрыш в температурах ещё на 9 – 10 ℃. Но это также чисто бумажный выигрыш, потому что добавляет риски повреждения кристалла, не гарантируя результат в любительских условиях…