Межведомственный Суперкомпьютерный Центр Российской Академии Наук

Проверка эффективности использования многопоточности (hyper threading – HT) процессоров для LAMMPS на broadwell:

Создавалась автоматически ячейка с простым кубическим кристаллом на 64^3=262144 атомов. Химический состав Fe60B15Si10Ta8Nb7. Атомы случайно разбрасывались по кристаллу… Атомы моделировались шариками с радиусами из таблицы Менделеева. На первом шаге система релаксировалась, шарики были “мягкими”. На втором шаге релаксация повторялась, то с уже с твердыми шариками. На третьем шаге система плавилась при температуре 2500К и давлении 25ГПа (это 100тыс. шагов молдинамики с длиной шага 0.2 fs в NPT ансамбле Нозе-Хувера).

На вычислительных узлах broadwell HT включен, поэтому на узле 2×32=64 логических процессора (cpus).

Использование всех HT процессоров на узле (-ppn 64):
mbatch -np 64 -ppn 64 -maxtime 120 -s broadwell lammps_in_create_many_x.sh
Общее время счета моделирования Ламмпс (все три шага) — 03:14.
Третий шаг имеет эффективность:
Performance: 9.933 ns/day, 2.416 hours/ns, 574.832 timesteps/s 100.0% CPU use with 64 MPI tasks x 1 OpenMP threads

Использование только половины HT процессоров (cpus) (-ppn 32 умолчание для системы очередей):
mbatch -np 32 -maxtime 120 -s broadwell lammps_in_create_many_x.sh
Общее время счета моделирования Ламмпс (все три шага) — 03:55.
Третий шаг имеет эффективность:
Performance: 7.826 ns/day, 3.067 hours/ns, 452.900 timesteps/s 100.0% CPU use with 32 MPI tasks x 1 OpenMP threads

С HT ускорение получается 9.933/7.826=1.26923
Это прирост скорости молдинамики за счет использование HT на одном узле broadwell.

На втором тестовом запуске с НТ результаты оказались даже лучше:
Performance: 10.005 ns/day, 2.399 hours/ns, 578.966 timesteps/s 99.9% CPU use with 64 MPI tasks x 1 OpenMP threads

Для LAMMPS при использовании многопоточности процессоров системы broadwell (HT) можно получить прирост в 1.3 раза, для этого необходимо указывать опцию «–ppn 64» при запуске задания.