Студопедия
Случайная страница | ТОМ-1 | ТОМ-2 | ТОМ-3
АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатика
ИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханика
ОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторика
СоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансы
ХимияЧерчениеЭкологияЭкономикаЭлектроника

Цена вопроса

Читайте также:
  1. В вопросах № 20-36 укажите 1 правильный ответ.
  2. В вопросах № 20—24 укажите правильный ответ.
  3. В вопросах № 35—38 укажите правильный ответ.
  4. В вопросах № 4—18 укажите правильный ответ.
  5. В вопросах № 7—10 укажите правильный ответ.
  6. Важность вопроса: общий взгляд на стресс.
  7. Важность формулировок вопроса: эмпирические свидетельства

 

Использование SSE регистров для хранения узлов замены понятно, - дает некую гарантию изоляции секретной информации, а вот расчет самой криптофункции на FPU это неочевидно. Поэтому были проведены замеры времени выполнения стандартных процедур по методу прямой замены в соответствии с ГОСТ 28147-89 для четырех потоков и для восьми потоков.

Для четырех потоков была получена скорость выполнения 472 процессорных тактов. Таким образом, для процессора с частотой 3,6 Ггц один поток считается со скоростью 59 мегабайт в секунду, а четыре потока соответственно со скоростью 236 мегабайт в секунду.

Для восьми потоков была получена скорость выполнения 580 процессорных тактов. Таким образом, для процессора с частотой 3,6 Ггц один поток считается со скоростью 49 мегабайт в секунду, а восемь потоков соответственно со скоростью 392 мегабайт в секунду.

Как может заметить читатель, код в примере №3 имеет производительность 4RTT, а код в примере №4 имеет производительность 8RTT. В этих примерах на SSE регистрах закономерности те же, что и при использовании РОН, только планировщик снизил свою эффективность. Сейчас он обеспечивает 20% увеличение длительности при двукратном увеличении длины кода.

 

 

Причем эти результаты были получены с использованием универсальных AVX команд, имеющихся как в процессорах фирмы Интел, так и в процессорах AMD. Если выполнить оптимизацию под процессора AMD, результат будет значительно лучше. Звучит поперек тренда, но, тем не менее это правда, и вот почему, - процессора AMD имеют дополнительный набор команд, так называемое XOR расширение, и в этом дополнительном наборе команд есть такие, которые значительно упрощают реализацию алгоритма ГОСТ.

Имеются ввиду команды логического пакетного сдвига байтов и пакетного циклического сдвига двойных слов. В примерах приведенных в приложениях №3,4 используются последовательности универсальных команд реализующих необходимое преобразование в первом случае одна «лишняя» команда, а в другом случае сразу четыре лишних команды. Так что резервы оптимизации есть, и они не малые.

Если речь зашла об дальнейшей оптимизации нелишне помнить о наличие 256 битных регистров (YMM регистры), используя которые можно теоретически еще удвоить скорость вычислений. Но пока это только перспектива, на данный момент процессора очень сильно замедляются, когда выполняют 256 битные инструкции (FPU имеют ширину тракта 128 бит). Эксперименты показали, что на современных процессорах счет в 16 потоков на YMM регистрах выигрыша не даёт. Но это только пока, на новых моделях процессоров несомненно будет увеличено быстродействие 256 битных команд и тогда использование 16 параллельных потоков станет целесообразно и приведет к еще большему увеличению скорости работы криптопроцедуры.

Теоретически можно рассчитывать на скорость 600-700мегабайт в секунду при наличии в процессоре двух FPU с шириной рабочего тракта 256 бит каждый. В этом случае можно говорить о написании кода с эффективностью 16RTT, и это не фантастика, а ближайшая перспектива.

 

 


Дата добавления: 2015-07-08; просмотров: 133 | Нарушение авторских прав


Читайте в этой же книге: Традиционная реализация ГОСТ 28147-89 | Многопоточная реализация ГОСТ 28147-89 | Использование SSE регистров и AVX команд современных процессоров для реализации ГОСТ 28147-89 | Приложение №4. |
<== предыдущая страница | следующая страница ==>
Выполнение этих требований позволит гарантировать полную изоляцию и неизменность программного кода криптопроцедур и используемой в них секретной информации.| Основной цикл шифрования на SSE в четыре потока.

mybiblioteka.su - 2015-2024 год. (0.006 сек.)