Сравнение быстродействия различных решений.

Читайте также:

Сравнительная оценка производительности аппаратуры для реализации нейросред затруднительна. Это связано с тем, что разные архитектуры имеют очень большие различия в разрядности входных и выходных величин, разрядности весовых коэффициентов, топологии реализуемой нейросети, виде обрабатываемых величин (с плавающей или фиксированной запятой) и многих других важных параметрах. Кроме того, нет общепринятых оценок производительности, которые давались бы любым производителем. Для каждого чипа есть только некоторые показатели производительности, которые считаются разработчиками наиболее значимыми.

Тем не менее, для области нейросетевой обработки данных характерны следующие показатели быстродействия:

CPS (connections per second). Число соединений (умножений с накоплением) в секунду.
CPSPW (CPS per weight). CPPSPW = CPS / N_W, где N_W - число синапсов в нейроне. Фактически эта величина показывает число подсчетов выходов нейронов (количиство вычислений функций активации) в секунду.
CPPS. CPPS = CPS × B_W × B_S, где B_W, B_S - разрядность весов и синапсов соответственно. Этот показатель учитывает разрядность и поэтому более правдоподобен для сравнения разнородных архитектурных решений.
MMAC (multiplications and additions per second). Этот параметр обычно указывается для средств обработки сигналов (цифровых сигнальных процессоров и ПЛИС). Он не полностью соответствует показателю CPS.
Время обработки. Этот показатель равен промежутку времени между поступлением входного сигнала и получением выходного сигнала нейросети.

Сравнение показателей производительности рассметренных в данной работе аппаратных решений представлено в талице.

Название	Производительность	Описание
Intel 80170NX ETANN	2G MAC	Аналоговая схема, 6 бит веса
Bellcore CLNN32	100M CUPS, T = 3 мкс	Гибридная схема, 4 бит веса
НТЦ <<Модуль>> NM6403	1.2G MAC	Для 32 бит данных, нейросигнальнный процессор
Datafactory SAND	200M CPS	Систолический процессор
Datafactory MiND	800M CPS	Плата ускорителя с 4 чипами SAND
Adaptive Solutions CNAPS	2.56G MAC, 293M CUPS	Систолический процессор с 64 внутренними процессорами
Adaptive Solutions CNAPS Server II card	10.24G MAC	Карта ускорителя с 4 чипами CNAPS
Скан Инжиниринг Телеком XDSP-680	220M MAC	4 FPGA-чипа
Analog Devices ADSP-2106x	700M FLOPS

Таблица 2: Производительности нейроархитектур

К сожалению, приведенные данные не позволяют однозначно судить о быстродействии различных нейроустройств, хотя и позволяют сделать некоторые выводы. Например, виден линейный рост производительности систем на основе систолических процессоров с увеличением числа таких процессоров (этот факт с очевидностью следует из логики функционирования систолических процессоров). Но надо учитывать, что также линейно растет задержка между получением входных данных и выдачей выходного сигнала нейросети.

Аналоговая микросхема Intel 80170NX ETANN показывает довольно высокое быстродействие, но из таблицы видно (особенно если учесть малую разрядность обрабатываемых данных), что другие решения имеют более высокую производительность. Для однобитовых данных нейросигнальный процессор NM6403 имеет производительность 11.52G MAC.

Для цифровых сигнальных процессоров и ПЛИС-систем оценка затруднена, так как нет конкретных данных о производительности нейроалгоритмов на устройствах этого типа. В современных DSP-процессорах из-за возможности одновременного выполнения нескольких инструкций о производительности можно говорить лишь в применении к конкретному алгоритму.

Для DSP-чипов характерна оценка производительности по времени выполнения стандартных для обработки сигналов преобразований. В таблице представлены такие оценки для процессоров общего назначения, DSP компании Texas Instruments и нейросигнального процессора NM6403.

Преобразование	Intel Pentium II 300 МГц	Intel PentiumMMX 200 МГц	TI TMS320C40 50 Мгц	НТЦ <<Модуль>> NM6403 40 Мгц
Фильтр Собеля (размер кадра 384X288 байт), кадров/с	-		6.8
Быстрое преобразование Фурье (256 точек, 32 разряда), мкс		-
Преобразование Уолша-Адамара (21 шаг, вх. данные 5 бит), с	2.58	2.80	-	0.45

Таблица 3: Выполнение стандартных преобразований

Данные таблицы 3 показывают, что специализированные процессоры могут составить конкуренцию распространенным процессорам общего назначения при гораздо более экономичных параметрах. Но если учесть темпы роста производительности процессоров общего назначения, то очевидно, что за счет своих вычислительных возможностей рабочие станцие могут эффективно реализовывать нейроалгоритмы. Можно сделать вывод, что необходимость в платах нейроускорителей в скором времени отпадет, хотя специализированные нейровычислители будут превосходить в производительности платформы общего назначения.

Дата добавления: 2015-09-05; просмотров: 60 | Нарушение авторских прав

<== предыдущая страница	\|	следующая страница ==>
Задачи, для решения которых используют нейросети.	\|	Основные достоинства и недостатки различных решений

mybiblioteka.su - 2015-2025 год. (0.006 сек.)