По оценкам экспертов, к 2020 году в мире будут работать более 50 миллиардов машин и устройств, способных подключаться к Интернету и обмениваться информацией между собой. Эти устройства будут генерировать огромные объёмы данных, для анализа которых потребуются передовые системы искусственного интеллекта и глубокого обучения. Учитывая это, Intel и Facebook сотрудничают над увеличением производительности открытого фреймворка глубокого обучения Caffe2.
Большинство вычислительных нагрузок, связанных с глубоким обучением, включают в себя непосредственно обучение (training) и построение логических выводов (inference). Для обучения обычно требуется многочасовая или даже многодневная работа. Логические выводы, как правило, осуществляются за миллисекунды или секунды и зачастую являются частью более объёмного процесса. Хотя вычислительная нагрузка при построении логических выводов намного меньше, чем при обучении, логические выводы строятся по намного более объёмному набору данных. Поэтому совокупный объём вычислительных ресурсов, необходимых для построения логического вывода, вероятнее всего, будет несопоставимо больше, чем ресурсы, необходимые для обучения.
Для повышения эффективности платформы Caffe2 специалисты Intel и Facebook работают над интеграцией средств Intel MKL — библиотеки математических функций Math Kernel Library. Она обеспечит максимальную производительность процессоров Intel при построении логических выводов.
Кроме того, повышению быстродействия будет способствовать появление общедоступных чипов Intel Xeon следующего поколения под кодовым названием Skylake. В них будут представлены 512-битные инструкции умножения-сложения с однократным округлением Fused Multiply Add (FMA) в рамках 512-битного семейства векторных инструкций Intel AVX-512, что обеспечивает значительный прирост производительности по сравнению с прежними 256-битными инструкциями AVX2, реализованными в процессорах Haswell/Broadwell как в задачах по обучению, так и в задачах по построению логических выводов. Использование 512-битных инструкций FMA позволяет фактически удвоить количество операций с плавающей точкой, которое выполняет процессор Skylake за одну секунду, и значительно увеличить скорость матричной арифметики одинарной точности, используемой в свёрточных и рекуррентных нейронных сетях.
Источник: servernews.ru