English
version
Задать вопрос

Новости

14 октября 2019

Инференция на периферии сети

14 октября 2019 года — Издание New Electronics опубликовало статью Бетана Гриллса (Bethan Grylls), посвященную актуальной проблеме инференции на периферии сети в искусственном интеллекте (ИИ), под которой понимается совокупность процессов анализа и принятия решений в ходе обработки и интерпретации получаемых данных.

Как считает автор, инференция в ИИ все еще находится в зачаточном состоянии, но и рынок, и технологии растут быстрыми темпами. По прогнозу аналитической компании ABI Research рост рынка чипсетов для приложений искусственного интеллекта (ИИ) в части инференции на периферии сети и тренировке инференции ускорится с 65% в 2018 году до 137% в 2023 году. Этот прогноз предусматривает рост объемов рынка устройств для процессинга ИИ на периферии сети в денежном выражении с $1,3 млрд в 2018 году до $23 млрд к 2023 году. Такой экспоненциальный рост уже спровоцировал яростную конкуренцию между глобальными корпорациями, предприятиями малого и среднего бизнеса и стартапами. Теперь, когда на рынок выведены несколько чипсетов, каждый из конкурентов надеется, что его инновационные решения помогут ему занять значительную долю этого быстро растущего и меняющегося рынка.

«Инференция на периферии сети — горячая тема, и стимулами её развития являются несколько основных направлений, в частности — автомобильная электроника и интеллектуальные камерами наблюдения», — рассказывает Эндрю Грант (Andrew Grant), старший директор по развитию бизнеса подразделения Машинное зрение и ИИ компании Imagination Technologies. Обработка данных на периферии сети позволит компаниям проводить инференцию без необходимости передачи данных, которая влияет на параметры латентности и точности из-за зависимости от качества соединения и скорости передачи. Именно эти факторы могут ухудшать пользовательский опыт, а для некоторых приложений это может иметь разрушительные последствия.

Джефф Тейт (Geoff Tate), генеральный директор компании Flex Logix, привел в качестве примера автономные транспортные средства. «В будущем камеры будут располагаться как снаружи, так и внутри автомобиля, чтобы отслеживать, распознавать и регистрировать. Если вам нужна система, которая способна идентифицировать другие транспортные средства и пешеходов на скорости 110 км в час, скорость и точность инференции очень важны», — рассказывает он.

«Чем больше вычислений можно сделать внутри автомобиля, тем лучше, — считает Эндрю Грант. — Если вы сможете понизить необходимую пропускную способность за счет внедрения нейронной сети внутри автомобиля, то внезапно откроются новые возможности».

И дело не только в автомобильной электронике. По словам Эндрю Гранта, использование нейронной сети в камерах наблюдения — еще одна новая сфера применения, которая обеспечит интеллектуальным камерам возможность выполнять такие задачи, как отслеживание взглядов и распознавание объектов, для повышения безопасности.

Так почему же до сих пор большое число приложений ИИ не выполнялись на периферии? Проблема заключается в балансировании цены решения с его производительностью и точностью, утверждает автор статьи. В качестве примера можно привести смартфон. Приложение, которое выполняет обнаружение и распознавание объектов, требует для обработки одного изображения 227 млрд операций умножения и 227 млрд операций сложения. Транспортное средство, предназначенное обнаруживать объекты и анализировать окружение, должно будет обрабатывать 30 подобных изображений в секунду, а это триллионы операций секунду. Проблема в том, что клиентам нужен такой чип для инференции, который мог бы справляться с этой задачей, но при этом по стоимости $20 за штуку и с энергопотреблением не больше пары ватт.

Чтобы уменьшить энергопотребление и стоимость, разработчики чипов лишают устройства для инференции некоторых возможностей по обучению. Обучение обычно проходит на числах с плавающей запятой одинарной точности, например, формата FP32. Когда обучение заканчивается, модель фактически «замораживается» и экспортируется в более компактном формате, таком как, например, int8, в новый чип. При таком подходе можно упростить логические схемы и несколько уровней модели объединить в один вычислительный шаг, что позволяет еще больше снизить стоимость и увеличить скорость обработки данных. Для дальнейшего повышения производительности микросхем теперь используется новый тип процессорного устройства для запуска моделей инференции.

Изначально для этих целей использовали ЦПУ из-за их универсальности, но сейчас они слишком медленные. Как следствие, компании всё чаще переключаются на ГПУ и ПЛИС, которые дают значительное улучшение по показателю производительности на потребляемый ватт.

Компания Flex Logix утверждает, что сделала следующий шаг в этом направлении. «Большинство процессоров для инференции используют традиционные архитектуры, которые не позволяют эффективным образом доставлять данные достаточно быстро в блоки умножителей и блоки накопителей в нужные моменты. Подобные системы полагаются на шины, в которых всегда происходят конфликты, так как несколько ядер борются за доступ к одной и той же памяти», — поясняет Джефф Тейт. Представленное компанией Flex Logix решение InferX X1 использует собственную технологию межсоединений из ее встроенной ПЛИС и объединяет ее с оптимизированными для инференции кластерами nnMAX. В результате микросхема способна обеспечить более высокую пропускную способность в приложениях на периферии сети, чем существующие решения, и делает это с одним элементом DRAM.

Как рассказывают во Flex Logix, чип был сконструирован таким образом, что даже при небольших размерах пакетов (batch) он сравним с платами ЦОД для инференции и оптимизирован для больших моделей, которым требуются сотни миллиардов операций на одно изображение. Например, для распознавания объектов в реальном времени с помощью комплекса YOLOv3 решение InferX X1 обрабатывает 2-мегапиксельные изображения с частотой 11,4 кадра в секунду при размере пакета=1. Производительность линейна с размером изображения, и таким образом частота кадров составляет 22,8 кадров в секунду для 1-мегапиксельных изображений при размере пакета=1.

Компания Imagination Technologies также предприняла шаги, чтобы улучшить производительность инференции на чипе, представив СФ-блок ускорителя нейронных сетей (NNA). Эту технологию в компании рассматривают как «фундаментальный класс процессоров», аналогичный по значимости ЦПУ и ГПУ. Ускорители PowerVR семейства 3NX обеспечивают повышение производительности на 40% по сравнению с предыдущим поколением, они выполняют до 10 тера операций в секунду (TOPS) на одном ядре. По словам Эндрю Гранта, в настоящее время этот ускоритель предлагает один из самых высоких на рынке показателей производительности относительно площади кристалла. Для дальнейшего повышения производительности ускоритель также имеет многоядерные реализации на 2, 4, 8 и 16 ядер. 16 ядер — это 16 x 10 TOPS, то есть примерно 160 TOPS, и это именно те операции, которые наиболее востребованы в СнК чипсетах для автомобильной отрасли.

Компания Qualcomm идёт немного другим путём, недавно представив своё облачное решение для выполнения инференции на периферии сети. Qualcomm планирует выпустить специализированный ускоритель приложений искусственного интеллекта Cloud AI 100, который призван обеспечить лучшую на рынке производительность на ватт. «С 2018 по 2025 годы рынок инференции для искусственного интеллекта в центрах обработки данных будет сильно расти, — говорит Кит Крессин (Keith Kressin), старший вице-президент по управлению продуктами компании Qualcomm, — и мы видим возможность воспользоваться нашим богатым опытом в области обработки слабых сигналов и коммуникаций и создать специализированный ускоритель приложений ИИ, имеющий лучшую производительность на ватт среди доступных в настоящее время на рынке».

Кит Крессин предвидит такой сценарий, в котором вместо того, чтобы общаться с облаком с задержкой в сотни миллисекунд, устройство будет взаимодействовать с периферией облака посредством 5G. «Это революционизирует качество сквозной передачи данных», — заявляет он. Qualcomm также намерен поддержать разработчиков полным набором инструментов и фреймворков для каждого из своих решений искусственного интеллекта облако-периферия. Подобные решения, по мнению представителей Qualcomm, расширяют пользовательский опыт, когда становится возможным появление персональных устройства для обработки естественного языка и осуществления переводов, а также расширенный поиск по изображениям. «Для нас это новая область разработки чипов, — продолжает Кит Крессин. — Но мы думаем, что рынок достаточно велик, и у нас есть правильные позиции с точки зрения лидерства в технологическом процессе, масштаба и способности быть основным игроком в облачной инфраструктуре».

«Рынок решений для осуществления инференции связан с нейронными сетями, и темпы инноваций и перемен на нём просто поразительны, — добавляет Яир Сигел (Yair Siegel), директор по сегментному маркетингу компании CEVA. Новые функции и технологии появляются каждые пару месяцев. Сейчас наблюдается быстрый рост потребностей в вычислениях из-за развития более сложных сетей. Поэтому требуются не просто очень эффективные процессоры, но обладающие достаточной гибкостью и возможностью программируемости решения, способные реализовывать будущие, неизвестные сейчас новые функции в сетях. При частых обновлениях со стороны сетей требуется автоматическая миграция от обучения к конечному продукту».

Источник