English
version

Новости

Все теги
Подписаться на новости

Подпишитесь на рассылку, чтобы всегда быть в курсе последних новостей в мире технологий

Вы успешно подписались!

Мы отправили вам на указанный адрес письмо со ссылкой-подтверждением.

Закрыть
14 марта 2017

Чипы должны научиться чувствовать боль и излечивать себяСтатья в magazine.imec.be

14 марта 2017 года — «Чипы должны научиться чувствовать боль и излечивать себя» — под таким названием корпоративный журнал компании imec опубликовал следующую статью.

Изменение масштаба транзисторов дало нам большие преимущества, но при этом принесло и множество вопросов, связанных с надежностью. Для того, чтобы использовать возможности масштабирования в полной степени, системные архитекторы и инженеры-технологи должны работать вместе. Они должны найти решения — например, на системном уровне – чтобы реализовать самовосстанавливающиеся чипы, микросхемы, которые смогут обнаруживать или «чувствовать» появление ошибок, знать, как их исправлять или, в некотором смысле, «лечить» их. Только тогда будет целесообразно проектировать системы по технологиям, в которых используются транзисторы с размерами до 5 нм. Два специалиста в этой области объясняют, как изготовить такие самовосстанавливающиеся чипы: системный архитектор Френки Каттхур (Francky Catthoor) и технолог Гвидо Грёсенекен (Guido Groeseneken).

До недавнего времени производители интегральных схем по технологии CMOS, которая подверглась миниатюризации не в таких масшабах, могли продавать электронику с гарантированным сроком службы. Содержащиеся в ней чипы были построены на устройствах, имевших одинаковые усредненные характеристики и изнашивавшихся предсказуемым образом. Подход с использованием так называемой охранной зоны (guard-band) гарантировал надлежащее функционирование микросхем и чипов: к усредненным характеристикам транзисторов был добавлен запас для обеспечения нормального функционирования и на случай экстремальных сценариев использования. Из-за масштабирования и связанных с этим проблем с надежностью размер этой охранной зоны увеличился с 10% до более высоких показателей. В результате, при технологическом процессе от 14 нм и меньше подход с использованием охранной зоны будет постепенно становиться непригодным для систем, требующих определенного типа гарантий. Означает ли это преждевременный конец миниатюризации?

Создание надежных систем на ненадёжных устройствах

Грёсенекен: «Возможно, это означает конец для использования охранной зоны, но, конечно, это не конец миниатюризации. В прошлом надежность системы была большей частью гарантирована инженерами-технологами. Но очень скоро это уже будет невозможно, и мы достигаем точки, где мы, инженеры-технологи, должны работать совместно с экспертами по системной архитектуре для создания надежных систем на основе «ненадежных» устройств. Наша исследовательская группа измеряет и пытается осмыслить проблемы надежности в масштабируемых устройствах. В технологическом процессе 40 нм всё еще возможно справиться с проблемами надежности устройств и создать хорошую систему. Но уже на 7 нм ненадежность отдельных устройств рискует оказать влияние на всю систему. И традиционные методы проектирования не могут это предотвратить. Поэтому нам срочно необходимы новые парадигмы проектирования».

Старение устройств становится очень сложным вопросом при масштабировании технологий. Грёсенекен: «Во-первых, даже при фиксированной нагрузке устройства больше не деградируют единообразно. Каждое отдельное устройство имеет свой собственный уровень деградации, поэтому нам нужно начать с изучения статистического распределения деградации. Как назло, в реальной системе нагрузка не фиксирована. Только представьте себе мультимедийное приложение, в котором рабочая нагрузка зависит от инструкций пользователей к системе. Из-за этого очень сложно предсказать деградацию миниатюризированных устройств в системе».

Каттхур: «Тем не менее, зависимость от нагрузки не должна быть отрицательной. В конце концов, она даже даёт ключ к решению, над которым мы работаем, для создания надёжных систем с сильно миниатюризированными устройствами. Будущие системы включат в себя распределенные датчики, которые обнаруживают локальные ошибки в системе, интеллектуальный контроллер, который собирает эту информацию и решает, что делать, а также исполнительный механизм, который регулируются контроллером и устраняет обнаруженную проблему».

Грёсенекен: «Это можно сравнить с нашим телом, где нервная система определяет, где находится источник боли или инфекция, передает результаты в мозг, являющийся контролирующим органом, который направляет клетки для устранения ошибки или заставляет тело реагировать таким образом, чтобы избавиться от источника боли. На самом деле, мы можем многому научиться изучая то, как в процессе эволюции была создана самая сложная в мире система: человеческое тело и мозг».

Подход с использованием охранной зоны, основанный на фиксировании крайних точек, не годится для систем, узлы которых создаются по технологическому процессу менее 14 нм. В этой статье предлагается модель зависимости от рабочей нагрузки.

Будущие системы включат в себя распределенные датчики, которые обнаруживают локальные ошибки в системе, интеллектуальный контроллер, который собирает эту информацию и решает, что делать, а также исполнительный механизм, который регулируются контроллером и устраняет обнаруженную проблему.

Отслеживание «боли» у чипа

Первое требование, предъявляемое к созданию самовосстанавливающихся чипов, — наличие распределенного мониторинга, который может локализировать с высокой степенью достоверности источник «боли» у чипа. Грёсенекен: «Существуют различные виды вариативности устройств, которые необходимо отслеживать. Прежде всего: вариативность начала отсчета времени. Эта вариативность существует в масштабируемых устройствах сразу после их изготовления. Каждый транзистор ведет себя немного по-разному, даже до того, как на него будет подана какая-либо нагрузка. Это может происходить из-за изменений параметров технологического процесса во время изготовления устройств, но сейчас всё более часто встречающейся причиной этого становятся так называемые «внутренние» источники, такие как произвольные диффузантные флуктуации или размытие края изображения. Эта вариативность начала отсчета времени имеет тенденцию играть важную роль в устройствах, подвергающихся сильной миниатюризации. Во-вторых, существует зависящая от времени вариативность: в ходе работы системы каждое устройство или транзистор деградирует по-разному. Это, опять же, может быть вызвано как различиями в рабочей нагрузке, так и внутренними механизмами, такими как произвольное улавливание дефектов в малых устройствах. Нужно различать проблемы функциональной надежности, которые влияют на цифровое поведение устройства, и проблемы параметрической надежности, которые влияют на параметры устройства, такие как задержка, потребляемая мощность, отношение сигнал-шум (SNR)».

Надежность обеих схем и всей системы зависит от вариативности начала отсчета времени и временной вариативности устройств. Каттхур: «И поскольку эти вариации становятся все более и более непредсказуемыми, мониторинг необходим для обоих случаев. Этому мониторингу было посвящено множество исследований, особенно в академических кругах, и результаты некоторых из них уже используются сегодня. Например, на сегодняшний день большинство чипов имеют функциональные датчики. В устройствах памяти, где обнаружение ошибок довольно легко встроить и выполнять, оно осуществляется путем контроля четности. Но и в арифметических трактах данных, пусть даже менее простых, функциональные датчики разрабатываются и уже частично используются на сегодняшний день. На данный момент параметрические датчики менее распространены. Они в основном используются в высокопроизводительных приложениях».

Интеллектуальный контроллер для лечения функциональной и параметрической «боли» у чипа

Наиболее важной частью будущих самоизлечивающихся чипов является контроллер. Мозгу такого чипа придётся иметь дело с функциональными и параметрическими ошибками. Каттхур: «Они обе связаны друг с другом, но очень важно устранить причину проблемы, а не сосредоточиться только на последствиях. Если проблемой является задержка, то, конечно, функциональное поведение устройств тоже будет отличаться, но именно задержка является причиной. С другой стороны, если локализуется проблема с побитовой обработкой, то нужно выполнять минимизацию функциональной надежности».

Минимизация функциональной надежности – это лечение функциональных ошибок. Каттхур: «Снижение функциональной надежности используется в миниатюризованных устройствах памяти (например, 90 нм). Просто вспомните об устройствах памяти с кодом коррекции ошибок (ECC), в которых обнаруживается и исправляется ошибка побитовой обработки. Поскольку в памяти акцент делается на плотность и масштабирование, связанные с этим проблемы и решения, как правило, в первую очередь выскакивают именно здесь. При дальнейшей миниатюризации ячеек памяти ЕСС усложняется, еще больше распределяется и, в конечном итоге, цена станет слишком высокой. Нам необходимы новые методы».

Вместе с Федеральной политехнической школой Лозанны (Écolepolytechniquefédérale de Laussane, EPFL) исследовательский центр imec работает над методами подавления функциональности в зависимости от рабочей нагрузки для устройств памяти и трактов данных. Каттхур: «Существует три уровня, на которых можно встроить подавление. Подавление на схемотехническом уровне имеет очень типичный характер и поэтому может использоваться в любых архитектурах и приложениях, но оно подразумевает непроизводительные затраты в занимаемой площади и потребляемой энергии. Другой крайностью является подавление на уровне приложений. Это очень специфический способ, он должен разрабатываться заново для каждого нового приложения. Большинство компаний не хотят этого делать из-за высоких затрат на проектирование систем. Между ними находится подавление на уровне системной архитектуры. Оно имеет не слишком специфический характер и не создает слишком много непроизводительных затрат. imec вместе с партнёрскими организациями из академических кругов уделяют основное внимание подавлению на уровне архитектуры и на уровне цепи (последнее применяется только в случае, когда стоимость изготовления может поддерживаться на низком уровне).

Также в отношении вопросов параметрической надежности мы разрабатываем методы, зависящие от рабочей нагрузки. В этом ключевую роль играют наши академические партнёры. Вместе с Делфтским техническим университетом мы разрабатываем методы подавления на уровне цепи для устройств SRAM. С Афинским политехническим университетом мы работаем над методами подавления на уровне архитектуры. Вместе мы разрабатываем частично упреждающий контроллер на основе системных сценариев. Этот контроллер не дает ошибкам задержки распространяться и наносить ущерб на системном уровне. Вы не можете предотвратить эти ошибки на уровне устройств, но на уровне системы вы не дадите им причинить вред. Сотрудничество с исследовательскими группами, например с группой Гвидо Грёсенекена, очень важно, потому что они предоставляют нам данные и модели механизмов отказа, которые должны быть использованы в методах подавления». Грёсенекен: «Большим преимуществом для imec в данной работе является то, у нас в распоряжении под одной крышей собрана вся необходимая экспертиза и это ставит нас в совершенно уникальное положение в проведении данного исследования».

Предсказатель для самоисцеляющихся чипов

Конечная цель imec и её академических партнеров заключается в разработке полностью упреждающего метода снижения параметрической надежности с распределенными датчиками, системой управления и исполнительными механизмами, которые полностью предотвращают последствия ошибок задержки, а в перспективе — и функциональных ошибок. Каттхур: «Секрет решения заключается в вариациях рабочей нагрузки системы. С помощью детерминированного прогнозирующего устройства вы определяете будущий резерв времени и используете его для компенсации ошибок задержки при пиковой нагрузке. На основании этой информации о будущем, вы меняете порядок планирования и назначение операций». Грёсенекен: «Только при таком подходе самоисцеления (полностью упреждающий подход), мы сможем осуществить миниатюризацию до технологического процесса 5 нм. На самом деле, я считаю, что этот подход также присутствует в нашем организме. Наш мозг и тело не созданы (эволюцией), чтобы постоянно справляться с пиковыми нагрузками, но они знают, что придут лучшие времена и используют свой резерв, чтобы справиться с текущими пиковыми нагрузками».

Каттхур: «Моделирование зависимости от нагрузки имеет большое значение для создания надежных систем с миниатюрными и ненадежными устройствами. Imec сводит воедино знания о датчиках, контроллерах и регулирующих устройствах, которые разрабатываются в университетах. Мы объединяем их со знаниями, полученными от наших технических экспертов, для проработки симуляций и создания полностью упреждающего подхода к подавлению в будущих чипах. Наше взаимодействие с промышленными партнерами позволяет нам разрабатывать релевантные для промышленности методы. Я ожидаю, что к 2025 году настоящие самовосстанавливающиеся чипы будут производиться промышленным образом, а потребителям будут доступны для использования по-настоящему надежные системы и приложения. Как и во многих областях, решение заключается в сотрудничестве. В объединении опыта технологических экспертов и системных архитекторов, и в объединении существенного вклада академических групп и исследовательских центров, которые дают промышленности и обществу возможность использовать ранние концептуальные разработки».

Самовосстанавливающиеся чипы могли бы использовать изменение рабочей нагрузки системы во благо себе. На основе детерминированного прогнозирующего устройства определяется будущий резерв, который затем используется для компенсации ошибок задержки и снижает производительность при пиковой нагрузке.

Проактивный подход к снижению надежности в зависимости от нагрузки подразумевает небольшую потерю в производительности на начало отсчета времени, но при этом большой выигрыш в надежности системы на протяжении нескольких лет.

Биографическая справка

Гвидо Грёсенекен (Guido Groeseneken) получил магистерскую степень (M.Sc.) в электротехнике и машиностроении (1980) и докторскую степень (Ph.D.) в прикладных науках (1986), обе в Лёвенском университете (Бельгия). В 1987 году начал работать в исследовательском центре imec в качестве научного сотрудника, сфера исследований – передовые устройства и физика надежности КМОП-технологий на уровнях 10 нм и ниже. Также является программным директором диссертационной программы imec и отвечает за взаимодействие с университетами по всему миру. С 2001 года он работает профессором по совместительству в Лёвенском университете, в котором он управляет магистерскими курсами в области нанонауки и нанотехнологий европейской программы студенческого обмена Erasmus Mundus. В январе 2005 года избран членом Института инженеров электротехники и электроники (IEEE). Гвидо был членом технического программного комитета нескольких международных научных конференций, среди которых международная конференция по электронным устройствам (IEDM) Института инженеров электротехники и электроники (IEEE), Европейская научно-исследовательская конференция по полупроводниковым устройствам (ESSDERC), Международный симпозиум по физическим основам надежности (IRPS), Конференция специалистов по полупроводниковым интерфейсам IEEE (SISC) и Симпозиум EOS/ESD. С 1999 до 2006 года он выступал в качестве редактора издания IEEE «Записки об электронных устройствах» (Transactions on Electron Devices). Является лауреатом награды IEEE Cledo Brunetti в 2017 году.

Френки Каттхур (Francky Catthoor) получил диплом инженера и докторскую степень в области электротехники в Лёвенском университете (Бельгия) в 1982 и 1987 годах соответственно. В период с 1987 по 2000 год он возглавлял в исследовательском центре imec несколько направлений исследований в области высокоуровневых методик и системного синтеза, а также архитектурных методологий, включая сопутствующее применение и технологические аспекты субмикронного уровня, а также интеллектуальные фотоэлектрические модули. В настоящее время он научный сотрудник imec и штатный профессор по совместительству на кафедре электротехники Лёвенского университета. В 1986 году он получил премию для молодых ученных, учреждённую Обществом Маркони (Marconi International Fellowship Council). Он был помощником редактора в нескольких изданиях IEEE и Ассоциации вычислительной техники (ACM), таких как «Записки об обработке сигналов СБИС» (Trans. on VLSI Signal Processing), «Записки о мультимедиа» (Trans. on Multi-media) и ACM TODAES. Он был программным главой ряда конференций, включая ISSS’97 и SIPS’01. Избран членом IEEE в 2005 году.

Оригинал этой статьи

Теги
Мы в соцсетях