20180115

2018 컴퓨터 시스템 소사이어티 동계술대회 참석
The Overview of Machine Learning Accelerator Architectures
데이터 수준에서 상당한 sparsity가 존재하고, 이를 활용하기 위한 아키텍쳐 수준의 지원이 필요하다. Fully-connected NN은 학계에서 가능성을 확인한 대상이라면, 실제로는 convolutional NN과 같은 것이 쓰일 것이다. 미래는 어느 쪽으로 갈 것인가? Personal assistant 쪽으로 인공지능이 발전하지 않을까? 이같은 use-case에서 challenging한 부분은 memory 쪽이 아닐까? Analog 또는 memory 수준에서의 가속기에 대해 연구가 되고 있다. 발표자는 FPGA – ASIC 수준에서 가속기가 발전될 것이라고 생각함. ISCA 2017에 발표된 “Hardware Architectures for DNN Tutorial”을 추천함. 질문. 삼성에서는 AI를 어디에 적용할 생각인지? 모든 제품에 AI를 탑재하는 것을 목표로 함. Top-down으로 모든 부분에 AI를 탑재하고 싶다. 아키텍트들이 소프트웨어하는 사람들과 협업하려면 어떻게 해야 할 것인가? 아키텍트들이 경쟁력을 가질 수 있는가? 아키텍트 입장에서는 AI에 올라탄 느낌. 실제로 AI를 이끌어가는 것은 소프트웨어 또는 서비스 수준인 것 같다. 헤게모니가 하드웨어에서 소프트웨어로 가고 있음. 부인할 수 없는 현상임. 알고리즘을 정확하게 이해해서 하드웨어를 디자인하는 것이 중요함.


SSVEP-based Headset-type BCI (Brain-Compuer Interface) for Paralyzed Patients
바이오 메디컬 관련 내용. 사람의 뇌는 뉴런으로 구성되며, 시냅스로 연결됨. Brain-computer interface는 사람의 뇌와 기계를 연결하는 기술. 일상적인 생활을 누리지 못하는 사람을 위한 의수에 사용할 수 있음. BCI는 실제 구현까지는 꽤 걸릴 것 같음. 96-channel의 MEA를 사용함. BCI에서 invasiave / non-invasive solution으로 나눌 수 있음. Invasive는 정확도는 높지만 수술이 필요함. 두개골 절개가 필요하며, 주기적으로 교체되어야 함. 분당 10개의 character를 쓸 수 있으면 사용 가능한 수준이라고 이야기함. 현재 기술은 24.3 character per minute를 보임. 100개 이상의 바늘을 사용해야 함. 생각보다 연산 능력도 많이 필요함. 뇌파가 전기 신호로 나타나는데, 종류와 rate을 분석해서 입력을 받아들여야 함. 학습 및 매핑 등이 필요함. 하반신 마비 상화에서도 이같은 해법이 도움이 될 수 있음. 뇌에서 신호를 받아 끊어진 척수에 무선으로 신호를 보낸다. Non-invasive 솔루션을 개발하려는 시도도 많이 있음. 2018 CES에서 발표된 헬스케어 어플리케이션으로 수면 정보를 수집하는 것이 있음 (non-invasive). 수면 도우미를 개발함. 서파가 나오지 않으면 가만히 있다가, 서파가 나오면 소리 자극을 주어 오랫동안 지속되도록 한다(엠씨스퀘어와 유사). 가격은 500불 정도.
Steady-state visual evoked potential. 시각 자극을 주면 뇌에서 해당하는 뇌파가 발생한다. EMBC는 바이오메디컬 관련 컨퍼런스임. 시각 자극을 주어 쳐다보는 곳을 확인하고, 해당하는 주파수를 확인해서 특정 동작을 수행하도록 한다. 간단하게 생각하면 쳐다보는 이미지의 주파수를 뇌파 주파수로 확인하고, 이에 맞는 동작을 수행하도록 하는 것. 최근에는 태블릿을 사용해 기능을 구현하고자 하고 있음. 뉴럴 넷을 사용해보니 정확도가 높아지는 것으로 보임. 한편, 뇌파가 아닌 눈을 트래킹해서 입력하려는 시도도 있음. tobii라는 장비를 사용하면 눈을 잘 추적해줌. 뇌파를 이용한 것보다 더 잘 트래킹해주었다고 함. 하지만 안구 트래킹은 시선에 jitter가 있기 때문에 정확도가 생각보다 낮음.


Hardware and Software Optimizations for Flash-based Data Processing Acceleration
범용적으로 사용될 수 있는 가속기를 개발해보고자 했음. 하드웨어 가속기들이 많이 쓰이고 있으나, 제약사항이 있음. 가속기들은 저전력 시스템에서 사용될 수 없다 (많은 전력 사용). 가속기와 저장소 사이에 데이터 전송이 쉽지 않다. 가속기의 사용률이 높지 않다. DoubleFlash를 제안함. 저전력 가속기를 flash-based 저장소에 구현한다. 동적 스케쥴링을 통해 코어 사용률을 증진시킨다. 전산학에서의 성능 진화. 싱글 코어에서의 성능은 전력과 복잡도에 제약됨. 이에 멀티코어를 사용하기 시작했으나, 마찬가지로 전력 문제와 scalabiltiy 문제가 있음. 여기에서 더 성능 향상하기 위해 heterogeneous computing을 시작했으나, 아직 시작 지점에 머무르고 있음. Heterogeneous computing에 해당하는 것이 Xeon phi임. 가속기가 충분히 좋은 해법이지만, 여러 문제점이 있음. 첫째로 전력에서의 문제가 있음. 전력은 상당히 중요하다. 차량 배터리는 20W를 제공 가능한데, xeon phi는 300W를 사용하고 GPU는 180W를 사용함. 자율주행차량에서 전력 문제가 해결되어야 함. 둘째로 데이터 전송 문제가 있음. GPU에서 성능이 높다곤 하지만, global memory에 데이터가 있을 때를 이야기한다. 하지만 실제로 데이터는 스토리지에 있으므로, 이론 상 성능이 나오지 않는다. SSD – firmware – filesystem – I/O runtime – app – accelerator runtime – accelerator driver – accelerator까지의 path를 거쳐야만 함. 전체 연산에서 데이터 이동에 소요되는 전력이 약 65%에 달함. 세 번째 문제는 가속기 사용률. SIMD에서의 가정은 한 개의 함수가 여러 개의 하드웨어 쓰레드가 동시에 실행한다는 것. 하지만 실제로는 그런 경우는 많지 않다. 전체 프로그램에서 serial 한 파트가 10%만 되어도 serial 0%에 비해 반 이상 성능이 떨어짐. 이를 해결하기 위해 해당 연구 프로젝트에서는 DoubleFlash를 제안함. 각각의 문제를 하나씩 해결함. 가속기가 저장장치와 따로 있으면 PCIe를 거치고 north bridge를 거치게 되므로, 그렇게 하지 않고 SSD와 가속기를 하나의 장치로 구성함. 가속기에서 데이터를 바로 처리하므로, 여러가지 파일입출력 인터페이스 API 콜을 거치지 않고 데이터 연산이 가능함.


Cloud Anomaly Detection Using Deep Learning
Cloud anomaly detection에 대해 발표할 것. 클라우드 데이터 센터에서 사용자 수요, 애플리케이션, 사용에 있어 특이사항을 탐지하는 것. 가상화된 시스템에서 여러 개의 가상 머신이 실행되며, 가상 머신 내에서는 여러 개의 프로세스가 실행되므로 이상 현상을 탐지하기가 쉽지 않다. 단순 임계치로 확인하기에는 위험이 있음. 구체적으로 어떤 것을 anomaly로 정의할 것인가?


인공지능 시대에서 메모리의 역할
메모리 회사에서의 풀고자 하는 문제의 방향성에 대해 이야기하고자 함. CPU + FPGA는 과도기적이라고 생각함. CPU + GPU / CPU + AI 가속기 형태로 양분될 것으로 예상함. AI 시장은 2025년에 36Billion~60Billion에 이를 것으로 예측함. 직접 시장 중 GPU는 14B 예측, NVidia는 2020년에 26B으로 자체 예측. 2025년 AI 시장과 서버용 DRAM 전체 시장 규모가 비슷함. AI 시스템 시장은 크게 서버와 컨슈머 시장으로 분류될 것. 서버에서는 inference, training으로 나뉠 수 있으나, 컨슈머 시장에서는 inference가 주로 수행될 것. 회사의 입장에서는 inference가 주요한 시장이 될 것으로 보인다. AI 가속기는 read를 많이 수행함 (TPU의 경우 rw의 비율이 10:1). 이에 착안하여 DRAM을 설계하는 것도 좋을 것 같음. 좀 더 공격적으로 변화한다면 PIM 방향으로 메모리가 개선될 수도 있을 것. 인간의 뇌가 사용하는 에너지가 10W 정도 됨. 인간의 뇌를 컴퓨터로 흉내내려면 12GW가 필요함. 미국에서 가장 큰 발전소에서 생산하는 전력이 3GW. GPU는 programmability가 높아서 시장 진입에 유리함. AI 가속기는 유동성은 떨어지지만, 전력 효율이 10배 정도 됨. 뉴로모픽 가속기는 특정 어플리케이션을 위해 하드웨어가 디자인됨. 성능 개선 가능 폭에서 하드웨어가 차지하는 부분도 크지만 소프트웨어가 차지하는 부분도 큼. 따라서 하드웨어 수준에서 유연성을 제공하는 것이 중요함.


Robot AI in Practice

Advertisements
Posted in 1) Memo

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google+ photo

You are commenting using your Google+ account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s

Recent Posts
누적 방문자 수
  • 144,183 hits
%d bloggers like this: