병렬처리
Google TPU. ISCA 2017년에 발표된 내용임. 실제로는 개발해 사용하기 시작한지는 꽤 되었음. 회사에 필요한 것을 개발했다고 볼 수 있음. Inference는 response time이 중요한 작업이다. Inference 작업에 K80 GPU를 사용하면 underutilize된다. CNN은 전체 구글 워크로드의 5%밖에 되지 않음. Batch size를 늘리면 utilization은 높아지지만 response time이 느려진다. 256개의 입력값이 들어가면 256×256개의 weight과 곱해진 다음에 256개의 출력을 내보낸다. 하드웨어는 간단한 연산 장치를 제공하는 것이고, 이에 맞추어 원하는 연산을 수행하면 된다. 적절히 데이터 레이아웃을 잡고 데이터의 공급과 생산을 제어해야 한다.
Advertisements
Leave a Reply