20190418

오늘의 일기
* 표를 만들어서 결과를 보이는 것도 좋은 방식이 될 수 있는 듯 하다. 다양한 옵션에 대해서 빠짐없이 실험 또는 확인해보았다는 인상을 줄 수 있고, 실제로 표를 채워넣으면서 내가 빠뜨린 것이 무엇인지 확인할 수 있다.
* 아키텍쳐 / 시스템 연구만으로도 쉽지 않은데, 인공지능이 대세가 됨에 따라 AI에 대한 이해가 필수가 되어가는 듯 하다. 시간이 있으면 조금 봐야겠다.
* TensorFlow benchmark에서 ImageNet 데이터를 사용하려 했으나, 데이터 다운로드에만 이틀이 걸릴 듯 하여 CIFAR로 변경함. 데이터셋 크기, 메모리 사용량 모두 내가 원하는 수준에서 실행할 수 있었다.
* nginx의 메모리 사용량은 적은 편이다.
* 그림자 노동의 역습 이라는 책을 읽었다.
* 오늘은 B와 구현 및 실험 측면에서 의견 충돌을 겪었는데, 내 생각엔 틀린 이야기를 상사 L에게 너무 설득력있게 이야기해서 당황했다. 그래도 미팅을 거듭할수록 당황해도 당황하지 않은 척할 수 있는 능력이 늘고 있다.

simulation is slow.PNG

Advertisements
Posted in Memo

20190417

오늘의 일기
* Tensorflow docker 빌드하다 exit code 137로 죽는 현상을 확인했음. 찾아보니 메모리 부족이었고, 혹시나 싶어 메모리를 명시하여 빌드해보았더니 잘 되었음 “-m 35G”.
* 이전 글에 댓글을 남겨주셨던 우리 학교 대학원생의 블로그를 찾았다. 포닥 포지션을 찾고 있다고 하심.

Posted in Memo

20190416

오늘의 일기
* tensorflow benchmark를 실행해보려 하는 중. 링크에 나온대로 하려니 잘 되지 않아서 직접 tensorflow docker 빌드 중. tensorflow의 “tensorflow/tensorflow/tools/docker/”에 dockerfile 예제가 있음. 해당 프로세서에서 지원하는 확장 기능을 사용하도록 하려면, “–copt=-march=native”를 사용하면 됨. mlperf의 training에 있는 스크립트를 사용하면 nvidia-docker를 쉽게 설치할 수 있다. mlperf 스크립트를 사용한 패키지 설치 중에 dependency가 깨진다. 이를 무시하고 설치하려면 “dpkg -i –force-overwrite /var/cache/apt/archives/nvidia-418_418.40.04-0ubuntu1_amd64.deb”와 같이 하면 됨. tensorflow benchmark에서는 cnn_tf_v1.12_compatible 브랜치를 사용해야만 함. 그렇지 않으면 이 에러가 발생함.
* QEMU 가상 머신에 CPU 확장 기능을 활성화하려면 다음과 같은 옵션을 추가 하면 됨 (링크). ” -cpu qemu64,+avx,+ssse3,+sse4.1,+sse4.2″

Posted in Memo

20190415

오늘의 일기
* 랩세미나에서 발표하기 위해 ASPLOS에서 발표될 Compress Objects, Not Cache Lines를 읽어보았는데, 논문 짜임새나 전반적인 논리 및 실험이 깔끔했다. 창현이 형이 이 저자의 이전 논문인 Rethinking the Memory Hierarchy for Modern Languages를 발표했었고, 그 때에도 비슷한 이야기를 했었다 (논문이 잘 쓰여져 있다고). 단순히 논문을 위한 논문이 아니라, 해당 시스템을 어떻게 설계할 것인지에 대한 고민, 다각도의 평가를 담아낸 것이 보였다. 이렇게 깊이있는 연구를 해야겠다는 생각을 했다. 원래 슬라이드가 준비된 다른 논문을 발표하려 했는데, 그 논문이 도저히 읽히지 않고 재미가 없어서 슬라이드는 없지만 재미있는 이 논문으로 변경함. 슬라이드는 수요일쯤에 사이트에 올려줄 것이라고 한다.
* 어떤 논문에서는 실험을 위해 memcached에 이미지 데이터를 올렸지만, 사실은 memcached / redis 등은 image caching을 위해 설계된 것이 아니라고 함 (링크). 그리고 이 논문에 따르면 facebook memcached 사용 사례에서 90%의 데이터는 500B 이하의 크기를 갖는다고 한다. mutilate라는 도구를 사용하면 facebook distribution을 만들어주는 듯 함. 그리고 마르코프 체인을 사용하면 랜덤하지만 일반적인 텍스트 패턴을 따르는 텍스트를 생성할 수 있음.
* Video dataset.
Video Dataset Overview
Youtube 8M
* 지금까지 모은 dataset을 생각해보면 text / video / graph / image 등으로 요약할 수 있을 것 같다.
* dec2hex(4294967295) = 0xffffffff 이라는 것을 외워두자.

Posted in Memo

20190414

오늘의 dataset
* Datasets For recommender system
* Stanford Large Network Dataset Collection
* Tweets2011 – 라이센스에 서명하여 보내야 함.
* Flickr-Faces-HQ Dataset

Posted in Memo

20190413

오늘의 일기
* AMP Benchmark에서는 common crawl이라는 웹 크롤링 단체의 데이터셋을 사용하고 있었다. 그리고 common crawl은 AWS의 opendata 서비스에 의해 호스팅되고 있었다. 데이터가 필요하다면 opendata를 뒤져보면 될 듯.
* 딥 러닝 데이터셋
* 996.ICU 페이지가 인기를 끈 것을 기점으로, 중국에서 과로 문화에 대한 불만이 터지고 있는 듯 하다. 996이 중국의 업계 종사자와 학생들에게는 아주 중요한 이슈인 것으로 보이며, 기업에서도 이를 주시하고 있는 듯 하다. 위챗 모멘트에는 끊임없이 996에 대한 글들이 올라오고 있고, 최근에는 996.ICU 페이지가 중국 웹 브라우저들에 막히기까지 했다고 한다 (링크 1, 링크 2).

Posted in Memo

20190412

오늘의 일기
* CloudSuite의 graph analytics의 기본 입력 데이터 크기가 작은데, 이는 다른 데이터를 사용해 해결할 수 있다. ClearSuite이란 repo를 보면 카이스트의 웹 페이지 링크에서 큰 데이터를 받아오는 것을 볼 수 있다. 그런데 CloudSuite tutorial에 따르면 이 데이터를 사용하면 45GB의 힙 메모리를 사용하게 된다고 함. 데이터 크기보다도 소스 코드 수정을 통해서 불러오는 edge의 크기를 키워야만 유의미한 실행 시간을 보이는 것 같다.

Posted in Memo
Categories
Recent Posts
누적 방문자 수
  • 157,813 hits