20190411

오늘의 일기
* 오늘의 깨달음 – 벤치마크를 돌릴 때에는 벤치마크의 특성을 이해하자. 예를 들자면 CloudSuite의 data caching (memcached)에서는 twitter에서의 데이터 접근 패턴만을 사용할 뿐, 데이터값은 쓰레기값을 채워넣는다 (A로 채워넣는다). 이를 놓치면 잘못된 결론에 이를 수 있다. “memcached 사용 환경에서는 메모리 데이터는 모두 A구나 🙂 “. 게다가 벤치마크 제작자 입장에서는 사소한 설정도 실험 목적에 따라서는 중요할 수 있다. 벤치마크를 뜯어보고 최대한 realistic한 설정을 찾으려 하는 중…
* CloudSuite의 data analytics에서 사용하는 wikipedia 입력 데이터가 너무 작아서 BigDataBench에서 제공하는 wiki 데이터로 교체함. 압축된 데이터 크기는 10492810412B, 해제된 크기는 46658851958B (44GB). 실행해보니 이 크기는 너무 커서 dd로 extract하여 사용함. wiki dump 파일은 xml로 구성되어있는데, page 단위로 구분된다. 적당히 포맷만 맞춰주면 됨.

# dd if=wiki count=10 bs=1G > wiki.10G

* 나 혼자 + 영어로 + 원격으로 연구 미팅을 하다가 예상치 못한 반응이 나오면 정신이 아득해지곤 한다… 한 번 아득해진 정신은 날 더 먼 곳으로 이끌곤 한다.

Advertisements
Posted in Memo

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google photo

You are commenting using your Google account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s

This site uses Akismet to reduce spam. Learn how your comment data is processed.

Categories
Recent Posts
누적 방문자 수
  • 157,813 hits
%d bloggers like this: