20141118

에러가 가장 빨리 발생한 NPB FT를 기준으로 잘 되는지 비교해보려 함
1) cacloud01에서 정섭이 형이 준 VM에 NPB 3.3.1 다운로드 (gcc 4.8)
정섭이 형이 준 VM에서 FT를 실행하니 바로 꺼져버렸다. Killed. 라고 나옴.
2) cacloud01에서 내가 만든 VM에 NPB 3.3.1 다운로드 (gcc 4.8)
실행은 잘 됨.
3) cacloud01에서 MARSSX86에서 제공하는 VM에 NPB 3.3.1 다운로드 (gcc 4.8)
fortran 관련 라이브러리가 없다는 문제. gfortran 설치하려 했으나 에러 발생

NPB FT에서 에러가 발생해 비교가 불가능하므로, bzip2 liberty로 비교함.
bzip2 liberty도 에러가 빠르게 발생하는 편. (339909000 cycles, 347881422 commits)
1) cacloud01에서 정섭이 형이 준 VM에 강욱이 형이 준 bzip2로 checkpoint 생성
OS error가 발생하며 checkpoint 생성됨.
2) cacloud01에서 내가 만든 VM에 내가 빌드한 bzip2로 checkpoint 생성
마찬가지로 OS error가 발생하며 checkpoint 생성됨.

하지만 이전 실험과 다르므로, 49800000000 instruction을 fast forwarding한 다음 다시 checkpoint 생성
1) cacloud01에서 정섭이 형이 준 VM에 강욱이 형이 준 bzip2로 checkpoint 생성
OS error가 발생하며 checkpoint 생성됨.
2) cacloud01에서 내가 만든 VM에 내가 빌드한 bzip2로 checkpoint 생성
마찬가지로 OS error가 발생하며 checkpoint 생성됨.

9시 30분에 두 개 모두 실행함.

1), 2) 모두 에러 발생한다면 원인을 찾기 힘듦. 1)만 잘 된다면, VM의 문제이거나 binary의 문제이다. 1)만 잘 될 때에는 내가 빌드한 bzip2를 넣어서 잘 되는지 확인해본다. 내가 빌드한 bzip2를 넣어서 잘 된다면 VM의 문제이고, 잘 안 된다면 binary의 문제이다.

1), 2) 모두 에러가 발생하지 않음. 파이썬 스크립트의 문제인가?

교수님과 회의. 우선 1), 2)에서 에러가 발생하지 않았으므로, python 스크립트를 의심해볼 수밖에 없다. 우선 파이썬 스크립트를 모두 제거한 상태로 checkpoint를 생성하자. checkpoint 생성할 때 MARSS가 바로 꺼지는 것은 정상적인 것 같다. 최대한 안전하도록 kernel 버전도 낮추고(정섭이 형의 VM 사용), SPEC 빌드할 때 gcc 버전도 낮추자. 그렇게 한 상태로 SPEC을 빌드하고, checkpoint를 만들고, VM에 바이너리를 올려서 우선 모두 1billion을 실행해본다. 에러가 발생하는지 아닌지.

해야할 것
1) 정섭이 형이 준 VM을 사용할 준비 (경로 및 명령어 세팅)
2) 낮은 버전의 gcc, g++, gfortran으로 SPEC 빌드
3) 빌드가 완료되는대로 VM에 binary를 옮김
4) 스크립트를 수정해 fast-forwarding을 포함한 checkpoint 생성
5) checkpoint 생성된 이미지를 사용해 cacloud01, cacloud02에 나누어 1 billion instruction을 동시 실행 (총 24개 코어가 있으므로, 24개로 나누면 한 스크립트에 두 개씩 실행)

MARSSx86을 사용할 때, 이미지에 snapshot을 생성하고 지우는 것을 반복하면 이미지가 망가진다. 이로 인한 오류였다.

Advertisements
Posted in 1) Memo

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s

누적 방문자 수
  • 88,681 hits
%d bloggers like this: