TPU Troubleshooting

태그 TPU

TPU를 사용할 때 흔히 겪을 수 있는 문제들과 해결 방법을 소개합니다.

TPU v4의 실물 모습. 현재는 TPU v6e까지 출시되었다. (출처: 구글)

chevron_right

목차


주기적으로 업데이트할 예정이다.

공통

TPU 재설정

얼마 전 큐에 추가된 리소스 탭에 재설정 기능이 생겼다. 이를 시도해보는 것도 좋다.

재부팅

모든 worker에 대해 재부팅을 시도해보자.

sudo reboot

인스턴스 다시 만들기

인스턴스를 삭제하고 다시 만들어보자.

JAX/Flax

libtpu 초기화 실패

UserWarning: cloud_tpu_init failed: AttributeError("module 'libtpu' has no attribute 'get_library_path'")

위와 같은 오류가 발생한다면, libtpu를 삭제하고 재설치하자. JAX를 설치하면 libtpu가 자동으로 설치되므로, 삭제 후 JAX를 다시 설치하면 된다.

pip uninstall libtpu
pip uninstall libtpu-nightly

인용하기
BibTeX
@misc{devngho202520250202tputroubleshooting,
  author       = {Yu, Dongho},
  title        = {TPU Troubleshooting},
  howpublished = {\url{https://ngho.dev/posts/20250202tpu_troubleshooting}},
  year         = {2025},
  month        = {feb},
  note         = {Accessed: 2025-02-08}
}

APA 유동호. (2025년 2월 2일). TPU Troubleshooting. devngho 블로그. https://ngho.dev/posts/20250202tpu_troubleshooting

Chicago 유동호. “TPU Troubleshooting.” devngho 블로그, 2025년 2월 2일, https://ngho.dev/posts/20250202tpu_troubleshooting.

MLA 유동호. “TPU Troubleshooting.” devngho 블로그, 2025년 2월 2일, https://ngho.dev/posts/20250202tpu_troubleshooting.