Windows 에서는 아직 네이티브 클라이언트를 제공하지는 않지만 WSL 2 에서 Linux 버전으로 구동하거나 도커 컨테이너로 기동할 수 있다.
https://ollama.ai/blog/ollama-is-now-available-as-an-official-docker-image
먼저 WSL 안에서 NVIDIA CTK 활용이 가능해야하는데 다음 문서를 참고한다.
https://learn.microsoft.com/ko-kr/windows/ai/directml/gpu-cuda-in-wsl
위 문서를 참고해 컨테이너를 실행하고 mistral
, mistral:instruct
이미지를 내려받아놓기까지만 하면 로컬 API 서버 준비 끝.
docker run --rm -d --gpus=all \
-v ./ollama:/root/.ollama -p 11434:11434 \
--name ollama ollama/ollama:0.1.16
docker exec -it ollama ollama pull mistral
docker exec -it ollama ollama pull mistral:instruct
WSL 에서 VSCode 를 실행한 경우 WSL 안의 vscode-server 와 Code GPT 가 통신하기때문에, 다음과 같이 Remote [WSL: *] 탭에서 Code GPT 확장 설정을 진행한다.
- Code GPT: Api Key
- Ollama
- Code GPT: Model
- mistral
- Code GPT.Autocomplete: Enabled
- True
- Code GPT.Autocomplete: Provider
- Ollama – mistral:instruct
이렇게까지만 설정하면 Code GPT Chat 탭에서 제법 그럴싸한 답변을 로컬 GPU 를 활용해 뽑아낼 수 있다.
코드 자동 완성도 되긴하는데 mistral
기본 모델에서는 살짝 아쉽다.
코드 블록에 우클릭하면 다른 유용한 기능도 많은 것 같은데 좀 더 알아보고 회사 폐쇄망에서 적극 활용해보면 좋을 것 같다.
https://marketplace.visualstudio.com/items?itemName=DanielSanMedium.dscodegpt