Claude CodeでLocalLLMは使えるのかお探しですね。

広告

Claude Codeを無料で使いたい!ローカルLLMで動かす方法と現実的な解決策

Claude Codeが登場してから、ターミナルでの開発がめちゃくちゃ便利になりましたよね。

でも、使えば使うほど気になってくるのが「API料金」の問題。

長時間使っていると、個人で開発している人にとっては結構な出費になってしまうことも…。

そこで多くの開発者が考えるのが、「Claude Codeを自分のPCで動くローカルLLM(Ollamaとか)に繋げられないかな?」ということ。

もしこれが実現できれば、料金を気にせず好きなだけ開発できますよね。

この記事では、Claude CodeをローカルLLMで動かすための設定方法から、実際にやってみて分かった「できること・できないこと」、そして「じゃあ実際どうすればいいの?」という現実的な解決策まで、詳しく解説していきます。

Claude CodeをOllamaに繋ぐ基本的な方法

実は、Claude Codeって公式にはAnthropic社のAPIを使うツールなんですが、接続先を変更できる仕組みが用意されているんです。

これを利用すれば、自分のPCで動いているローカルサーバーにリクエストを送ることができます。

ここで使うのが「Ollama」というツール。

最近のアップデートで、AnthropicのAPI形式と互換性が高くなっていて、理論上はClaude Codeからの命令を受け取れるようになっています。

設定方法はシンプルです。

Claude Codeが見ている接続先(`ANTHROPIC_BASE_URL`)を、Ollamaが待ち受けているローカルのアドレス(普通は`http://localhost:11434`)に変更するだけ。

さらに、APIキーのチェックを通すためにダミーの文字列を設定すれば、Claude Codeは「クラウドのClaudeと話している」と思い込んで、実際にはローカルのモデルに指示を送ってくれます。

使うモデル名もコマンドで指定する必要があるので、事前にOllama側で`qwen2.5-coder`みたいなコーディング向けのモデルをダウンロードしておきましょう。

ただし、これはあくまで「繋がるようになる」というレベルの話。

Claude Codeの高度な機能が全部使えるかどうかは別問題です。

まずは`ollama serve`でサーバーを起動して、ターミナルから接続コマンドを叩いて、「会話ができる状態」を目指すのが第一歩です。

実際に使ってみて分かった「できないこと」

接続に成功して、さっそく開発を頼んでみると…単純な会話や質問には、意外とちゃんと答えてくれます。

「このコードどういう意味?」とか「バグの原因は?」みたいな、チャットボット的な使い方なら、ローカルLLM(7B〜14Bくらいのモデル)でも十分使えます。

通信のラグもないので、むしろ快適に感じることも。

でも、Claude Codeの本当にすごいところ、つまり「ファイルを作る」とか「コマンドを実行する」みたいな自動操作機能を使おうとすると…壁にぶつかります。

多くの人が報告しているんですが、例えば「index.htmlを作って」と頼んでも、実際にファイルが作られることはほぼありません。

代わりに画面に、ファイルを作るためのJSONデータとか関数呼び出しの文字列がそのまま表示されて、「はい、終わり!」みたいな感じになっちゃうんです。

これは、Claude Codeが期待している「ツールの使い方」のフォーマットと、ローカルLLMが出力するフォーマットがちょっとズレているから。

Anthropicのモデルは、ツールを使うときにすごく厳密なXMLやJSON構造を返すんですが、ローカルモデルはそれを完璧に真似できないことが多いんです。

結果として、Claude Code側は「これはツール実行の命令じゃなくて、ただの返答だな」と判断してしまい、実際の処理が走らない…というわけです。

正直なところ、今の段階では単純にモデルを差し替えるだけで、Claude Codeの強力な自動化機能をフル活用するのは難しいというのが現実です。

コストを抑える現実的な解決策「Claude Code Router」

「完全にローカルで動かすのは無理でも、料金は抑えたい!」という人におすすめなのが、「Claude Code Router」というツールです。

これはClaude CodeとLLMの間に入るプロキシ(中継サーバー)みたいなもので、タスクの内容や難しさに応じて、自動的に接続先を振り分けてくれる優れものです。

何がすごいかというと、全部のリクエストを一律にローカルに流すんじゃなくて、「難しいタスク」と「簡単な処理」を使い分けられること。

例えば:
– 複雑なリファクタリングや設計相談 → 本家Claude 3.7 Sonnet(クラウド)
– 日常的なコード補完や簡単な質問 → 安いDeepSeek APIか無料のローカルOllama

こんな感じで振り分ければ、開発体験や精度を保ちつつ、API料金を劇的に(場合によっては90%以上!)削減できます。

設定ファイル(config.json)を編集すれば、「think(思考用)」「default(通常用)」みたいなカテゴリごとにモデルを指定できます。

ローカルLLMをこの「Router」の一部として組み込む運用なら、さっき説明したツール使用の不具合に悩まされることも減るし、適材適所でローカルリソースを活用できます。

Claude Codeを無理やりローカル化するより、このルーターを使ったハイブリッド運用が、今のところ一番現実的で経済的な選択肢だと思います。

どのモデルを使えばいい?必要なPCスペックは?

ローカル運用やルーター経由で使う場合、どのモデルを選ぶかが快適さを大きく左右します。

今のところ、コーディング作業で一番評価が高いのは「Qwen 2.5 Coder」シリーズです。

コード生成に特化してトレーニングされていて、サイズの割にめちゃくちゃ性能が高いんです。

特に「32B(320億パラメータ)」モデルは、有料モデルに迫る性能を持っていますが、動かすにはそれなりのマシンパワーが必要です。

**必要なスペックの目安:**
– 32Bモデルを快適に動かす場合
– GPU:最低24GB程度のVRAM(ビデオメモリ)
– Mac:32GB以上のメモリを搭載したM1/M2/M3 Maxチップ

– 普通のゲーミングPCやMacBook Air(8GB/16GB)の場合
– 「7B」や「14B」の軽量モデルを選択
– ただし、モデルが小さいほど複雑な指示への理解力は下がる

PCのスペックに余裕がない場合は、無理にローカルにこだわらず、Routerを使って安い外部API(DeepSeekなど)を併用するのが賢いです。

ただ、「どうしてもコードを外部に出したくない」というプライバシー重視の人は、マシンを強化してでもQwen 2.5 Coderの32B以上をローカルで動かす価値はあります。

自分の開発環境と予算、そして「どこまで自動化したいか」という目的に合わせて、最適なモデルと運用方法を選んでくださいね。

広告