M1 Pro 32GBでQwen3.6-35B-A3Bを本気で使ってみた正直な話

レビュー・比較

2026年4月16日、AlibabaのQwenチームからQwen3.6-35B-A3Bがリリースされた。35B総パラメータ・3Bアクティブのスパース MoEモデルで、SWE-bench Verified 73.4%を記録した注目作だ。Apache 2.0ライセンスで商用利用OKという点も、個人開発者には嬉しい。

「32GBのMacでどこまで使えるのか」——その疑問に正面から向き合った。本記事では、MacBook Pro M1 Pro / 32GB RAM環境でのメモリ・速度・実用性の実測データを包み隠さず公開する。

結論を先に言おう。「ロマンはある。ただし日常運用には工夫が必要」——これが率直な感想だ。

この記事で分かること

この記事で分かること

  • Qwen3.6-35B-A3Bの実機メモリ消費(32GB Macでの現実)
  • MLX版とGGUF版、どちらを選ぶべきか
  • LM Studioでの実測推論速度
  • Thinking modeの落とし穴と対処法
  • Brave Search MCP連携の実態
  • 32GB Macでの現実的な運用パターン

Qwen3.6-35B-A3Bとは

Qwen3.6-35B-A3Bとは

35B総パラメータのうち、推論時にアクティブになるのは3Bだけ、というMoE(Mixture of Experts)モデルです。メリットは:

  • アクティブ3Bなので推論速度は軽量モデル並み
  • 総重量35Bの表現力を持つ
  • Apache 2.0で商用利用OK
  • Thinking modeで長考推論可能

Simon Willisonの「ペリカン描画ベンチ」でClaude Opus 4.5を超えたと話題になった一方、「35Bの全重量をロードする必要がある」という制約は変わりません。つまりVRAM/RAMは35B相当必要。


使った環境

使った環境

項目 スペック
マシン MacBook Pro M1 Pro
RAM 32GB 統合メモリ
推論エンジン LM Studio 0.4.12+1
モデル jedisct1/Qwen3.6-35B-A3B-q3-mlx
量子化 Q3(約15.2GB)

モデル選びのポイント:MLX > GGUF

Apple Silicon環境なら迷わずMLX版を選びましょう。同じQ3でもGGUFよりMLXの方が:

  • 推論速度が速い(体感1.2〜1.5倍)
  • メモリ効率が良い
  • LM Studioが公式サポート

Hugging Faceで検索すると複数のQ3バリアントが出てくる。変換者の実績とDL数を見て判断するのが無難だ。「Unsloth Dynamic」系はGGUF専用のため、「UD-MLX」と表記されていても実態はGGUFの可能性がある。READMEで必ず確認しよう。

✅ モデル選択チェックリスト

  • Apple Siliconなら「mlx」と明記されたバリアントを選ぶ
  • Q3量子化を選ぶ(32GB Mac推奨サイズ:約16GB)
  • 変換者のDL数・実績を確認する
  • 「UD-MLX」表記はREADMEで中身を確認する

実測①:メモリ消費のリアル

実測①:メモリ消費のリアル

モデルをロードした直後のアクティビティモニタがこちらです。

[IMG: アクティビティモニタ – モデルロード時、使用メモリ30.81GB、スワップ8.17GB]

  • 使用済みメモリ:30.81GB / 32GB
  • スワップ:8.17GB
  • メモリプレッシャー:黄色

スワップが8GBも発生しているのは、SSD書き込みが常時走っている状態。M1 ProのSSDは交換不可なので、この運用を続けると寿命が縮むリスクがあります。

メモリ内訳の推定

用途 消費メモリ
LM Studio(モデル本体) 約16GB
Next.js開発サーバー 約8GB
ブラウザのAIタブ(ChatGPT/Claude) 約4.5GB
システム・その他 約2GB

モデルをEjectした後

LM Studioの「Eject」ボタンでモデルをアンロードした直後の状態:

SCR-20260418-lgng.png

  • 使用済みメモリ:9.73GB(21GB解放)
  • スワップ:1.48GB(ほぼ残骸のみ)
  • メモリプレッシャー:緑

この劇的な変化から分かるのは、「常駐させる運用は32GB Macでは厳しい」 ということ。必要な時だけロードする運用が現実解です。


実測②:推論速度とThinking modeの罠

実測②:推論速度とThinking modeの罠

Q3 MLX版での実測速度は約32トークン/秒。M1 Proとしては悪くない数字です。ところが、実際に使ってみると「遅い」と感じる場面が多発しました。

原因:Thinking modeが常時ON

「Brave Searchできないの?」という単純な質問に対して:

SCR-20260418-jbkq.png

項目 計測値
Thinking時間 1分43秒
生成トークン数 3,525(ほぼ思考)
回答生成時間 12.38秒
合計 約2分

モデル自体は32 tok/sで動いているのに、思考ループが長すぎて体感は激遅になる。「速いのに遅い」という矛盾した体験の原因はここだ。

対処法

LM Studioのシステムプロンプト欄に以下を設定:

/nothink

You are a helpful assistant running locally.
Answer concisely in Japanese.
Thinking is not needed for simple questions.

✅ LM Studio推奨設定チェックリスト

  • システムプロンプトの先頭に /nothink を追記する
  • Context Length:16,384〜32,768(デフォルト262Kはメモリ過消費)
  • Flash Attention:ON(Developer Mode有効化で表示される)
  • GPU Offload:最大
  • KV Cache Quantization:Q8_0
  • Idle TTL:10分(自動アンロードでEject忘れを防止)

実測③:Brave Search MCP連携の落とし穴

実測③:Brave Search MCP連携の落とし穴

LM Studioは最近のバージョンでMCP(Model Context Protocol)に対応しました。Brave Search MCPを接続して、ローカルLLMに検索させてみます。

「東京の品川でおすすめのランチ教えて」

結果:ツールを呼ばずに全部ハルシネーション。

  • 「スタバリザーブ東京」が品川にあることになっている(実際は中目黒)
  • 存在しない店舗名が複数
  • 「typoは致し方ない!😂」と開き直る始末

これ、ローカル35Bクラスのあるあるです。MCPツールが接続されていても、モデルが「自分で答えた方が速い」と判断して幻覚を返すケースが頻発します。日本語のローカル情報は特に訓練データが薄く、Qwen3.6も例外ではありませんでした。

対処法:システムプロンプトで強制する

実在する場所・店舗・価格・最新情報に関する質問には、
必ず brave_local_search または brave_web_search を呼び出すこと。
ツールを使わずに具体的な店名・住所を答えることは禁止。

これでも完璧な矯正はできない。ツール呼び出しの判断精度は、ClaudeなどクラウドLLMと比べて明らかに劣る。「ローカルLLMのMCPは補助的なもの」と割り切ることが現実的だ。


結論:32GB Macでの現実的な運用

結論:32GB Macでの現実的な運用

使い込んでみて辿り着いた運用パターンはこちらです。

❌ 非推奨:Qwen3.6-35B-A3Bの常駐

メモリプレッシャー常時黄色、スワップ発生、開発環境と併存できない。SSD寿命にも悪影響。

✅ 推奨:役割分担する

用途 使うモデル
常駐・日常用 Qwen3.5-9B MLX(約6GB)or Bonsai(1.58GB)
オフライン機密作業 Qwen3.6-35B-A3B(必要時のみロード→即Eject)
検索・最新情報・複雑タスク Claude(クラウド)
コード開発 Claude Code

Auto-unloadの活用

LM Studioには「Idle TTL」設定があり、一定時間未使用でモデルを自動アンロードできます。「Settings → Developer → Auto-unload models after X minutes」を10分に設定しておくと、Eject忘れを防げます。


ローカルLLMの本質的な価値は「軽快さ」

ローカルLLMの本質的な価値は「軽快さ」

今回の検証で痛感したのは、ローカルLLMは「軽快に動かせる小型モデル」が一番実用的ということ。

  • クラウドのClaude/GPT-5より賢くなることは基本ない
  • 大型モデルを無理に動かすと開発環境を圧迫する
  • Web検索・最新情報はクラウドLLMの独壇場

35Bモデルはロマンです。でも「速い・小さい・常駐できる」の三拍子が揃ったモデルの方が、日々の生産性には確実に貢献します。

ローカルLLMが輝く場面

  • オフラインで完結する文章整形・校正
  • 機密情報を含むコードレビュー
  • Claude APIの料金を節約したい反復作業
  • 通信環境の悪い場所での補助ツール

逆に「なんでもできる万能AI」を期待すると、32GB Macでは必ず壁にぶつかります。


まとめ

まとめ

  • Qwen3.6-35B-A3Bは32GB Macで動く。ただし常駐は厳しい
  • MLX版Q3が現実的な選択(約16GB、32 tok/s)
  • Thinking ONだと雑談でも1分以上考える。必ずOFF推奨
  • MCP連携してもローカル35Bは幻覚を返すことが多い
  • 日常はQwen3.5-9Bかそれ以下、大仕事はClaude、という使い分けが最適解

次の一手:まずQwen3.5-9Bから始めよう

いきなり35Bに挑戦するより、まずはQwen3.5-9B MLX(約6GB)から始めることを強くすすめる。常駐しても開発環境を圧迫せず、体感速度も軽快だ。「これでは物足りない」と感じたタイミングで35Bを試す——SSD寿命と時間を両方守る現実的な順序だ。

ローカルLLMは進化が速い。Mac Studio M2 Ultra 128GBクラスなら話は別だが、32GB Macの現時点での最適解はクラウドとローカルの適材適所だ。

まずはLM Studioを開き、Idle TTLの設定から始めてみよう。小さな一歩が、長期的な生産性の底上げにつながる。

使用したモデル・ツール

コメント