M1 Pro 32GBでQwen3.6-35B-A3Bを本気で使ってみた正直な話

レビュー・比較

2026年4月16日、AlibabaのQwenチームからQwen3.6-35B-A3Bがリリースされた。35B総パラメータ・3Bアクティブのスパース MoEモデルで、SWE-bench Verified 73.4%を記録した注目作だ。Apache 2.0ライセンスで商用利用OKという点も、個人開発者には嬉しい。

「32GBのMacでどこまで使えるのか」——その疑問に正面から向き合った。本記事では、MacBook Pro M1 Pro / 32GB RAM環境でのメモリ・速度・実用性の実測データを包み隠さず公開する。

結論を先に言おう。「ロマンはある。ただし日常運用には工夫が必要」——これが率直な感想だ。

この記事で分かること

  • Qwen3.6-35B-A3Bの実機メモリ消費(32GB Macでの現実)
  • MLX版とGGUF版、どちらを選ぶべきか
  • LM Studioでの実測推論速度
  • Thinking modeの落とし穴と対処法
  • Brave Search MCP連携の実態
  • 32GB Macでの現実的な運用パターン

Qwen3.6-35B-A3Bとは

35B総パラメータのうち、推論時にアクティブになるのは3Bだけ、というMoE(Mixture of Experts)モデルです。メリットは:

  • アクティブ3Bなので推論速度は軽量モデル並み
  • 総重量35Bの表現力を持つ
  • Apache 2.0で商用利用OK
  • Thinking modeで長考推論可能

Simon Willisonの「ペリカン描画ベンチ」でClaude Opus 4.5を超えたと話題になった一方、「35Bの全重量をロードする必要がある」という制約は変わりません。つまりVRAM/RAMは35B相当必要。


使った環境

項目 スペック
マシン MacBook Pro M1 Pro
RAM 32GB 統合メモリ
推論エンジン LM Studio 0.4.12+1
モデル jedisct1/Qwen3.6-35B-A3B-q3-mlx
量子化 Q3(約15.2GB)

モデル選びのポイント:MLX > GGUF

Apple Silicon環境なら迷わずMLX版を選びましょう。同じQ3でもGGUFよりMLXの方が:

  • 推論速度が速い(体感1.2〜1.5倍)
  • メモリ効率が良い
  • LM Studioが公式サポート

Hugging Faceで検索すると複数のQ3バリアントが出てくる。変換者の実績とDL数を見て判断するのが無難だ。「Unsloth Dynamic」系はGGUF専用のため、「UD-MLX」と表記されていても実態はGGUFの可能性がある。READMEで必ず確認しよう。

✅ モデル選択チェックリスト

  • Apple Siliconなら「mlx」と明記されたバリアントを選ぶ
  • Q3量子化を選ぶ(32GB Mac推奨サイズ:約16GB)
  • 変換者のDL数・実績を確認する
  • 「UD-MLX」表記はREADMEで中身を確認する

実測①:メモリ消費のリアル

モデルをロードした直後のアクティビティモニタがこちらです。

  • 使用済みメモリ:30.81GB / 32GB
  • スワップ:8.17GB
  • メモリプレッシャー:黄色

スワップが8GBも発生しているのは、SSD書き込みが常時走っている状態。M1 ProのSSDは交換不可なので、この運用を続けると寿命が縮むリスクがあります。

メモリ内訳の推定

用途 消費メモリ
LM Studio(モデル本体) 約16GB
Next.js開発サーバー 約8GB
ブラウザのAIタブ(ChatGPT/Claude) 約4.5GB
システム・その他 約2GB

モデルをEjectした後は使用済みメモリが9.73GB(21GB解放)、スワップも1.48GBまで落ちた。「常駐させる運用は32GB Macでは厳しい」——これが実感だ。必要な時だけロードする運用が現実解になる。


実測②:推論速度とThinking modeの罠

Q3 MLX版での実測速度は約32トークン/秒。M1 Proとしては悪くない数字です。ところが、実際に使ってみると「遅い」と感じる場面が多発しました。

原因:Thinking modeが常時ON

「Brave Searchできないの?」という単純な質問に対して:

項目 計測値
Thinking時間 1分43秒
生成トークン数 3,525(ほぼ思考)
回答生成時間 12.38秒
合計 約2分

モデル自体は32 tok/sで動いているのに、思考ループが長すぎて体感は激遅になる。「速いのに遅い」という矛盾した体験の原因はここだ。

対処法

LM Studioのシステムプロンプト欄に以下を設定:

/nothink

You are a helpful assistant running locally.
Answer concisely in Japanese.
Thinking is not needed for simple questions.

✅ LM Studio推奨設定チェックリスト

  • システムプロンプトの先頭に /nothink を追記する
  • Context Length:16,384〜32,768(デフォルト262Kはメモリ過消費)
  • Flash Attention:ON(Developer Mode有効化で表示される)
  • GPU Offload:最大
  • KV Cache Quantization:Q8_0
  • Idle TTL:10分(自動アンロードでEject忘れを防止)

実測③:Brave Search MCP連携の落とし穴

LM Studioは最近のバージョンでMCP(Model Context Protocol)に対応しました。Brave Search MCPを接続して、ローカルLLMに検索させてみます。

「東京の品川でおすすめのランチ教えて」

結果:ツールを呼ばずに全部ハルシネーション。存在しない店舗名が複数登場し、「スタバリザーブ東京」が品川にある設定で答えた(実際は中目黒)。

ローカル35Bクラスのあるあるです。MCPツールが接続されていても、モデルが「自分で答えた方が速い」と判断して幻覚を返すケースが頻発します。日本語のローカル情報は特に訓練データが薄く、Qwen3.6も例外ではありませんでした。

対処法:システムプロンプトで強制する

実在する場所・店舗・価格・最新情報に関する質問には、
必ず brave_local_search または brave_web_search を呼び出すこと。
ツールを使わずに具体的な店名・住所を答えることは禁止。

これでも完璧な矯正はできない。「ローカルLLMのMCPは補助的なもの」と割り切ることが現実的だ。


実用検証:どんなタスクに向いているか

約2週間、実際の開発作業でQwen3.6-35B-A3Bを使い続けた結果、得意・不得意がはっきりした。

得意なタスク

タスク種別 評価 コメント
コード補完・リファクタリング 英語コードは品質が高い。オフラインで完結できるのが強み
機密情報を含むコードレビュー クラウドに送れない社内コードに最適
日本語の文章校正・要約 水準は満たすが、Claudeには及ばない
最新技術情報の質問 学習データのカットオフ後の情報はハルシネーション率が高い
ローカル情報(店舗・交通等) MCP連携があっても不安定。クラウドLLMに任せるべき

Claude / GPT-5との使い分け基準

「何でもQwen3.6」にしようとすると必ず壁にぶつかる。以下の基準で使い分けると生産性が上がる。

  • Qwen3.6を使うとき: オフライン必須の場面、社内機密コードの処理、Claude APIコストを削りたい反復作業
  • Claudeを使うとき: 最新情報が必要な質問、複雑なマルチステップ推論、日本語の品質が重要なコンテンツ生成
  • GPT-5を使うとき: 画像理解が必要なタスク、OpenAIエコシステムとの連携

結論:32GB Macでの現実的な運用

使い込んでみて辿り着いた運用パターンはこちらです。

❌ 非推奨:Qwen3.6-35B-A3Bの常駐

メモリプレッシャー常時黄色、スワップ発生、開発環境と併存できない。SSD寿命にも悪影響。

✅ 推奨:役割分担する

用途 使うモデル
常駐・日常用 Qwen3.5-9B MLX(約6GB)or Bonsai(1.58GB)
オフライン機密作業 Qwen3.6-35B-A3B(必要時のみロード→即Eject)
検索・最新情報・複雑タスク Claude(クラウド)
コード開発 Claude Code

Auto-unloadの活用

LM Studioの「Idle TTL」設定で、一定時間未使用でモデルを自動アンロードできます。「Settings → Developer → Auto-unload models after X minutes」を10分に設定しておくと、Eject忘れを防げます。


ローカルLLMの本質的な価値は「軽快さ」

今回の検証で痛感したのは、ローカルLLMは「軽快に動かせる小型モデル」が一番実用的ということ。

  • クラウドのClaude/GPT-5より賢くなることは基本ない
  • 大型モデルを無理に動かすと開発環境を圧迫する
  • Web検索・最新情報はクラウドLLMの独壇場

35Bモデルはロマンです。でも「速い・小さい・常駐できる」の三拍子が揃ったモデルの方が、日々の生産性には確実に貢献します。ローカルLLMが輝く場面は、オフラインで完結する文章整形・校正、機密情報を含むコードレビュー、Claude APIの料金を節約したい反復作業、通信環境の悪い場所での補助ツールに限られると割り切るのが賢明だ。


まとめ

  • Qwen3.6-35B-A3Bは32GB Macで動く。ただし常駐は厳しい
  • MLX版Q3が現実的な選択(約16GB、32 tok/s)
  • Thinking ONだと雑談でも1分以上考える。必ずOFF推奨
  • MCP連携してもローカル35Bは幻覚を返すことが多い
  • コード・機密処理はQwen3.6、最新情報・品質重視はClaude、という使い分けが最適解

次の一手:まずQwen3.5-9Bから始めよう

いきなり35Bに挑戦するより、まずはQwen3.5-9B MLX(約6GB)から始めることを強くすすめる。常駐しても開発環境を圧迫せず、体感速度も軽快だ。「これでは物足りない」と感じたタイミングで35Bを試す——SSD寿命と時間を両方守る現実的な順序だ。

ローカルLLMは進化が速い。Mac Studio M2 Ultra 128GBクラスなら話は別だが、32GB Macの現時点での最適解はクラウドとローカルの適材適所だ。まずはLM Studioを開き、Idle TTLの設定から始めてみよう。小さな一歩が、長期的な生産性の底上げにつながる。

使用したモデル・ツール

コメント