ゼロからLLMプロンプトエンジニアリング 第5回 大注目のオープンモデルQwen3をローカルPCで使ってみよう

2025年5月11日(日)8時28分 マイナビニュース


ローカルPCで手軽に動かせるオープンな大規模言語モデル(LLM)の「Qwen3」が公開され話題となっています。OpenAIのGPT-4に匹敵する高い推論能力が魅力なのですが、高度な推論が可能な「思考モード」と高速に応答する「非思考モード」を切り替えるハイブリッド推論が可能となっています。高性能ながら商用利用も可能です。今回は、ローカルPCでQwen3を使う方法を紹介します。
○Qwen3について
Qwen3は、中国のアリババグループが開発した大規模言語モデル(LLM)です。2025年4月末に公開され、その圧倒的な能力が話題となっています。Qwen3は、Qwenシリーズの第3世代という位置づけですが、前世代のQwen2.5から大幅に性能が向上しました。
Qwen3が注目されているのは、既に言及したように、高い推論能力とハイブリッド推論にあります。また、数学的な推論、プログラム生成、外部ツールを活用するエージェント的タスクの能力が高いと言われています。しかも、パラメータ数の少ない小さなモデルでも、パラメータ数の多い巨大なモデルに匹敵する性能を発揮できます。つまり、性能が高くないローカルPCであっても高度な推論が可能なモデルを動かすことができます。
加えて、36兆トークンを超える巨大なデータセットで事前学習しており、199の言語に対応しているのも特徴です。前モデルでは、中国初であることから英語と中国語に偏っていたのですが、日本語を含む各国語で回答できるようになったのもポイントです。
Qwen3では、いろいろな利用環境に対応できるように、小規模の0.6Bモデルから高性能な32Bまで、さまざまなサイズのパラメータの6つのモデルとMoEに対応した2つのモデルが公開されています。商用利用可能なApache2.0ライセンスで公開されています。
こちらのQwen3のブログ( https://qwenlm.github.io/blog/qwen3/ )では、ベンチマークも載せられているのですが、ベンチマークのいくつかで、高性能な商用AIのOpenAIのO1やGemni2.5 Pro、GPT-4oに匹敵するか、それらを凌駕する性能を発揮していることが示されています。
○Qwen3を動かす選択肢について
オープンな大規模言語モデルのQwen3を試すには、いろいろな選択肢があります。専門知識がなくても簡単にローカルLLMを動かせるツールがいくつかあります。本連載の第3回( https://news.mynavi.jp/techplus/article/zeroprompt-3/ )で紹介した「LM Studio」から使うことができます。また、プログラマーに人気のOllamaからも利用できます。
今回は、コマンドラインや自作プログラムからも手軽にLLMを利用できる「Ollama」を使う方法を紹介します。コマンドラインが苦手という方は、素直に上記のLM Studioを使うのが良いでしょう。
ちなみに、開発元のAlibaba Cloudが有料のQwen APIを提供していますので、自分のPC性能が低い場合は、そちらを利用する事もできます。
○Ollamaをインストールしよう
Ollamaはこちら( https://ollama.com/ )の公式サイトからダウンロードできます。macOS、Linux、Windowsに対応しています。トップページの「Download」ボタンを押すとインストーラーをダウンロードできます。
インストーラーの指示に沿ってインストールしましょう。すると、タスクトレイにOllamaのアイコンが表示されます。しかし、それはOllamaが起動していることを示すだけです。残念ながら、そこからモデルをダウンロードしたり、設定を変更したりすることはできません。
と言うのも、Ollamaはターミナル(WindowsならPowerShell、macOSならターミナル.app)から操作することを念頭に開発されています。ターミナルを起動したら、次のコマンドをタイプしましょう。Qwen3で最も小さなモデル0.6bをダウンロードして利用できる状態にします。
ollama run qwen3:0.6b
モデルをダウンロードして、利用可能な状態になると、「>>>」という記号が表示されます。そこで、適当な質問をしてみましょう。ここでは「日本の首都は?」と尋ねてみると、Tokyoと答えることができました。ただし、漢字が中国語の簡体字の「东京」となってしまいました。
○Qwen3の8bモデルを使ってみよう
次に、同じ質問をQwen3の8bモデル「qwen3:8b」にしてみましょう。そのためには、以下のコマンドを実行します。
ollama run qwen3:8b
すると次の画像のように、日本語の正しい漢字「東京」で答えることができました。やはり、パラメータ数が大きい方が正しい答えを返すことができます。
○非思考モード「no_think」を使ってみよう
なお、Qwen3では、高度な推論が可能な「思考モード」と高速に応答する「非思考モード」を切り替えるハイブリッド推論が可能です。デフォルトでは、思考モードで答えます。そのため、日本の首都を答えるだけの簡単な質問であっても、最終的な答えの推論が向上するための思考を行います。それがからの間に、英語で表示されます。
それで、知識を問うだけで深い思考が不要な場合には、「no_think」や「/no_think」とプロンプト(指示文)に付け加えるだけで「非思考モード」になります。非思考モードのメリットは、とにかく答えが素早く得られる点にあります。なお、スラッシュ付きの「/no_think」を指定する場合は、指示文の末尾に付けてください。プロンプトの最初に書くと、Ollamaのネイティブコマンドと誤判定されてしまいます。
興味深いことに「非思考:日本の首都は?」などと日本語で指示をしても同じように動きます。他にも「考えないで」とか「軽く答えて」などの表現で指示しても動く場合もあります。ただし、いろいろ試してみたところ、プロンプトの末尾に「/no_think」と書くのが確実でした。
○さらに高性能なモデルを試してみよう
筆者が利用しているMacbook Pro M4では、上記の8bモデルに加えて、より大規模な30bモデルでも、そこそこ快適に動かせました。一般的にモデルサイズが大きければ大きいほど、多くのことに答えられます。そこで、試したいのが、Qwen3のいろいろなサイズの他のモデルです。
OllamaのQwen3の紹介ページ( https://ollama.com/library/qwen3 )を見ると、どのモデルが利用できるのか一覧があります。そして、モデルサイズを選ぶと、右上に表示されるインストールコマンドが変わるようになっています。
大きなモデルサイズのものを試す場合、実行環境によっては、遅かったりメモリエラーが出て動かないという場合もあるでしょう。連載の3回目で紹介したように、ローカルLLMの魅力は、インターネットに接続せず、完全にローカルで動かすことができることです。情報漏洩などの心配もなく、気軽にプライベートな質問ができるのがメリットです。いろいろなサイズのモデルを試してみて、普段使いにぴったりのモデルを選んでみると良いでしょう。
○インストールしたモデルの確認と削除
なお、Ollamaでいろいろなモデルを試していると、あっという間にストレージが一杯になってしまいます。そこで、Ollamaでインストールされているモデルの一覧を見るには、ターミナルで次のコマンドを実行します。
ollama list
すると、インストールされているモデルの名前(NAME)と、そのモデルのサイズ(SIZE)、インストールした日(MODIFIED)の一覧が表示されます。
% ollama list
NAME ID SIZE MODIFIED
qwen3:8b e4b5fd7f8af0 5.2 GB 4 minutes ago
qwen3:0.6b 3bae9c93586b 522 MB 10 minutes ago
deepseek-r1:32b 38056bbcbb2d 19 GB 5 days ago
qwen3:30b 2ee832bc15b5 18 GB 5 days ago
qwen3:latest e4b5fd7f8af0 5.2 GB 8 days ago
実用的な速度で動かなかったり、あまり使わないモデルがあれば、以下のコマンドを実行して削除できます。以下はモデル「qwen3:0.6b」を削除するコマンドです。「ollama rm (モデル名)」のように記述します。
ollama rm qwen3:0.6b
大規模言語モデルはかなりサイズが大きいので、新たなモデルをインストールしたら、こまめにモデルを削除すると良いでしょう。
.

マイナビニュース

「ローカル」をもっと詳しく

「ローカル」のニュース

「ローカル」のニュース

トピックス

x
BIGLOBE
トップへ