-Tonikaku Yoshi! | Japanese Meme Society

Author: Tonikaku Yoshi!

-Tonikaku Yoshi!
Be a guest on this podcast

Language: ja

Genres: Technology

Contact email: Get it

Feed URL: Get it

iTunes ID: Get it

Get all podcast data

Listen Now...

140B.Open Models/ H200 = アルファード
Monday, 9 February, 2026

今回のポッドキャストの概要:中国発のオープン・ローカルモデルを中心に、Qwen3の音声まわり（TTS/ASR）と、Kimi 2.5 Thinkingモデル、さらにそれらを動かすためのハードウェア規模感（H200＝アルファード比喩）について話しました。Qwen3 Text-to-Speechで音声クローニング　– 自分の声を3〜4秒程度でクローンして別テキストを読ませる実験　– 音声のみ／音声＋文字起こしの2パターンで学習させたときの違い　– 感情表現や話し方のクセをどこまで再現できるか、悪用リスクも含めた所感 Qwen3の「音声設計（ボイスデザイン）」機能　– カスタムボイスとの違い　– テキストプロンプトで性別・ピッチ・話速・感情（怒り・明るさなど）、残響（ホールで喋っている感じ）まで指定できる話　– これまで「感情の乗った音声データで学習」していた手間が、プロンプト指定でどこまで代替できるかという期待 Qwen ASR：多言語対応の新しい音声認識モデル　– 約1.7BパラメータのASRモデルが登場した話　– 対応言語が約30言語＋中国語方言22種と、Whisper以降久々の大型多言語ASR　– モデル側から直接タイムスタンプが出せるので、無音検出（VAD）と組み合わせて「どこで誰がしゃべっているか」まで取れるのでは、という構想　– Whisperからの乗り換え候補として、日本語精度にも期待している点 Qwen VLM（Vision-Language Model）を触ってみた話　– 画像×テキストのQwen VLMも試してみて、かなり良い印象だったこと　– Qwen（クエイン）の読み方談義や、Alibabaがなぜここまで強力なオープンモデルを出してくるのか（技術力アピール／エコシステム狙いなど）について雑談 Kimi 2.5 Thinkingモデル：1Tパラメータ級の巨大LLM　– Moonshot AIのKimi 2.5 Thinkingモデルが約1Tパラメータ、Hugging Face上のサイズ約595GBという規模感　– Kimi公式チャットサイトで試せること、DeepSeek的な位置づけ　– OpenAI GPT-4.2系・Claude Opus・Gemini 3 Pro等の“Thinking積み”と比較してもベンチマークは拮抗、一部タスクでは上回るスコアもあるという話　– ローカルで動かせる前提なら、API課金モデルに対抗しうるポテンシャルと、バックエンドに資源を持つプレイヤーが有利になる構図 Kimi 2.5をローカルで動かすためのハードウェア規模　– M3 Ultra Mac Studio × メモリ512GBマシンを2台、Thunderbolt 5接続で非量子化モデルを動かした事例：24トークン/秒ほど出たという報告　– この構成で1台あたり約150万円級、それを2台＝約300万円という「車が買える」コスト感　– 1ビット量子化モデルなら、ストレージ＋RAM＋VRAM合計240GB＆24GB GPU 1枚程度でも10トークン/秒で動くというガイドライン　– フルモデルをGPUで回そうとするとH200 GPU×4枚クラス（1枚約500万→合計約2,000万円）という試算と、　　「H200 1枚＝アルファード1台」「アルファード4台が机の上に乗っている」的な比喩トーク H200＝アルファード比喩とインフラ時代の感覚　– 高級ミニバン級の価格のGPUが4枚必要、というスケールの話から、　　「APIを使うか自前でインフラを持つか」の判断軸　– そんな規模で仕事を回す面白さと、景気のよいハード投資談義 Apple SiliconマシンとローカルLLMのこれから　– M4/M5世代Macのメモリ上限や構成の違い　– Apple Intelligenceの有無に関わらず、開発用ハードとしてMacが強く求められている感覚　– Claude Codeなどによる開発自動化と、ローカル巨大モデルの登場で、今後の開発スタイルがさらに変わっていくのでは、という展望次回もお楽しみに。