![]() |
-Tonikaku Yoshi! | Japanese Meme SocietyAuthor: Tonikaku Yoshi!
-Tonikaku Yoshi! Language: ja Genres: Technology Contact email: Get it Feed URL: Get it iTunes ID: Get it |
Listen Now...
140B.Open Models/ H200 = アルファード
Monday, 9 February, 2026
今回のポッドキャストの概要:中国発のオープン・ローカルモデルを中心に、Qwen3の音声まわり(TTS/ASR)と、Kimi 2.5 Thinkingモデル、さらにそれらを動かすためのハードウェア規模感(H200=アルファード比喩)について話しました。Qwen3 Text-to-Speechで音声クローニング – 自分の声を3〜4秒程度でクローンして別テキストを読ませる実験 – 音声のみ/音声+文字起こしの2パターンで学習させたときの違い – 感情表現や話し方のクセをどこまで再現できるか、悪用リスクも含めた所感 Qwen3の「音声設計(ボイスデザイン)」機能 – カスタムボイスとの違い – テキストプロンプトで性別・ピッチ・話速・感情(怒り・明るさなど)、残響(ホールで喋っている感じ)まで指定できる話 – これまで「感情の乗った音声データで学習」していた手間が、プロンプト指定でどこまで代替できるかという期待 Qwen ASR:多言語対応の新しい音声認識モデル – 約1.7BパラメータのASRモデルが登場した話 – 対応言語が約30言語+中国語方言22種と、Whisper以降久々の大型多言語ASR – モデル側から直接タイムスタンプが出せるので、無音検出(VAD)と組み合わせて「どこで誰がしゃべっているか」まで取れるのでは、という構想 – Whisperからの乗り換え候補として、日本語精度にも期待している点 Qwen VLM(Vision-Language Model)を触ってみた話 – 画像×テキストのQwen VLMも試してみて、かなり良い印象だったこと – Qwen(クエイン)の読み方談義や、Alibabaがなぜここまで強力なオープンモデルを出してくるのか(技術力アピール/エコシステム狙いなど)について雑談 Kimi 2.5 Thinkingモデル:1Tパラメータ級の巨大LLM – Moonshot AIのKimi 2.5 Thinkingモデルが約1Tパラメータ、Hugging Face上のサイズ約595GBという規模感 – Kimi公式チャットサイトで試せること、DeepSeek的な位置づけ – OpenAI GPT-4.2系・Claude Opus・Gemini 3 Pro等の“Thinking積み”と比較してもベンチマークは拮抗、一部タスクでは上回るスコアもあるという話 – ローカルで動かせる前提なら、API課金モデルに対抗しうるポテンシャルと、バックエンドに資源を持つプレイヤーが有利になる構図 Kimi 2.5をローカルで動かすためのハードウェア規模 – M3 Ultra Mac Studio × メモリ512GBマシンを2台、Thunderbolt 5接続で非量子化モデルを動かした事例:24トークン/秒ほど出たという報告 – この構成で1台あたり約150万円級、それを2台=約300万円という「車が買える」コスト感 – 1ビット量子化モデルなら、ストレージ+RAM+VRAM合計240GB&24GB GPU 1枚程度でも10トークン/秒で動くというガイドライン – フルモデルをGPUで回そうとするとH200 GPU×4枚クラス(1枚約500万→合計約2,000万円)という試算と、 「H200 1枚=アルファード1台」「アルファード4台が机の上に乗っている」的な比喩トーク H200=アルファード比喩とインフラ時代の感覚 – 高級ミニバン級の価格のGPUが4枚必要、というスケールの話から、 「APIを使うか自前でインフラを持つか」の判断軸 – そんな規模で仕事を回す面白さと、景気のよいハード投資談義 Apple SiliconマシンとローカルLLMのこれから – M4/M5世代Macのメモリ上限や構成の違い – Apple Intelligenceの有無に関わらず、開発用ハードとしてMacが強く求められている感覚 – Claude Codeなどによる開発自動化と、ローカル巨大モデルの登場で、今後の開発スタイルがさらに変わっていくのでは、という展望 次回もお楽しみに。





