LLM・基盤モデル

GPUを増やす前に、待ち時間を疑う

LLM推論の高速化は、モデルやカーネルの改善だけで決まるわけではありません。高価なGPUを使っていても、CPUとの受け渡しで待ち時間が残れば、その分だけ処理能力は眠ったままになります。Hugging FaceのUnlocking async...
LLM・基盤モデル

LLM推論の余白は、モデルの外側に残っている

GPUを増やす前に、まだ詰められる待ち時間があるのではないでしょうか。Hugging Face の記事 Unlocking asynchronicity in continuous batching は、LLM 推論における continu...
LLM・基盤モデル

多言語検索の選択肢は「大きいほど強い」から変わるのか

Granite Embedding Multilingual R2: Open Apache 2.0 Multilingual Embeddings with 32K Context — Best Sub-100M Retrieval Qu...
LLM・基盤モデル

多言語RAGは「大きな埋め込みモデル待ち」ではなくなる

Granite Embedding Multilingual R2: Open Apache 2.0 Multilingual Embeddings with 32K Context — Best Sub-100M Retrieval Qu...
AIプロダクト

AI時代の開発ツールは、速さを機能として設計する段階に入った

待ち時間は、単なる性能指標ではなくなりつつあります。特にAIを組み込んだ開発環境では、画面遷移の遅さがそのまま思考の中断になります。GitHub Blog の From latency to instant: Modernizing Git...
AIプロダクト

OCR基盤は、モデル選びから実行基盤選びへ移り始めた

OCR や文書解析の導入判断で、これまで中心に置かれがちだったのは「どのモデルを使うか」でした。けれど、実運用ではもう一つの問いが重くなっています。そのモデルを、既存の推論基盤や開発環境の中でどれだけ自然に動かせるかです。PaddleOCR...
LLM・基盤モデル

0.1Bのまま再ランクする——Ettin Rerankerが広げるRAG設計の選択肢

RAGパイプラインで「検索精度が足りない」と感じたとき、真っ先に候補に上がるのがRerankerだ。だが、既存の再ランクモデルはサイズが大きく推論コストが高い——そのジレンマが、実装判断を難しくしてきた。Hugging Face が公開した...
LLM・基盤モデル

リモートセンシングに基盤モデルの波——OlmoEarth v1.1 が広げる可能性

AllenAI が公開した OlmoEarth v1.1: A more efficient family of Earth observation models は、衛星・リモートセンシング画像に特化した基盤モデルファミリーの改善版だ。事...
AIプロダクト

「老化研究」に複数AIエージェントが入る意味

老化の仕組みを解明するのが難しいのは、変数が多すぎるからだ。細胞レベルの経路から臓器間の相互作用まで、何百万もの論文が蓄積されているが、それを横断して仮説を立て、実験設計まで進める研究者の時間には限りがある。そこに、複数のAIエージェントが...
AIプロダクト

仮説を組み立てるのはAIか——Co-Scientistが感染症研究の核心に踏み込んだ

感染症の「なぜ」を解明するプロセスは、仮説を立て、文献を漁り、実験で潰す長いサイクルの繰り返しだ。特に「分子スイッチ」——病原体の挙動を制御する分子機序——の特定は、研究の核心でありながら数年単位の時間を要することも珍しくない。その工程にA...