DeepSeek-V3
DeepSeek-V3 utilizes a combination of Multi-head Latent Attention (MLA) and DeepSeek Sparse Attention (DSA) to optimize long-context processing and reduce KV-cache costs.
SubQ est un Large Language Model (LLM) basé sur une architecture d'attention creuse sous-quadratique conçue pour une efficacité et des performances extrêmes sur des tâches à très long contexte.
Outils similaires
D'autres outils à considérer
DeepSeek-V3
DeepSeek-V3 utilizes a combination of Multi-head Latent Attention (MLA) and DeepSeek Sparse Attention (DSA) to optimize long-context processing and reduce KV-cache costs.
Mamba (State Space Models)
Mamba is a novel state-space model architecture that achieves linear scaling with sequence length, offering constant memory inference and strong performance on very long sequences without relying on traditional attention mechanisms.
RWKV
RWKV is a recurrent neural network (RNN) architecture that combines the strengths of RNNs (linear scaling, constant memory) with the performance of Transformers, enabling efficient processing of extremely long sequences.
LongGen
LongGen improves both training and inference efficiency for long-context LLMs by integrating context length extension with a GPU-friendly KV cache reduction architecture, utilizing sparse attention patterns and a hybrid layer approach.
overview
SubQ est un outil Large Language Model (LLM) développé par Subquadratic qui permet aux développeurs, aux équipes d'entreprise, aux ingénieurs de données, aux chercheurs et aux agents de codage de raisonner sur des contextes de plusieurs millions de tokens. Il utilise une architecture d'attention creuse sous-quadratique pour une efficacité et des performances améliorées sur des tâches à très long contexte. SubQ est spécifiquement conçu pour surmonter les limitations de mise à l'échelle quadratique des modèles de transformateurs standard, où les exigences de calcul augmentent de manière exponentielle avec la longueur du contexte. Son architecture Subquadratic Sparse Attention (SSA) garantit que le calcul évolue de manière approximativement linéaire avec la longueur de l'entrée, en se concentrant sur les relations de tokens les plus pertinentes. Cela permet à SubQ de traiter jusqu'à 12 millions de tokens en une seule invite sans dégradation significative de la qualité, ce qui le rend adapté aux tâches agentiques d'IA complexes à long terme et à l'analyse multi-documents.
quick facts
| Attribut | Valeur |
|---|---|
| Développeur | Subquadratic |
| Modèle économique | Freemium |
| Tarification | Freemium |
| Plateformes | API, Ligne de commande (SubQ Code) |
| API disponible | Oui |
| Intégrations | Claude Code, Codex, Cursor (pour les agents de codage) |
| Fondé en | 2026 |
| Siège social | Miami, USA |
| Financement | 29 millions de dollars en financement d'amorçage |
features
SubQ intègre plusieurs fonctionnalités techniques conçues pour optimiser les performances et l'efficacité du traitement de longs contextes dans les Large Language Models.
use cases
SubQ est conçu pour des profils professionnels spécifiques et des applications d'entreprise nécessitant un traitement étendu du contexte et une grande efficacité.
pricing
SubQ fonctionne sur un modèle économique freemium. Bien que les structures tarifaires spécifiques par niveau et les coûts d'utilisation détaillés ne soient pas divulgués publiquement, le modèle freemium implique généralement un niveau gratuit avec un accès ou des fonctionnalités limités, ainsi que des niveaux payants offrant des capacités étendues, des limites d'utilisation plus élevées ou un support avancé. Subquadratic a souligné la rentabilité comme un avantage clé, affirmant des coûts opérationnels significativement inférieurs pour les tâches à long contexte par rapport aux alternatives, tels qu'environ 1/20e du coût de Claude Opus pour des performances de codage comparables.
competitors
SubQ se positionne face aux Large Language Models de pointe en mettant l'accent sur son architecture sous-quadratique et ses capacités de fenêtre de contexte significativement plus grandes.
DeepSeek-V3 utilizes a combination of Multi-head Latent Attention (MLA) and DeepSeek Sparse Attention (DSA) to optimize long-context processing and reduce KV-cache costs.
DeepSeek-V3, like SubQ, focuses on efficient long-context handling through sparse attention mechanisms. While both aim for efficiency, there are discussions in the research community regarding whether DeepSeek's sparse attention implementation achieves a truly sub-quadratic complexity across all layers, a core claim of SubQ's architecture.
Mamba is a novel state-space model architecture that achieves linear scaling with sequence length, offering constant memory inference and strong performance on very long sequences without relying on traditional attention mechanisms.
Mamba provides a fundamentally different architectural approach to long-context efficiency compared to SubQ's sparse attention. Both aim for linear scaling and high performance on extended contexts, but Mamba achieves this through recurrent state updates rather than attention approximations.
RWKV is a recurrent neural network (RNN) architecture that combines the strengths of RNNs (linear scaling, constant memory) with the performance of Transformers, enabling efficient processing of extremely long sequences.
Similar to SubQ, RWKV targets linear scaling for long-context tasks to improve efficiency and performance. However, RWKV achieves this through a recurrent design, contrasting with SubQ's sub-quadratic sparse attention, offering an alternative paradigm for efficient long-sequence modeling.
LongGen improves both training and inference efficiency for long-context LLMs by integrating context length extension with a GPU-friendly KV cache reduction architecture, utilizing sparse attention patterns and a hybrid layer approach.
LongGen directly competes with SubQ in optimizing LLMs for long contexts and efficiency, employing sparse attention and architectural modifications to reduce computational overhead. While SubQ emphasizes a 'fully subquadratic' architecture, LongGen uses a hybrid approach with a mix of full and efficient attention layers.
SubQ est un outil Large Language Model (LLM) développé par Subquadratic qui permet aux développeurs, aux équipes d'entreprise, aux ingénieurs de données, aux chercheurs et aux agents de codage de raisonner sur des contextes de plusieurs millions de tokens. Il utilise une architecture d'attention creuse sous-quadratique pour une efficacité et des performances améliorées sur des tâches à très long contexte.
SubQ fonctionne sur un modèle économique freemium. Bien que les structures tarifaires spécifiques par niveau ne soient pas détaillées publiquement, ce modèle inclut généralement un niveau gratuit avec un accès ou des fonctionnalités limités, ainsi que des options payantes pour des capacités étendues ou une utilisation plus élevée.
Les principales fonctionnalités de SubQ incluent son architecture d'attention creuse sous-quadratique, la prise en charge de jusqu'à 12 millions de tokens en une seule invite, la mise à l'échelle linéaire des coûts pour le contexte, la récupération de contexte long quasi parfaite, 64,5 fois moins de calcul que l'attention dense, et un traitement 56 fois plus rapide que FlashAttention-2 pour un contexte de 1 million de tokens. Il offre également des points d'accès API compatibles OpenAI.
SubQ est principalement destiné aux ingénieurs logiciels, aux analystes financiers, aux professionnels du droit, aux chercheurs, aux ingénieurs de données, aux développeurs et aux équipes d'entreprise qui nécessitent un raisonnement avancé sur des documents, des bases de code ou des données historiques extrêmement longs, et pour la construction d'agents d'IA à long terme.
SubQ se différencie de ses concurrents comme Anthropic Claude, Google Gemini, Qwen et DeepSeek-AI principalement par sa fenêtre de contexte revendiquée de 12 millions de tokens et son architecture d'attention creuse entièrement sous-quadratique (SSA), qui offre une efficacité et des performances supérieures pour les tâches à contexte extrêmement long, dépassant souvent les tailles de fenêtre de contexte et les revendications d'efficacité des autres modèles de pointe.
Plus sur Stork
Plus d'outils dans cette catégorie, classés par signal communautaire
Agent-Reach
🤖 AI Tools
Un outil CLI open-source qui donne aux agents IA un accès internet en temps réel à plus de 16 plateformes sans avoir besoin de clés API.
Kimi CLI
🤖 AI Tools
Une interface en ligne de commande pour les développeurs pour accéder et intégrer le modèle Kimi K2.7 Code AI.
Voicebox
🤖 AI Tools
Un studio vocal IA gratuit, open-source et local-first pour les développeurs qui offre le voice cloning, le text-to-speech, la dictée système et l'intégration d'agents IA.
atlascloud-cli
🤖 AI Tools
AtlasCloud CLI pour appeler les API LLM, image, vidéo et audio depuis les terminals, les scripts et les CI jobs.
SocratiCode
🤖 AI Tools
Intelligence de base de code de niveau entreprise (plus de 40 millions de lignes de code), sans configuration, Plugin/Skill/Extension ou MCP local et privé : recherche sémantique hybride
DeepSeek-Reasonix
🤖 AI Tools
Agent de codage IA DeepSeek-native pour votre terminal. Conçu autour de la stabilité du prefix-cache — laissez-le tourner.
For builders
AI agents read it. Buyers find it. Backlinks accrue. Your tool can have one too — live in 24 hours, indexed by Claude, ChatGPT, and Perplexity, queryable via MCP.