Skip to content
Outil d'IA

SubQ Review

SubQ est un Large Language Model (LLM) basé sur une architecture d'attention creuse sous-quadratique conçue pour une efficacité et des performances extrêmes sur des tâches à très long contexte.

shipped 18 juin 2026aifreemium
SubQ - AI tool for subq. Professional illustration showing core functionality and features.
1Traite jusqu'à 12 millions de tokens en une seule invite, répondant aux limitations des LLM traditionnels.
2Utilise une architecture Subquadratic Sparse Attention (SSA), atteignant une complexité de calcul O(n).
3Démontre 64,5 fois moins de calcul que l'attention dense et est 56 fois plus rapide que FlashAttention-2 pour un contexte de 1 million de tokens.
4SubQ 1.1 Small a été lancé le 16 juin 2026 par la startup Subquadratic, basée à Miami, qui a obtenu 29 millions de dollars en financement d'amorçage.

SubQ at a Glance

Pricing
freemium
Key Features
Processes up to 12 million tokens in a single context window, with a future target of 100 million tokens by Q4. · Utilizes Subquadratic Sparse Attention (SSA) for linear scaling of compute with context length, achieving O(n) attention complexity. · Demonstrates up to nearly 1,000x attention compute reduction and runs 56x faster than FlashAttention-2 at 1M tokens.
Alternatives
DeepSeek-V3, Mamba (State Space Models), RWKV, LongGen

Outils similaires

Comparer les alternatives

D'autres outils à considérer

1

DeepSeek-V3

DeepSeek-V3 utilizes a combination of Multi-head Latent Attention (MLA) and DeepSeek Sparse Attention (DSA) to optimize long-context processing and reduce KV-cache costs.

Visiter
2

Mamba (State Space Models)

Mamba is a novel state-space model architecture that achieves linear scaling with sequence length, offering constant memory inference and strong performance on very long sequences without relying on traditional attention mechanisms.

Voir sur Stork
3

RWKV

RWKV is a recurrent neural network (RNN) architecture that combines the strengths of RNNs (linear scaling, constant memory) with the performance of Transformers, enabling efficient processing of extremely long sequences.

Visiter
4

LongGen

LongGen improves both training and inference efficiency for long-context LLMs by integrating context length extension with a GPU-friendly KV cache reduction architecture, utilizing sparse attention patterns and a hybrid layer approach.

Visiter

overview

Qu'est-ce que SubQ ?

SubQ est un outil Large Language Model (LLM) développé par Subquadratic qui permet aux développeurs, aux équipes d'entreprise, aux ingénieurs de données, aux chercheurs et aux agents de codage de raisonner sur des contextes de plusieurs millions de tokens. Il utilise une architecture d'attention creuse sous-quadratique pour une efficacité et des performances améliorées sur des tâches à très long contexte. SubQ est spécifiquement conçu pour surmonter les limitations de mise à l'échelle quadratique des modèles de transformateurs standard, où les exigences de calcul augmentent de manière exponentielle avec la longueur du contexte. Son architecture Subquadratic Sparse Attention (SSA) garantit que le calcul évolue de manière approximativement linéaire avec la longueur de l'entrée, en se concentrant sur les relations de tokens les plus pertinentes. Cela permet à SubQ de traiter jusqu'à 12 millions de tokens en une seule invite sans dégradation significative de la qualité, ce qui le rend adapté aux tâches agentiques d'IA complexes à long terme et à l'analyse multi-documents.

quick facts

Faits rapides

AttributValeur
DéveloppeurSubquadratic
Modèle économiqueFreemium
TarificationFreemium
PlateformesAPI, Ligne de commande (SubQ Code)
API disponibleOui
IntégrationsClaude Code, Codex, Cursor (pour les agents de codage)
Fondé en2026
Siège socialMiami, USA
Financement29 millions de dollars en financement d'amorçage

features

Fonctionnalités clés de SubQ

SubQ intègre plusieurs fonctionnalités techniques conçues pour optimiser les performances et l'efficacité du traitement de longs contextes dans les Large Language Models.

  • 1Architecture d'attention creuse sous-quadratique (SSA) pour un traitement efficace du contexte.
  • 2Raisonnement sur plusieurs millions de tokens, prenant en charge des fenêtres de contexte allant jusqu'à 12 millions de tokens.
  • 3Mise à l'échelle linéaire des coûts pour le contexte, réduisant les dépenses de calcul par rapport aux modèles quadratiques.
  • 4Récupération de contexte long quasi parfaite, maintenant la précision sur des entrées étendues.
  • 5Atteint 64,5 fois moins de calcul que les mécanismes d'attention dense.
  • 6Fonctionne 56 fois plus vite que FlashAttention-2 pour une longueur de contexte de 1 million de tokens.
  • 7Prend en charge les capacités de streaming et d'utilisation d'outils via son API.
  • 8Fournit des points d'accès API compatibles OpenAI pour l'intégration des développeurs.
  • 9Comprend la redirection automatique des tours de modèle coûteux au sein de son produit SubQ Code.
  • 10Offre un processus d'installation en une seule ligne pour le produit SubQ Code.

use cases

Qui devrait utiliser SubQ ?

SubQ est conçu pour des profils professionnels spécifiques et des applications d'entreprise nécessitant un traitement étendu du contexte et une grande efficacité.

  • 1**Ingénieurs logiciels :** Pour l'analyse de bases de code entières, le raisonnement au niveau de l'architecture, le refactoring inter-fichiers, le traçage des dépendances et l'identification des vulnérabilités de sécurité.
  • 2**Analystes financiers et professionnels du droit :** Pour la diligence raisonnable, le raisonnement sur les déclarations financières, les rapports de résultats, les contrats et les documents juridiques complexes.
  • 3**Chercheurs et ingénieurs de données :** Pour l'analyse multi-documents, l'ingestion de milliers de pages de documents réglementaires ou de dossiers médicaux pour trouver des corrélations, et le soutien des flux de travail de recherche approfondie.
  • 4**Développeurs et équipes d'entreprise :** Pour la création de tâches agentiques à long terme, l'intégration d'un raisonnement avancé à long contexte dans les applications via l'API, et la gestion des états d'agent persistants.

pricing

Tarification et plans SubQ

SubQ fonctionne sur un modèle économique freemium. Bien que les structures tarifaires spécifiques par niveau et les coûts d'utilisation détaillés ne soient pas divulgués publiquement, le modèle freemium implique généralement un niveau gratuit avec un accès ou des fonctionnalités limités, ainsi que des niveaux payants offrant des capacités étendues, des limites d'utilisation plus élevées ou un support avancé. Subquadratic a souligné la rentabilité comme un avantage clé, affirmant des coûts opérationnels significativement inférieurs pour les tâches à long contexte par rapport aux alternatives, tels qu'environ 1/20e du coût de Claude Opus pour des performances de codage comparables.

  • 1Freemium : Les détails spécifiques des niveaux et la tarification ne sont pas divulgués publiquement.

competitors

SubQ vs Concurrents

SubQ se positionne face aux Large Language Models de pointe en mettant l'accent sur son architecture sous-quadratique et ses capacités de fenêtre de contexte significativement plus grandes.

1
DeepSeek-V3

DeepSeek-V3 utilizes a combination of Multi-head Latent Attention (MLA) and DeepSeek Sparse Attention (DSA) to optimize long-context processing and reduce KV-cache costs.

DeepSeek-V3, like SubQ, focuses on efficient long-context handling through sparse attention mechanisms. While both aim for efficiency, there are discussions in the research community regarding whether DeepSeek's sparse attention implementation achieves a truly sub-quadratic complexity across all layers, a core claim of SubQ's architecture.

2

Mamba is a novel state-space model architecture that achieves linear scaling with sequence length, offering constant memory inference and strong performance on very long sequences without relying on traditional attention mechanisms.

Mamba provides a fundamentally different architectural approach to long-context efficiency compared to SubQ's sparse attention. Both aim for linear scaling and high performance on extended contexts, but Mamba achieves this through recurrent state updates rather than attention approximations.

3
RWKV

RWKV is a recurrent neural network (RNN) architecture that combines the strengths of RNNs (linear scaling, constant memory) with the performance of Transformers, enabling efficient processing of extremely long sequences.

Similar to SubQ, RWKV targets linear scaling for long-context tasks to improve efficiency and performance. However, RWKV achieves this through a recurrent design, contrasting with SubQ's sub-quadratic sparse attention, offering an alternative paradigm for efficient long-sequence modeling.

4
LongGen

LongGen improves both training and inference efficiency for long-context LLMs by integrating context length extension with a GPU-friendly KV cache reduction architecture, utilizing sparse attention patterns and a hybrid layer approach.

LongGen directly competes with SubQ in optimizing LLMs for long contexts and efficiency, employing sparse attention and architectural modifications to reduce computational overhead. While SubQ emphasizes a 'fully subquadratic' architecture, LongGen uses a hybrid approach with a mix of full and efficient attention layers.

Questions fréquentes

+Qu'est-ce que SubQ ?

SubQ est un outil Large Language Model (LLM) développé par Subquadratic qui permet aux développeurs, aux équipes d'entreprise, aux ingénieurs de données, aux chercheurs et aux agents de codage de raisonner sur des contextes de plusieurs millions de tokens. Il utilise une architecture d'attention creuse sous-quadratique pour une efficacité et des performances améliorées sur des tâches à très long contexte.

+SubQ est-il gratuit ?

SubQ fonctionne sur un modèle économique freemium. Bien que les structures tarifaires spécifiques par niveau ne soient pas détaillées publiquement, ce modèle inclut généralement un niveau gratuit avec un accès ou des fonctionnalités limités, ainsi que des options payantes pour des capacités étendues ou une utilisation plus élevée.

+Quelles sont les principales fonctionnalités de SubQ ?

Les principales fonctionnalités de SubQ incluent son architecture d'attention creuse sous-quadratique, la prise en charge de jusqu'à 12 millions de tokens en une seule invite, la mise à l'échelle linéaire des coûts pour le contexte, la récupération de contexte long quasi parfaite, 64,5 fois moins de calcul que l'attention dense, et un traitement 56 fois plus rapide que FlashAttention-2 pour un contexte de 1 million de tokens. Il offre également des points d'accès API compatibles OpenAI.

+Qui devrait utiliser SubQ ?

SubQ est principalement destiné aux ingénieurs logiciels, aux analystes financiers, aux professionnels du droit, aux chercheurs, aux ingénieurs de données, aux développeurs et aux équipes d'entreprise qui nécessitent un raisonnement avancé sur des documents, des bases de code ou des données historiques extrêmement longs, et pour la construction d'agents d'IA à long terme.

+Comment SubQ se compare-t-il aux alternatives ?

SubQ se différencie de ses concurrents comme Anthropic Claude, Google Gemini, Qwen et DeepSeek-AI principalement par sa fenêtre de contexte revendiquée de 12 millions de tokens et son architecture d'attention creuse entièrement sous-quadratique (SSA), qui offre une efficacité et des performances supérieures pour les tâches à contexte extrêmement long, dépassant souvent les tailles de fenêtre de contexte et les revendications d'efficacité des autres modèles de pointe.

For builders

This page is doing a job for someone else’s tool.

AI agents read it. Buyers find it. Backlinks accrue. Your tool can have one too — live in 24 hours, indexed by Claude, ChatGPT, and Perplexity, queryable via MCP.