Skip to content
AI 도구

SubQ 리뷰

SubQ는 매우 긴 컨텍스트 작업에서 극도의 효율성과 성능을 위해 설계된 하위 2차 희소 어텐션 아키텍처를 기반으로 구축된 대규모 언어 모델(LLM)입니다.

shipped 2026년 6월 18일aifreemium
SubQ - AI tool for subq. Professional illustration showing core functionality and features.
1단일 프롬프트에서 최대 1,200만 토큰을 처리하여 기존 LLM의 한계를 해결합니다.
2Subquadratic Sparse Attention (SSA) 아키텍처를 활용하여 O(n) 계산 복잡성을 달성합니다.
3밀집 어텐션보다 64.5배 적은 컴퓨팅을 보여주며, 1M 토큰 컨텍스트에서 FlashAttention-2보다 56배 빠릅니다.
4SubQ 1.1 Small은 2026년 6월 16일 마이애미 기반 스타트업 Subquadratic에 의해 출시되었으며, 2,900만 달러의 시드 펀딩을 확보했습니다.

SubQ at a Glance

Pricing
freemium
Key Features
Processes up to 12 million tokens in a single context window, with a future target of 100 million tokens by Q4. · Utilizes Subquadratic Sparse Attention (SSA) for linear scaling of compute with context length, achieving O(n) attention complexity. · Demonstrates up to nearly 1,000x attention compute reduction and runs 56x faster than FlashAttention-2 at 1M tokens.
Alternatives
DeepSeek-V3, Mamba (State Space Models), RWKV, LongGen

유사한 도구

대안 비교

고려해 볼 만한 다른 도구

1

DeepSeek-V3

DeepSeek-V3 utilizes a combination of Multi-head Latent Attention (MLA) and DeepSeek Sparse Attention (DSA) to optimize long-context processing and reduce KV-cache costs.

방문
2

Mamba (State Space Models)

Mamba is a novel state-space model architecture that achieves linear scaling with sequence length, offering constant memory inference and strong performance on very long sequences without relying on traditional attention mechanisms.

Stork에서 보기
3

RWKV

RWKV is a recurrent neural network (RNN) architecture that combines the strengths of RNNs (linear scaling, constant memory) with the performance of Transformers, enabling efficient processing of extremely long sequences.

방문
4

LongGen

LongGen improves both training and inference efficiency for long-context LLMs by integrating context length extension with a GPU-friendly KV cache reduction architecture, utilizing sparse attention patterns and a hybrid layer approach.

방문

overview

SubQ란 무엇인가요?

SubQ는 Subquadratic이 개발한 대규모 언어 모델(LLM) 도구로, 개발자, 엔터프라이즈 팀, 데이터 엔지니어, 연구원 및 코딩 에이전트가 수백만 토큰 컨텍스트에서 추론할 수 있도록 합니다. 이는 매우 긴 컨텍스트 작업에서 향상된 효율성과 성능을 위해 하위 2차 희소 어텐션 아키텍처를 활용합니다. SubQ는 컨텍스트 길이가 길어질수록 컴퓨팅 요구 사항이 기하급수적으로 증가하는 표준 트랜스포머 모델의 2차 스케일링 한계를 극복하기 위해 특별히 설계되었습니다. Subquadratic Sparse Attention (SSA) 아키텍처는 컴퓨팅이 입력 길이에 거의 선형적으로 스케일링되도록 보장하며, 가장 관련성이 높은 토큰 관계에 집중합니다. 이를 통해 SubQ는 상당한 품질 저하 없이 단일 프롬프트에서 최대 1,200만 토큰을 처리할 수 있어 복잡하고 장기적인 AI 에이전트 작업 및 다중 문서 분석에 적합합니다.

quick facts

빠른 사실

속성
개발사Subquadratic
비즈니스 모델Freemium
가격Freemium
플랫폼API, 명령줄 (SubQ Code)
API 사용 가능
통합Claude Code, Codex, Cursor (코딩 에이전트용)
설립2026
본사Miami, USA
자금 조달2,900만 달러 시드 펀딩

features

SubQ의 주요 기능

SubQ는 대규모 언어 모델에서 긴 컨텍스트 처리를 위한 성능과 효율성을 최적화하도록 설계된 여러 기술적 기능을 통합합니다.

  • 1효율적인 컨텍스트 처리를 위한 하위 2차 희소 어텐션 아키텍처 (SSA).
  • 2최대 1,200만 토큰의 컨텍스트 창을 지원하는 수백만 토큰 추론.
  • 3컨텍스트에 대한 선형 비용 스케일링으로, 2차 모델에 비해 계산 비용을 절감합니다.
  • 4광범위한 입력 전반에 걸쳐 정확도를 유지하는 거의 완벽한 긴 컨텍스트 검색.
  • 5밀집 어텐션 메커니즘보다 64.5배 적은 컴퓨팅을 달성합니다.
  • 61M 토큰 컨텍스트 길이에서 FlashAttention-2보다 56배 빠르게 작동합니다.
  • 7API를 통해 스트리밍 및 도구 사용 기능을 지원합니다.
  • 8개발자 통합을 위한 OpenAI 호환 API 엔드포인트를 제공합니다.
  • 9SubQ Code 제품 내에서 비용이 많이 드는 모델 턴의 자동 리디렉션을 포함합니다.
  • 10SubQ Code 제품에 대한 한 줄 설치 프로세스를 제공합니다.

use cases

누가 SubQ를 사용해야 할까요?

SubQ는 광범위한 컨텍스트 처리와 높은 효율성을 요구하는 특정 전문 직업군 및 엔터프라이즈 애플리케이션을 위해 설계되었습니다.

  • 1**소프트웨어 엔지니어:** 전체 코드베이스 분석, 아키텍처 수준 추론 수행, 교차 파일 리팩토링, 종속성 추적 및 보안 취약점 식별을 위해.
  • 2**재무 분석가 및 법률 전문가:** 실사, 재무 서류, 수익 보고서, 계약서 및 복잡한 법률 문서 전반에 걸친 추론을 위해.
  • 3**연구원 및 데이터 엔지니어:** 다중 문서 분석, 수천 페이지의 규제 서류 또는 의료 기록을 수집하여 상관관계를 찾고, 심층 연구 워크플로우를 지원하기 위해.
  • 4**개발자 및 엔터프라이즈 팀:** 장기적인 에이전트 작업 구축, API를 통한 고급 장기 컨텍스트 추론을 애플리케이션에 통합, 영구 에이전트 상태 관리를 위해.

pricing

SubQ 가격 및 요금제

SubQ는 프리미엄 비즈니스 모델로 운영됩니다. 특정 계층별 가격 구조 및 상세 사용 비용은 공개되지 않았지만, 프리미엄 모델은 일반적으로 제한된 액세스 또는 기능을 제공하는 무료 계층과 확장된 기능, 더 높은 사용 한도 또는 고급 지원을 제공하는 유료 계층을 의미합니다. Subquadratic은 비용 효율성을 주요 이점으로 강조하며, 유사한 코딩 성능을 위해 Claude Opus 비용의 약 1/20에 불과하는 등 대안에 비해 장기 컨텍스트 작업에 대한 운영 비용이 훨씬 낮다고 주장합니다.

  • 1프리미엄: 특정 계층 세부 정보 및 가격은 공개되지 않습니다.

competitors

SubQ 대 경쟁사

SubQ는 하위 2차 아키텍처와 훨씬 더 큰 컨텍스트 창 기능을 강조함으로써 최첨단 대규모 언어 모델에 맞서 자체적인 입지를 구축합니다.

1
DeepSeek-V3

DeepSeek-V3 utilizes a combination of Multi-head Latent Attention (MLA) and DeepSeek Sparse Attention (DSA) to optimize long-context processing and reduce KV-cache costs.

DeepSeek-V3, like SubQ, focuses on efficient long-context handling through sparse attention mechanisms. While both aim for efficiency, there are discussions in the research community regarding whether DeepSeek's sparse attention implementation achieves a truly sub-quadratic complexity across all layers, a core claim of SubQ's architecture.

2

Mamba is a novel state-space model architecture that achieves linear scaling with sequence length, offering constant memory inference and strong performance on very long sequences without relying on traditional attention mechanisms.

Mamba provides a fundamentally different architectural approach to long-context efficiency compared to SubQ's sparse attention. Both aim for linear scaling and high performance on extended contexts, but Mamba achieves this through recurrent state updates rather than attention approximations.

3
RWKV

RWKV is a recurrent neural network (RNN) architecture that combines the strengths of RNNs (linear scaling, constant memory) with the performance of Transformers, enabling efficient processing of extremely long sequences.

Similar to SubQ, RWKV targets linear scaling for long-context tasks to improve efficiency and performance. However, RWKV achieves this through a recurrent design, contrasting with SubQ's sub-quadratic sparse attention, offering an alternative paradigm for efficient long-sequence modeling.

4
LongGen

LongGen improves both training and inference efficiency for long-context LLMs by integrating context length extension with a GPU-friendly KV cache reduction architecture, utilizing sparse attention patterns and a hybrid layer approach.

LongGen directly competes with SubQ in optimizing LLMs for long contexts and efficiency, employing sparse attention and architectural modifications to reduce computational overhead. While SubQ emphasizes a 'fully subquadratic' architecture, LongGen uses a hybrid approach with a mix of full and efficient attention layers.

자주 묻는 질문

+SubQ란 무엇인가요?

SubQ는 Subquadratic이 개발한 대규모 언어 모델(LLM) 도구로, 개발자, 엔터프라이즈 팀, 데이터 엔지니어, 연구원 및 코딩 에이전트가 수백만 토큰 컨텍스트에서 추론할 수 있도록 합니다. 이는 매우 긴 컨텍스트 작업에서 향상된 효율성과 성능을 위해 하위 2차 희소 어텐션 아키텍처를 활용합니다.

+SubQ는 무료인가요?

SubQ는 프리미엄 비즈니스 모델로 운영됩니다. 특정 계층별 가격 구조는 공개적으로 자세히 설명되어 있지 않지만, 이 모델은 일반적으로 제한된 액세스 또는 기능을 제공하는 무료 계층과 확장된 기능 또는 더 높은 사용량을 위한 유료 옵션을 포함합니다.

+SubQ의 주요 기능은 무엇인가요?

SubQ의 주요 기능으로는 하위 2차 희소 어텐션 아키텍처, 단일 프롬프트에서 최대 1,200만 토큰 지원, 컨텍스트에 대한 선형 비용 스케일링, 거의 완벽한 긴 컨텍스트 검색, 밀집 어텐션보다 64.5배 적은 컴퓨팅, 1M 토큰 컨텍스트에서 FlashAttention-2보다 56배 빠른 처리가 있습니다. 또한 OpenAI 호환 API 엔드포인트를 제공합니다.

+누가 SubQ를 사용해야 할까요?

SubQ는 주로 소프트웨어 엔지니어, 재무 분석가, 법률 전문가, 연구원, 데이터 엔지니어, 개발자 및 엔터프라이즈 팀을 대상으로 하며, 이들은 극도로 긴 문서, 코드베이스 또는 과거 데이터 전반에 걸친 고급 추론과 장기적인 AI 에이전트 구축이 필요합니다.

+SubQ는 다른 대안과 어떻게 비교되나요?

SubQ는 Anthropic Claude, Google Gemini, Qwen, DeepSeek-AI와 같은 경쟁사들과 주로 1,200만 토큰 컨텍스트 창과 완전한 하위 2차 희소 어텐션 아키텍처 (SSA)를 통해 차별화됩니다. 이는 극도로 긴 컨텍스트 작업에 대해 우수한 효율성과 성능을 제공하며, 종종 다른 최첨단 모델의 컨텍스트 창 크기 및 효율성 주장을 능가합니다.

For builders

This page is doing a job for someone else’s tool.

AI agents read it. Buyers find it. Backlinks accrue. Your tool can have one too — live in 24 hours, indexed by Claude, ChatGPT, and Perplexity, queryable via MCP.