Не генерация исследования, а автономное выполнение исследования.
От brief до manuscript внутри governed, checkpointed и inspectable процесса.
English · 한국어 · 日本語 · 简体中文 · 繁體中文 · Español · Français · Deutsch · Português · Русский
Локализованные README — это поддерживаемые переводы этого документа. Для нормативных формулировок и самых новых правок используйте английский README как canonical reference.
AutoLabOS — это операционная система для governed research execution. Она рассматривает run как checkpointed состояние исследования, а не как одноразовый акт генерации.
Весь основной цикл inspectable. Сбор литературы, формирование гипотез, дизайн экспериментов, реализация, запуск, анализ, figure audit, review и написание manuscript оставляют auditируемые артефакты. Утверждения остаются evidence-bounded в рамках claim ceiling. Review — это не этап косметической правки, а structural gate.
Предположения о качестве превращаются в явные checks. Реальное поведение важнее, чем внешний вид на уровне prompt. Воспроизводимость обеспечивается за счёт артефактов, checkpoints и inspectable transitions.
Многие системы research agents оптимизированы под производство текста. AutoLabOS оптимизирован под выполнение governed исследовательского процесса.
Эта разница важна, когда проекту нужно больше, чем просто правдоподобный черновик.
- research brief как контракт исполнения
- явные workflow gates вместо свободного дрейфа агентов
- checkpoints и артефакты, которые можно проверить постфактум
- review, способный остановить слабую работу до генерации manuscript
- failure memory, чтобы не повторять вслепую один и тот же неудачный эксперимент
- evidence-bounded claims вместо текста, который выходит за пределы данных
AutoLabOS рассчитан на команды, которым нужна автономность без отказа от auditability, backtracking и validation.
Один governed run всегда проходит один и тот же исследовательский путь.
Brief.md → literature → hypothesis → experiment design → implementation → execution → analysis → figure audit → review → manuscript
На практике это выглядит так:
/newсоздаёт или открывает research brief/brief start --latestвалидирует brief, сохраняет его snapshot внутри run и запускает governed run- система проходит фиксированный workflow и checkpoint’ит state и artifacts на каждой границе
- если evidence слабая, система выбирает backtracking или downgrade, а не автоматическую косметическую правку текста
- только после прохождения review gate узел
write_paperпишет manuscript на основе ограниченной evidence
Исторический контракт на 9 nodes остаётся архитектурной базой. В текущем runtime между analyze_results и review добавлен figure_audit, чтобы критику фигур можно было checkpointить и возобновлять независимо.
stateDiagram-v2
[*] --> collect_papers
collect_papers --> analyze_papers: complete
analyze_papers --> generate_hypotheses: complete
generate_hypotheses --> design_experiments: complete
design_experiments --> implement_experiments: complete
implement_experiments --> run_experiments: auto_handoff or complete
run_experiments --> analyze_results: complete
analyze_results --> figure_audit: auto_advance
analyze_results --> implement_experiments: auto_backtrack_to_implement
analyze_results --> design_experiments: auto_backtrack_to_design
analyze_results --> generate_hypotheses: auto_backtrack_to_hypotheses
figure_audit --> review: auto_advance
review --> write_paper: auto_advance
review --> implement_experiments: auto_backtrack_to_implement
review --> design_experiments: auto_backtrack_to_design
review --> generate_hypotheses: auto_backtrack_to_hypotheses
write_paper --> [*]: auto_complete
Вся автоматизация внутри этого потока ограничена bounded node-internal loops. Даже в unattended-режимах сам workflow остаётся governed.
AutoLabOS создаёт не только PDF. Он создаёт трассируемое состояние исследования.
| Выход | Что содержит |
|---|---|
| Литературный corpus | собранные papers, BibTeX, извлечённый evidence store |
| Гипотезы | hypotheses, основанные на литературе, и skeptical review |
| Экспериментальный план | governed design с contract, baseline lock и checks согласованности |
| Исполненные результаты | metrics, objective evaluation, failure memory log |
| Анализ результатов | статистический анализ, attempt decisions, transition reasoning |
| Figure audit | figure lint, caption/reference consistency, опциональная vision critique |
| Review packet | scorecard панели из 5 специалистов, claim ceiling, critique до черновика |
| Рукопись | LaTeX draft с evidence links, scientific validation и опциональным PDF |
| Checkpoints | полные snapshots состояния на каждой границе node, resumable в любой момент |
Всё хранится под .autolabos/runs/<run_id>/, а публичные результаты зеркалируются в outputs/.
Так устроена модель воспроизводимости: не скрытое состояние, а артефакты, checkpoints и inspectable transitions.
# 1. Установить и собрать
npm install
npm run build
npm link
# 2. Перейти в исследовательский workspace
cd /path/to/your-research-workspace
# 3. Запустить один интерфейс
autolabos # TUI
autolabos web # Web UIТипичный первый сценарий:
/new
/brief start --latest
/doctorПримечания:
- если
.autolabos/config.yamlотсутствует, оба интерфейса проведут через onboarding - не запускайте AutoLabOS из корня репозитория; используйте отдельный workspace-каталог для исследовательского запуска
- TUI и Web UI используют один и тот же runtime, одни и те же artifacts и те же checkpoints
| Пункт | Когда нужен | Примечания |
|---|---|---|
SEMANTIC_SCHOLAR_API_KEY |
Всегда | Поиск papers и metadata |
OPENAI_API_KEY |
Когда provider = api |
Выполнение через модели OpenAI API |
| Вход в Codex CLI | Когда provider = codex |
Используется локальная сессия Codex |
Brief — это не просто стартовый документ. Это governed contract для run.
/new создаёт или открывает Brief.md. /brief start --latest валидирует его, сохраняет snapshot внутри run и запускает выполнение на основе этого snapshot. Run записывает source path brief, snapshot path и любой распознанный manuscript format. Благодаря этому provenance run остаётся inspectable даже если brief в workspace позже изменится.
Appendix Preferences теперь можно задавать в структуре Prefer appendix for: и Keep in main body:, чтобы намерение appendix routing было явно зафиксировано в brief contract.
Иными словами, brief — это не просто часть prompt. Это часть audit trail.
В текущем контракте .autolabos/config.yaml в основном хранит provider/runtime defaults и workspace policy. Исследовательское намерение для конкретного run, evidence bar, ожидания по baseline, цели manuscript format и путь к manuscript template должны задаваться в Brief. Поэтому сохранённый config может не содержать research defaults и часть полей manuscript-profile / paper-template.
/new
/brief start --latestBrief должен покрывать и исследовательское намерение, и governance-ограничения: topic, objective metric, baseline или comparator, minimum acceptable evidence, disallowed shortcuts и paper ceiling на случай, если evidence останется слабой.
Разделы brief и grading
| Раздел | Статус | Назначение |
|---|---|---|
## Topic |
Обязателен | Определить исследовательский вопрос в 1-3 предложениях |
## Objective Metric |
Обязателен | Главная метрика успеха |
## Constraints |
Рекомендуется | compute budget, ограничения dataset, правила воспроизводимости |
## Plan |
Рекомендуется | Пошаговый экспериментальный план |
## Target Comparison |
Governance | Сравнение с явным baseline |
## Minimum Acceptable Evidence |
Governance | минимальный effect size, fold count, decision boundary |
## Disallowed Shortcuts |
Governance | shortcuts, делающие результат недействительным |
## Paper Ceiling If Evidence Remains Weak |
Governance | максимальная paper-классификация при слабой evidence |
## Manuscript Format |
Необязателен | число колонок, бюджет страниц, правила references / appendix |
| Оценка | Значение | Готово для paper-scale? |
|---|---|---|
complete |
core + 4 и более содержательных governance-раздела | Да |
partial |
core полон + 2 и более governance-раздела | Продолжать с предупреждениями |
minimal |
Только core-разделы | Нет |
AutoLabOS предлагает два фронтенда поверх одного и того же governed runtime.
| TUI | Web UI | |
|---|---|---|
| Запуск | autolabos |
autolabos web |
| Взаимодействие | slash-команды, естественный язык | браузерные dashboard и composer |
| Вид workflow | прогресс node в реальном времени в терминале | governed workflow graph с действиями |
| Artifacts | CLI inspection | inline preview текста, изображений и PDF |
| Операционные поверхности | /watch, /queue, /explore, /doctor |
jobs queue, live watch cards, exploration status, diagnostics |
| Лучше всего подходит для | быстрой итерации и прямого контроля | визуального мониторинга и просмотра artifacts |
Важно то, что обе поверхности видят одни и те же checkpoints, одни и те же runs и одни и те же underlying artifacts.
AutoLabOS спроектирован вокруг governed execution, а не prompt-only orchestration.
| Типичные исследовательские инструменты | AutoLabOS | |
|---|---|---|
| Workflow | открытый дрейф агентов | governed fixed graph с явными review boundaries |
| State | эфемерен | checkpointed, resumable, inspectable |
| Claims | настолько сильные, насколько их напишет модель | ограничены evidence и claim ceiling |
| Review | необязательный cleanup pass | structural gate, способный остановить письмо |
| Failures | забываются и пробуются снова | сохраняются как fingerprint в failure memory |
| Interfaces | отдельные кодовые пути | TUI и Web разделяют один runtime |
Поэтому систему лучше понимать как research infrastructure, а не как paper generator.
Workflow bounded и auditable. Backtracking — часть contract. Результаты, которые не оправдывают движение вперёд, возвращаются к hypotheses, design или implementation, а не превращаются в более сильную prose.
Каждая граница node записывает inspectable и resumable state. Единица прогресса — не только текстовый вывод, а run с artifacts, transitions и recoverable state.
Claims удерживаются ниже strongest defensible evidence ceiling. Система записывает более сильные claims, которые были заблокированы, и evidence gaps, необходимые для их разблокировки.
review — это не косметическая очистка. Это structural gate, где перед генерацией manuscript проверяются readiness, методологическая вменяемость, evidence linkage, writing discipline и reproducibility handoff.
Failure fingerprints сохраняются, чтобы структурные ошибки и повторяющиеся equivalent failures не запускались вслепую снова.
Воспроизводимость обеспечивается через artifacts, checkpoints и inspectable transitions. Даже публичные сводки строятся по persisted run outputs, а не по второй «истине».
AutoLabOS рассматривает validation surfaces как first-class.
/doctorпроверяет environment и workspace readiness перед запуском run
Paper readiness — это не просто впечатление от одного prompt.
- Layer 1 - deterministic minimum gate останавливает under-evidenced work через явные artifact / evidence-integrity checks
- Layer 2 - LLM paper-quality evaluator добавляет структурированную критику methodology, evidence strength, writing structure, claim support и limitations honesty
- Review packet + specialist panel решают, должен ли путь manuscript advance, revise или backtrack
paper_readiness.json может включать overall_score. Его следует читать как внутренний signal качества run, а не как универсальный научный benchmark. Некоторые продвинутые evaluation / self-improvement paths используют его для сравнения runs или кандидатов на prompt mutation.
AutoLabOS включает bounded пути self-improvement, но это не blind autonomous rewriting. Эти пути ограничены validation и rollback.
autolabos meta-harness строит context directory в outputs/meta-harness/<timestamp>/ на основе recent completed runs и истории evaluation.
Он может включать:
- отфильтрованные run events
- node artifacts вроде
result_analysis.jsonилиreview/decision.json paper_readiness.jsonoutputs/eval-harness/history.jsonl- текущие файлы
node-prompts/для целевого node
LLM через TASK.md ограничивается форматом ответа TARGET_FILE + unified diff, а целевая область ограничена node-prompts/. В apply-режиме кандидат должен пройти validation checks; иначе выполняется rollback и пишется audit log. --no-apply только создаёт context. --dry-run показывает diff без изменения файлов.
autolabos evolve запускает bounded mutation-and-evaluation loop поверх .codex и node-prompts.
- поддерживает
--max-cycles,--target skills|prompts|allи--dry-run - читает fitness run из
paper_readiness.overall_score - мутирует prompts и skills, запускает validation и сравнивает fitness между циклами
- при регрессии восстанавливает
.codexиnode-promptsиз последнего good git tag
Это путь self-improvement, но не неограниченная repo-wide rewrite-механика.
AutoLabOS также предоставляет built-in harness presets, такие как base, compact, failure-aware и review-heavy. Они настраивают artifact/context policy, акцент на failure memory, prompt policy и compression strategy для сравнительных evaluation paths, не меняя governed production workflow.
| Команда | Описание |
|---|---|
/new |
Создать или открыть Brief.md |
/brief start <path|--latest> |
Начать исследование из brief |
/runs [query] |
Показать или искать runs |
/resume <run> |
Продолжить run |
/agent run <node> [run] |
Запустить с graph node |
/agent status [run] |
Показать статусы nodes |
/agent overnight [run] |
Выполнить unattended run в консервативных рамках |
/agent autonomous [run] |
Выполнить bounded research exploration |
/watch |
Live watch представление активных runs и background jobs |
/explore |
Показать состояние exploration engine текущего run |
/queue |
Показать jobs running / waiting / stalled |
/doctor |
Diagnostics для environment и workspace |
/model |
Переключить model и reasoning effort |
Полный список команд
| Команда | Описание |
|---|---|
/help |
Показать список команд |
/new |
Создать или открыть Brief.md в workspace |
/brief start <path|--latest> |
Начать исследование из Brief.md workspace или указанного brief |
/doctor |
Diagnostics для environment + workspace |
/runs [query] |
Показать или искать runs |
/run <run> |
Выбрать run |
/resume <run> |
Продолжить run |
/agent list |
Показать graph nodes |
/agent run <node> [run] |
Запустить с node |
/agent status [run] |
Показать статусы nodes |
/agent collect [query] [options] |
Собирать papers |
/agent recollect <n> [run] |
Собрать дополнительные papers |
/agent focus <node> |
Переместить focus через safe jump |
/agent graph [run] |
Показать graph state |
/agent resume [run] [checkpoint] |
Возобновить с checkpoint |
/agent retry [node] [run] |
Повторить node |
/agent jump <node> [run] [--force] |
Перейти к node |
/agent overnight [run] |
Overnight autonomy (24h) |
/agent autonomous [run] |
Open-ended autonomous research |
/model |
Selector model и reasoning |
/approve |
Подтвердить paused node |
/queue |
Показать jobs running / waiting / stalled |
/watch |
Live watch для активных runs |
/explore |
Показать состояние exploration engine |
/retry |
Повторить текущий node |
/settings |
Настройки provider и model |
/quit |
Выйти |
- командам, которым нужна автономность без отказа от governed workflow
- research engineering работе, где checkpoints и artifacts действительно важны
- paper-scale или paper-adjacent проектам, требующим дисциплины evidence
- средам, где review, traceability и resumability важны так же, как generation
- пользователям, которым нужен только быстрый one-shot draft
- workflow, которым не нужен artifact trail или review gate
- проектам, предпочитающим free-form agent behavior вместо governed execution
- случаям, где достаточно простого инструмента для literature summary
AutoLabOS is an active OSS research-engineering project. For deeper details beyond this overview, see the documents under docs.