자율 연구를 위한 운영 체제

연구 생성이 아니라, 자율 연구 실행.
브리프에서 원고까지, 통제되고 체크포인트되며 검토 가능한 연구 실행.

English · 한국어 · 日本語 · 简体中文 · 繁體中文 · Español · Français · Deutsch · Português · Русский

_{다른 언어 README는 이 문서를 기준으로 유지되는 번역본입니다. 규범 문구와 최신 변경 기준은 영어 README를 따릅니다.}

AutoLabOS는 통제된 연구 실행을 위한 운영 체제입니다. 한 번의 실행을 단순 생성 작업이 아니라, 체크포인트 가능한 연구 상태로 다룹니다.

핵심 루프는 처음부터 끝까지 검토 가능합니다. 문헌 수집, 가설 형성, 실험 설계, 실행, 분석, figure audit, 리뷰, 원고 작성이 모두 감사 가능한 아티팩트를 남깁니다. 주장은 claim ceiling 아래에서 evidence-bounded 상태로 유지됩니다. 리뷰는 다듬기 단계가 아니라 구조적 게이트입니다.

품질 가정은 명시적인 검사로 바뀝니다. 프롬프트 수준의 그럴듯함보다 실제 동작이 더 중요합니다. 재현성은 아티팩트, 체크포인트, 검토 가능한 전이로 강제됩니다.

왜 AutoLabOS가 필요한가

많은 연구 에이전트 시스템은 텍스트를 만들어내는 데 최적화되어 있습니다. AutoLabOS는 통제된 연구 과정을 실행하는 데 최적화되어 있습니다.

이 차이는, 그럴듯한 초안 이상이 필요한 프로젝트에서 중요합니다.

실행 계약으로 작동하는 research brief
자유 표류 대신 명시적인 워크플로 게이트
사후 검토 가능한 체크포인트와 아티팩트
원고 생성 전에 약한 작업을 멈출 수 있는 리뷰
같은 실패한 실험을 맹목적으로 반복하지 않게 하는 failure memory
데이터보다 강한 prose가 아니라 evidence-bounded claims

AutoLabOS는 자율성을 원하지만, 감사 가능성이나 백트래킹, validation을 포기하고 싶지 않은 팀을 위한 도구입니다.

한 번의 run에서 무슨 일이 일어나는가

한 번의 governed run은 항상 같은 연구 흐름을 따릅니다.

Brief.md → literature → hypothesis → experiment design → implementation → execution → analysis → figure audit → review → manuscript

실제로는 다음과 같습니다.

/new가 research brief를 만들거나 엽니다.
/brief start --latest가 brief를 검증하고, run에 snapshot한 뒤, governed run을 시작합니다.
시스템은 고정된 연구 workflow를 따라가며 각 경계마다 상태와 아티팩트를 checkpoint합니다.
증거가 약하면 자동으로 문장을 다듬는 대신 backtracking 또는 downgrade를 선택합니다.
review gate를 통과하면 write_paper가 bounded evidence를 바탕으로 원고를 작성합니다.

역사적인 9-node 계약은 여전히 아키텍처의 기준선입니다. 현재 런타임에서는 analyze_results와 review 사이에 figure_audit가 승인된 추가 체크포인트로 들어가 있으며, 그림 품질 비평을 독립적으로 checkpoint하고 resume할 수 있게 합니다.

stateDiagram-v2
    [*] --> collect_papers
    collect_papers --> analyze_papers: complete
    analyze_papers --> generate_hypotheses: complete
    generate_hypotheses --> design_experiments: complete
    design_experiments --> implement_experiments: complete
    implement_experiments --> run_experiments: auto_handoff or complete
    run_experiments --> analyze_results: complete
    analyze_results --> figure_audit: auto_advance
    analyze_results --> implement_experiments: auto_backtrack_to_implement
    analyze_results --> design_experiments: auto_backtrack_to_design
    analyze_results --> generate_hypotheses: auto_backtrack_to_hypotheses
    figure_audit --> review: auto_advance
    review --> write_paper: auto_advance
    review --> implement_experiments: auto_backtrack_to_implement
    review --> design_experiments: auto_backtrack_to_design
    review --> generate_hypotheses: auto_backtrack_to_hypotheses
    write_paper --> [*]: auto_complete

이 흐름 안의 모든 자동화는 bounded node-internal loop 안에서만 실행됩니다. 무인 모드에서도 workflow 자체는 governed 상태를 유지합니다.

실행 후 얻게 되는 것

AutoLabOS는 PDF만 내놓지 않습니다. 추적 가능한 연구 상태를 남깁니다.

산출물	포함 내용
문헌 코퍼스	수집된 논문, BibTeX, 추출된 evidence store
가설	문헌에 근거한 가설과 회의적 검토
실험 계획	계약, baseline lock, 일관성 검사가 포함된 governed design
실행 결과	metrics, objective evaluation, failure memory log
결과 분석	통계 분석, 시도별 결정, 전이 추론
Figure audit	figure lint, caption/reference consistency, 선택적 vision critique 요약
Review packet	5인 specialist panel scorecard, claim ceiling, 초안 전 critique
원고	evidence links, scientific validation, 선택적 PDF가 포함된 LaTeX 초안
체크포인트	모든 노드 경계에서의 전체 상태 스냅샷, 언제든 resume 가능

모든 것은 .autolabos/runs/<run_id>/ 아래에 저장되며, public-facing output은 outputs/로 미러링됩니다.

이것이 재현성 모델입니다. 숨겨진 상태가 아니라, 아티팩트와 체크포인트, 검토 가능한 전이로 추적합니다.

빠른 시작

# 1. 설치 및 빌드
npm install
npm run build
npm link

# 2. 연구 워크스페이스로 이동
cd /path/to/your-research-workspace

# 3. 인터페이스 하나 실행
autolabos        # TUI
autolabos web    # Web UI

처음 쓸 때 자주 쓰는 흐름:

/new
/brief start --latest
/doctor

참고:

.autolabos/config.yaml이 없으면 두 UI 모두 온보딩을 안내합니다.
TUI와 Web UI는 같은 runtime, 같은 artifacts, 같은 checkpoints를 공유합니다.

사전 준비

항목	필요한 경우	비고
`SEMANTIC_SCHOLAR_API_KEY`	항상	논문 탐색 및 메타데이터 수집
`OPENAI_API_KEY`	provider가 `api`일 때	OpenAI API 모델 실행
Codex CLI 로그인	provider가 `codex`일 때	로컬 Codex 세션 사용

Research Brief 시스템

Brief는 단순한 시작 문서가 아닙니다. 한 run의 governed contract입니다.

/new는 Brief.md를 만들거나 엽니다. /brief start --latest는 이를 검증하고, run 안에 snapshot한 뒤, 그 snapshot을 기준으로 실행을 시작합니다. run은 brief source path, snapshot path, 그리고 파싱된 manuscript format이 있으면 그것까지 함께 기록합니다. 그래서 workspace의 brief가 나중에 바뀌더라도, 해당 run의 provenance는 계속 inspectable합니다. Appendix Preferences는 이제 Prefer appendix for:와 Keep in main body: 구조를 쓸 수 있어서, appendix routing 의도가 brief 계약 안에서 더 명시적으로 표현됩니다.

즉, brief는 prompt 일부가 아니라 audit trail의 일부입니다.

현재 계약에서 .autolabos/config.yaml은 주로 provider/runtime 기본값과 workspace 정책을 담습니다. run별 연구 의도, evidence 기준, baseline 기대치, manuscript format 목표는 Brief에 두는 것이 원칙입니다. 그래서 persisted config에서는 research 기본값이나 일부 manuscript-profile 필드가 생략될 수 있습니다.

/new
/brief start --latest

Brief에는 연구 의도와 거버넌스 제약이 함께 들어가야 합니다. topic, objective metric, baseline 또는 comparator, minimum acceptable evidence, disallowed shortcuts, evidence가 약할 때의 paper ceiling이 여기에 포함됩니다.

Brief 섹션과 grading

섹션	상태	목적
`## Topic`	필수	연구 질문을 1-3문장으로 정의
`## Objective Metric`	필수	핵심 성공 지표
`## Constraints`	권장	compute budget, dataset 제한, reproducibility 규칙
`## Plan`	권장	단계별 실험 계획
`## Target Comparison`	Governance	제안 방법과 명시적 baseline 비교
`## Minimum Acceptable Evidence`	Governance	최소 effect size, fold count, decision boundary
`## Disallowed Shortcuts`	Governance	결과를 무효화하는 지름길
`## Paper Ceiling If Evidence Remains Weak`	Governance	evidence가 약할 때 허용되는 최대 논문 분류
`## Manuscript Format`	선택	컬럼 수, 페이지 예산, 참고문헌/부록 규칙

등급	의미	paper-scale ready 여부
`complete`	core + 실질적인 governance 섹션 4개 이상	예
`partial`	core 완성 + governance 2개 이상	경고와 함께 진행
`minimal`	core 섹션만 존재	아니오

두 개의 인터페이스, 하나의 런타임

AutoLabOS는 같은 governed runtime 위에 두 개의 front end를 제공합니다.

	TUI	Web UI
실행	`autolabos`	`autolabos web`
상호작용	슬래시 명령, 자연어	브라우저 대시보드와 composer
워크플로 뷰	터미널에서 실시간 노드 진행	액션이 있는 governed workflow graph
아티팩트	CLI inspection	텍스트, 이미지, PDF inline preview
운영 surface	`/watch`, `/queue`, `/explore`, `/doctor`	jobs queue, live watch card, exploration status, diagnostics
적합한 용도	빠른 반복과 직접 제어	시각적 모니터링과 artifact 탐색

중요한 점은 두 표면이 같은 checkpoint, 같은 run, 같은 underlying artifact를 본다는 것입니다.

AutoLabOS를 다르게 만드는 점

AutoLabOS는 prompt-only orchestration이 아니라 governed execution을 중심에 둡니다.

	일반적인 연구 도구	AutoLabOS
워크플로	열린 에이전트 표류	명시적 review boundary가 있는 governed fixed graph
상태	일시적	checkpointed, resumable, inspectable
주장	모델이 생성하는 만큼 강해짐	evidence와 claim ceiling에 의해 제한
리뷰	선택적 cleanup pass	집필을 막을 수 있는 structural gate
실패	잊히고 재시도됨	failure memory에 fingerprint로 기록
인터페이스	각기 다른 코드 경로	TUI와 Web이 하나의 runtime 공유

그래서 이 시스템은 논문 생성기보다는 연구 인프라에 가깝게 읽혀야 합니다.

핵심 보장

Governed Workflow

워크플로는 bounded되고 auditable합니다. Backtracking은 계약의 일부입니다. 앞으로 갈 근거가 부족한 결과는 문장을 다듬는 대신 hypothesis, design, implement 단계로 되돌아갑니다.

Checkpointed Research State

모든 노드 경계는 inspectable하고 resume 가능한 상태를 기록합니다. 진척의 단위는 텍스트 출력만이 아니라, 아티팩트와 전이, 복구 가능한 상태를 가진 run입니다.

Claim Ceiling

주장은 strongest defensible evidence ceiling 아래에서 유지됩니다. 시스템은 차단된 더 강한 주장과, 그것을 풀기 위해 필요한 evidence gap을 함께 기록합니다.

Review As A Structural Gate

review는 cosmetic cleanup 단계가 아닙니다. readiness, 방법론 sanity, evidence linkage, writing discipline, reproducibility handoff를 manuscript generation 전에 점검하는 구조적 게이트입니다.

Failure Memory

failure fingerprint는 persisted되어, 구조적 오류나 반복되는 equivalent failure가 맹목적으로 재시도되지 않게 합니다.

Reproducibility Through Artifacts

재현성은 artifacts, checkpoints, inspectable transitions로 강제됩니다. public-facing summary도 persisted run output을 기반으로 하며, 별도의 두 번째 truth source를 만들지 않습니다.

Validation과 Harness 중심의 품질 모델

AutoLabOS는 validation surface를 first-class로 다룹니다.

/doctor는 run 시작 전에 환경과 workspace readiness를 검사합니다.

논문 준비도는 단일한 프롬프트 감상이 아닙니다.

Layer 1 - deterministic minimum gate는 명시적인 artifact 및 evidence-integrity 검사로 under-evidenced work를 차단합니다.
Layer 2 - LLM paper-quality evaluator는 방법론, evidence strength, writing structure, claim support, limitations honesty를 구조적으로 비평합니다.
Review packet + specialist panel은 원고 경로가 advance, revise, backtrack 중 무엇을 택해야 하는지 결정합니다.

paper_readiness.json에는 overall_score가 들어갈 수 있습니다. 이 값은 시스템 내부의 run-quality signal로 읽어야 하며, 보편적인 scientific benchmark처럼 보면 안 됩니다. 일부 고급 evaluation / self-improvement 흐름은 이 점수를 run이나 prompt mutation 후보를 비교하는 데 사용합니다.

고급 Self-Improvement 기능

AutoLabOS에는 bounded self-improvement path가 있지만, 이는 blind autonomous rewriting이 아니라 validation과 rollback에 의해 제어됩니다.

`autolabos meta-harness`

autolabos meta-harness는 최근 completed run과 evaluation history를 바탕으로 outputs/meta-harness/<timestamp>/ 아래 context directory를 만듭니다.

여기에는 다음이 들어갈 수 있습니다.

필터링된 run events
result_analysis.json, review/decision.json 같은 node artifacts
paper_readiness.json
outputs/eval-harness/history.jsonl
대상 노드에 대한 현재 node-prompts/ 파일

LLM은 TASK.md를 통해 TARGET_FILE + unified diff 형식만 반환하도록 제한되며, target은 node-prompts/ 안으로 제한됩니다. apply mode에서는 후보가 validation checks를 통과해야 하고, 실패하면 rollback되며 audit log가 남습니다. --no-apply는 context만 생성하고, --dry-run은 파일을 바꾸지 않고 diff만 보여줍니다.

`autolabos evolve`

autolabos evolve는 .codex와 node-prompts를 대상으로 bounded mutation-and-evaluation loop를 수행합니다.

--max-cycles, --target skills|prompts|all, --dry-run 지원
run fitness는 paper_readiness.overall_score에서 읽음
prompt와 skill을 변이하고, validation을 실행하며, cycle 간 fitness를 비교
regression이 나면 마지막 good git tag 기준으로 .codex와 node-prompts를 복원

이것은 self-improvement path이지만, 통제되지 않은 repo-wide rewrite 경로는 아닙니다.

Harness Preset Layer

AutoLabOS에는 base, compact, failure-aware, review-heavy 같은 built-in harness preset도 있습니다. 이들은 artifact/context policy, failure-memory 강조, prompt policy, compression 전략을 조절해 비교 평가를 돕지만, governed production workflow 자체를 바꾸지는 않습니다.

주요 명령

명령	설명
`/new`	`Brief.md` 생성 또는 열기
`/brief start <path\|--latest>`	brief에서 연구 시작
`/runs [query]`	run 목록 조회 또는 검색
`/resume <run>`	run 재개
`/agent run <node> [run]`	그래프 노드부터 실행
`/agent status [run]`	노드 상태 표시
`/agent overnight [run]`	보수적인 bound를 가진 무인 실행
`/agent autonomous [run]`	bounded research exploration 실행
`/watch`	활성 run과 background job의 live watch 뷰
`/explore`	현재 run의 exploration-engine 상태 표시
`/queue`	running, waiting, stalled job 표시
`/doctor`	환경과 workspace diagnostics
`/model`	모델과 reasoning effort 전환

전체 명령 목록

명령	설명
`/help`	명령 목록 표시
`/new`	workspace `Brief.md` 생성 또는 열기
`/brief start <path\|--latest>`	workspace `Brief.md` 또는 지정 brief에서 연구 시작
`/doctor`	환경 + workspace diagnostics
`/runs [query]`	run 목록 조회 또는 검색
`/run <run>`	run 선택
`/resume <run>`	run 재개
`/agent list`	그래프 노드 목록
`/agent run <node> [run]`	노드부터 실행
`/agent status [run]`	노드 상태 표시
`/agent collect [query] [options]`	논문 수집
`/agent recollect <n> [run]`	추가 논문 수집
`/agent focus <node>`	안전 점프로 focus 이동
`/agent graph [run]`	그래프 상태 표시
`/agent resume [run] [checkpoint]`	checkpoint에서 재개
`/agent retry [node] [run]`	노드 재시도
`/agent jump <node> [run] [--force]`	노드 점프
`/agent overnight [run]`	overnight autonomy (24h)
`/agent autonomous [run]`	open-ended autonomous research
`/model`	모델 및 reasoning selector
`/approve`	일시정지된 노드 승인
`/queue`	running / waiting / stalled job 표시
`/watch`	active run live watch 뷰
`/explore`	exploration-engine 상태 표시
`/retry`	현재 노드 재시도
`/settings`	provider 및 모델 설정
`/quit`	종료

누구에게 맞고 / 맞지 않는가

잘 맞는 경우

자율성을 원하지만 governed workflow도 필요한 팀
checkpoint와 artifact가 중요한 research engineering 작업
evidence discipline이 필요한 paper-scale 또는 paper-adjacent 프로젝트
generation만큼 review, traceability, resumability가 중요한 환경

잘 맞지 않는 경우

빠른 one-shot draft만 필요한 사용자
artifact trail이나 review gate가 필요 없는 workflow
governed execution보다 free-form agent behavior를 더 원하는 프로젝트
단순 문헌 요약 도구만으로 충분한 경우

상태

AutoLabOS는 활발히 개발 중인 OSS research-engineering 프로젝트입니다. 자세한 내용은 docs 디렉토리의 문서를 참고하면 됩니다.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

자율 연구를 위한 운영 체제

왜 AutoLabOS가 필요한가

한 번의 run에서 무슨 일이 일어나는가

실행 후 얻게 되는 것

빠른 시작

사전 준비

Research Brief 시스템

두 개의 인터페이스, 하나의 런타임

AutoLabOS를 다르게 만드는 점

핵심 보장

Governed Workflow

Checkpointed Research State

Claim Ceiling

Review As A Structural Gate

Failure Memory

Reproducibility Through Artifacts

Validation과 Harness 중심의 품질 모델

고급 Self-Improvement 기능

`autolabos meta-harness`

`autolabos evolve`

Harness Preset Layer

주요 명령

누구에게 맞고 / 맞지 않는가

잘 맞는 경우

잘 맞지 않는 경우

상태

FilesExpand file tree

README.ko.md

Latest commit

History

README.ko.md

File metadata and controls

자율 연구를 위한 운영 체제

왜 AutoLabOS가 필요한가

한 번의 run에서 무슨 일이 일어나는가

실행 후 얻게 되는 것

빠른 시작

사전 준비

Research Brief 시스템

두 개의 인터페이스, 하나의 런타임

AutoLabOS를 다르게 만드는 점

핵심 보장

Governed Workflow

Checkpointed Research State

Claim Ceiling

Review As A Structural Gate

Failure Memory

Reproducibility Through Artifacts

Validation과 Harness 중심의 품질 모델

고급 Self-Improvement 기능

autolabos meta-harness

autolabos evolve

Harness Preset Layer

주요 명령

누구에게 맞고 / 맞지 않는가

잘 맞는 경우

잘 맞지 않는 경우

상태

`autolabos meta-harness`

`autolabos evolve`