Compare commits

..

2 Commits

Author SHA1 Message Date
claude code agent 227
34995ca85c fix(ai-mcp): address PR #208 review for inline Test button (#170)
- CHANGELOG: add an [Unreleased]/Added bullet for the per-row "Test" button
  (idle Test -> OK · N / Failed, tooltip, isolated per-row state).
- ai-mcp-server-row: show a red "Failed" when the request itself rejects
  (401/403/500/network), reading testMutation.isError — previously only a
  server-reported {ok:false} was surfaced and a real reject silently reverted
  to "Test". Tooltip uses error.response?.data?.message or the i18n fallback.
- ai-mcp-server-row: clarify the reset-effect comment (hasHeaders is a
  presence flag, so value-only token rotation is intentionally not reset).
- ai-mcp-server-row: drop the redundant disabled={isPending} (Mantine already
  disables a loading button).
- ru-RU: add the "No tools available" translation.
- tests: cover the request-reject failure, the empty tool list (OK · 0), and
  the reset-on-change effect (url / transport / hasHeaders) via rerender.

Note: kept the `"error" in result` guard instead of the suggested bare
`else if (result)` — optional chaining on `result?.ok` doesn't narrow the
discriminated union in the else branch, so the bare form fails tsc.

Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
2026-06-26 17:22:31 +03:00
claude code agent 227
c28d8cc648 feat(ai-chat): inline Test button per external MCP server row (#170)
Add a per-row "Test" button to the external MCP servers list so admins can
check a server's connection straight from the list, without opening the edit
modal.

- Extract each list row into its own AiMcpServerRow component, each owning a
  dedicated useTestAiMcpServerMutation instance. This isolates loading/result
  state per row — a single list-level mutation would make every row's spinner
  and colour jump on any test.
- Button reflects the outcome with both colour AND label (a11y / colour-blind
  safe): idle "Test", loading, green "OK · {n}" (tool count), red "Failed".
  Fixed miw so the row does not jump as the label changes. A tooltip surfaces
  the tools list (success) or the sanitized error (failure).
- Reset the mutation when url/transport/hasHeaders change so a stale result
  does not stick on the non-remounting (keyed-by-id) row.
- Reuse the existing /workspace/ai-mcp-servers/test endpoint and mutation;
  backend/service/query unchanged.
- i18n: add "Failed" and "OK · {{count}}" (en + ru); add the missing "Test"
  key to ru-RU.
- Add a vitest suite covering idle/success/failure states and per-row
  isolation.

Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
2026-06-26 05:57:20 +03:00
22 changed files with 2483 additions and 370 deletions

View File

@@ -12,6 +12,13 @@ and this project adheres to [Semantic Versioning](https://semver.org/spec/v2.0.0
### Added
- **Inline "Test" button per external MCP server.** Each server row in admin AI
settings now has its own "Test" button that runs an isolated connection check:
idle `Test` → green `OK · N` (with a tooltip listing the discovered tools, or
"No tools available") on success, or red `Failed` (tooltip with the sanitized
error) on a connection problem. State is per-row, so testing one server never
spins or recolours the others. (#170)
- **Persistent AI-chat history as the source of truth + server-side export.**
An assistant turn is now persisted to the database step by step: the row is
inserted upfront as `streaming` and updated as each agent step finishes, then

View File

@@ -114,7 +114,7 @@ community feature, with no enterprise license. Open it from the page header; the
- 🔭 **Viewer comments** — let read-only viewers leave comments.
- 🔭 **Password-protected pages** — protect individual pages / shares with a password.
- 🔭 **Windows / Linux app** — native desktop app for Windows and Linux.
- 🔭 **Mobile app** — mobile apps (iOS first, Android to follow), reusing the existing responsive web UI and editor via a Capacitor wrapper, with offline planned for later. See [issue #195](https://gitea.vvzvlad.xyz/vvzvlad/gitmost/issues/195).
- 🔭 **Mobile app** — mobile apps (iOS first, Android to follow), reusing the existing responsive web UI and editor via a Capacitor wrapper, with offline planned for later. See [docs/mobile-app-plan.md](docs/mobile-app-plan.md).
- 🔭 **Offline mode** — offline sync & PWA support.
- 🔭 **Editor & UX improvements** — blocks inside tables (lists, to-do items), column layout, additional heading levels, highlight blocks, custom emoji in callouts, floating images, anchor links for page mentions, toggles (shared-page width, aside/sidebar, spellcheck, ligatures), sanitized space-tree export, and mentions in breadcrumbs.

View File

@@ -115,7 +115,7 @@ real-time-коллаборации Docmost, поэтому запись нико
- 🔭 **Комментарии зрителей** — возможность комментировать для пользователей с доступом только на чтение.
- 🔭 **Защищённые паролем страницы** — защита отдельных страниц / шар паролем.
- 🔭 **Приложение для Windows / Linux** — нативное десктоп-приложение для Windows и Linux.
- 🔭 **Мобильное приложение** — мобильные приложения (iOS обязательно, Android как пойдёт) на базе существующей адаптивной веб-версии и редактора через обёртку Capacitor; оффлайн запланирован на будущее. См. [issue #195](https://gitea.vvzvlad.xyz/vvzvlad/gitmost/issues/195).
- 🔭 **Мобильное приложение** — мобильные приложения (iOS обязательно, Android как пойдёт) на базе существующей адаптивной веб-версии и редактора через обёртку Capacitor; оффлайн запланирован на будущее. См. [docs/mobile-app-plan.md](docs/mobile-app-plan.md).
- 🔭 **Офлайн-режим** — офлайн-синхронизация и поддержка PWA.
- 🔭 **Улучшения редактора и UX** — блоки внутри таблиц (списки, чек-листы), колоночная вёрстка, дополнительные уровни заголовков, highlight-блоки, кастомные эмодзи в callout-ах, плавающие изображения, anchor-ссылки на упоминания страниц, тоглы (ширина шары, aside/сайдбар, spellcheck, лигатуры), санитизация экспорта дерева спейса и mentions в хлебных крошках.

View File

@@ -713,6 +713,8 @@
"Optional. Leave empty to allow all tools the server exposes.": "Optional. Leave empty to allow all tools the server exposes.",
"Optional guidance for the agent on how and when to use this server's tools. Injected into the system prompt. The server's tools are namespaced as \"<server name>_*\".": "Optional guidance for the agent on how and when to use this server's tools. Injected into the system prompt. The server's tools are namespaced as \"<server name>_*\".",
"Test": "Test",
"Failed": "Failed",
"OK · {{count}}": "OK · {{count}}",
"Available tools": "Available tools",
"No tools available": "No tools available",
"Created successfully": "Created successfully",
@@ -1175,8 +1177,6 @@
"{{name}} is typing…": "{{name}} is typing…",
"Send": "Send",
"Send when the agent finishes": "Send when the agent finishes",
"Send now": "Send now",
"Interrupt and send now": "Interrupt and send now",
"Queue message": "Queue message",
"Remove queued message": "Remove queued message",
"Stop": "Stop",

View File

@@ -715,8 +715,6 @@
"No chats yet.": "Чатов пока нет.",
"Send": "Отправить",
"Send when the agent finishes": "Отправить, когда агент закончит",
"Send now": "Отправить сейчас",
"Interrupt and send now": "Прервать и отправить сейчас",
"Queue message": "Поставить в очередь",
"Remove queued message": "Убрать из очереди",
"Something went wrong": "Что-то пошло не так",
@@ -1171,5 +1169,9 @@
"Protocol": "Протокол",
"How chat requests are sent and how reasoning is surfaced": "Как отправляются запросы чата и как показывается reasoning",
"OpenAI-compatible (surfaces reasoning)": "OpenAI-совместимый (показывает reasoning)",
"OpenAI (official)": "OpenAI (официальный)"
"OpenAI (official)": "OpenAI (официальный)",
"Test": "Тест",
"Failed": "Ошибка",
"OK · {{count}}": "OK · {{count}}",
"No tools available": "Нет доступных инструментов"
}

View File

@@ -1,11 +1,7 @@
import { useCallback, useEffect, useMemo, useRef, useState } from "react";
import { generateId } from "ai";
import { ActionIcon, Box, Group, Stack, Text, Tooltip } from "@mantine/core";
import {
IconClockHour4,
IconPlayerPlayFilled,
IconX,
} from "@tabler/icons-react";
import { ActionIcon, Box, Group, Stack, Text } from "@mantine/core";
import { IconClockHour4, IconX } from "@tabler/icons-react";
import { useTranslation } from "react-i18next";
import { useChat, type UIMessage } from "@ai-sdk/react";
import { DefaultChatTransport } from "ai";
@@ -28,7 +24,6 @@ import { liveTurnTokens } from "@/features/ai-chat/utils/count-stream-tokens.ts"
import {
dequeue,
enqueueMessage,
promoteToHead,
removeQueuedById,
type QueuedMessage,
} from "@/features/ai-chat/utils/queue-helpers.ts";
@@ -182,12 +177,9 @@ export default function ChatThread({
// LOCAL state so it is scoped to this conversation: it is cleared when the user
// deliberately switches chat / starts a new chat (the parent remounts this via
// `key`), but it SURVIVES in-place new-chat id adoption (no remount), so a
// message queued during a brand-new chat's first turn is not lost. On a normal
// Stop / disconnect / error the queue is intentionally preserved (onFinish still
// fires on every terminal outcome, but only a CLEAN finish flushes it) so the
// user decides what to do with the pending messages. The one exception is a
// deliberate "Send now", which also calls stop() and then flushes the promoted
// head via the abort branch of onFinish (see sendNow / onFinish below).
// message queued during a brand-new chat's first turn is not lost. On Stop or
// error the queue is intentionally preserved (onFinish does not fire then) so
// the user decides what to do with the pending messages.
const [queued, setQueued] = useState<QueuedMessage[]>([]);
// Mirror the queue in a ref so the `onFinish` flush always reads the latest
// queue without a stale closure; `setQueue` updates BOTH the ref and the state.
@@ -201,14 +193,6 @@ export default function ChatThread({
// helper can call the current instance from the stable `onFinish` callback.
const sendMessageRef = useRef<((m: { text: string }) => void) | null>(null);
// Set by "Send now" so the abort WE trigger flushes the promoted head (the
// normal abort path keeps the queue intact instead).
const flushOnAbortRef = useRef(false);
// Tags the very next send as an intentional user interrupt, so the server can
// note in the agent's context that the previous turn was cut short. One-shot:
// read-and-cleared by prepareSendMessagesRequest.
const interruptNextSendRef = useRef(false);
// FIFO dequeue + send the next queued message (no-op when the queue is empty).
const flushNext = useCallback(() => {
const { head, rest } = dequeue(queuedRef.current);
@@ -240,24 +224,17 @@ export default function ChatThread({
// when null) and tell the agent which page "this page" refers to. Both
// are read live from refs so changing chats/pages does NOT recreate the
// transport. `openPage` is null on a non-page route.
prepareSendMessagesRequest: ({ messages, body }) => {
// One-shot interrupt flag: consumed here so only the send triggered by
// "Send now" carries it; every normal send leaves it false.
const interrupted = interruptNextSendRef.current;
interruptNextSendRef.current = false;
return {
body: {
...body,
chatId: chatIdRef.current,
openPage: openPageRef.current,
// Honoured by the server only when creating a new chat; null =>
// universal assistant.
roleId: roleIdRef.current,
interrupted,
messages,
},
};
},
prepareSendMessagesRequest: ({ messages, body }) => ({
body: {
...body,
chatId: chatIdRef.current,
openPage: openPageRef.current,
// Honoured by the server only when creating a new chat; null =>
// universal assistant.
roleId: roleIdRef.current,
messages,
},
}),
}),
[],
);
@@ -282,16 +259,6 @@ export default function ChatThread({
// message metadata) so the parent adopts the REAL created chat id for a new
// chat — see adopt-chat-id.ts for the full #137 design.
onTurnFinished(extractServerChatId(message));
// Read-and-clear: only the immediately-following terminal outcome may consume it.
const intentionalInterrupt = flushOnAbortRef.current;
flushOnAbortRef.current = false;
if (intentionalInterrupt && isAbort) {
// "Send now": flush the promoted head even though the turn was aborted, and
// suppress the neutral "stopped" marker (this was a deliberate interrupt).
setStopNotice(null);
flushNext();
return;
}
// Show a neutral "stopped" marker for an aborted turn; the red error banner
// (via `error`) already covers isError, and a clean finish clears any marker.
if (isError) setStopNotice(null);
@@ -350,58 +317,9 @@ export default function ChatThread({
const isStreaming = status === "submitted" || status === "streaming";
// Mirror the live `status` in a ref (updated every render) so event handlers
// fired from a stale render — notably `sendNow` clicked in the sub-frame window
// after a turn finished but before the re-render — branch on the CURRENT status,
// not the value captured in their closure. Prevents arming the interrupt/flush
// refs when nothing is actually streaming (see sendNow).
const statusRef = useRef(status);
statusRef.current = status;
// "Send now" on a queued message: interrupt the current turn and immediately
// send THIS message. Any other queued messages stay queued and flush normally
// after the new turn finishes.
const sendNow = useCallback(
(id: string) => {
// Branch on the LIVE status (statusRef), not the closure-captured
// `isStreaming`: if the turn finished between this render and the click,
// treat it as not-streaming and send immediately, instead of arming a
// flush/interrupt that no abort will ever consume (the stop() below would be
// a no-op and the flags would leak into a later turn).
const liveStatus = statusRef.current;
const liveStreaming =
liveStatus === "submitted" || liveStatus === "streaming";
if (liveStreaming) {
// Promote the chosen message to the head so the existing onFinish→flushNext
// sends exactly it, then interrupt: the abort triggers onFinish below.
setQueue(promoteToHead(queuedRef.current, id));
flushOnAbortRef.current = true;
interruptNextSendRef.current = true;
stop();
} else {
// Not streaming: nothing to interrupt — just send it now (no interrupt note).
const msg = queuedRef.current.find((m) => m.id === id);
if (!msg) return;
setQueue(removeQueuedById(queuedRef.current, id));
sendMessageRef.current?.({ text: msg.text });
}
},
[setQueue, stop],
);
// Clear the stopped marker as soon as a new turn begins streaming, and drop any
// stale "Send now" interrupt flags. In the legit interrupt path both refs are
// already consumed synchronously (onFinish + prepareSendMessagesRequest) before
// this effect runs, so clearing here is a no-op for it; its purpose is to defuse
// the race where a flag was armed but the expected abort never fired (the turn
// finished cleanly in the same tick as the click), so it cannot leak into an
// unrelated later turn.
// Clear the stopped marker as soon as a new turn begins streaming.
useEffect(() => {
if (isStreaming) {
setStopNotice(null);
flushOnAbortRef.current = false;
interruptNextSendRef.current = false;
}
if (isStreaming) setStopNotice(null);
}, [isStreaming]);
// Classify the turn error into a heading + detail so the banner names the cause
@@ -540,17 +458,6 @@ export default function ChatThread({
<Text size="xs" lineClamp={2} className={classes.queuedText}>
{m.text}
</Text>
<Tooltip label={t("Interrupt and send now")} withArrow>
<ActionIcon
size="xs"
variant="subtle"
color="blue"
onClick={() => sendNow(m.id)}
aria-label={t("Send now")}
>
<IconPlayerPlayFilled size={12} />
</ActionIcon>
</Tooltip>
<ActionIcon
size="xs"
variant="subtle"

View File

@@ -3,7 +3,6 @@ import {
enqueueMessage,
dequeue,
removeQueuedById,
promoteToHead,
type QueuedMessage,
} from "./queue-helpers";
@@ -90,47 +89,6 @@ describe("removeQueuedById", () => {
});
});
describe("promoteToHead", () => {
it("moves a middle item to the front and preserves the order of the rest", () => {
const queue: QueuedMessage[] = [
{ id: "a", text: "first" },
{ id: "b", text: "second" },
{ id: "c", text: "third" },
];
const next = promoteToHead(queue, "b");
expect(next).toEqual([
{ id: "b", text: "second" },
{ id: "a", text: "first" },
{ id: "c", text: "third" },
]);
});
it("returns an equivalent array when the id is absent", () => {
const queue: QueuedMessage[] = [
{ id: "a", text: "first" },
{ id: "b", text: "second" },
];
expect(promoteToHead(queue, "missing")).toEqual([
{ id: "a", text: "first" },
{ id: "b", text: "second" },
]);
});
it("does not mutate the input queue", () => {
const queue: QueuedMessage[] = [
{ id: "a", text: "first" },
{ id: "b", text: "second" },
{ id: "c", text: "third" },
];
promoteToHead(queue, "c");
expect(queue).toEqual([
{ id: "a", text: "first" },
{ id: "b", text: "second" },
{ id: "c", text: "third" },
]);
});
});
describe("FIFO order", () => {
it("preserves order across enqueue -> dequeue", () => {
let queue: QueuedMessage[] = [];

View File

@@ -32,14 +32,3 @@ export function removeQueuedById(
): QueuedMessage[] {
return queue.filter((m) => m.id !== id);
}
/** Move the queued message with the given id to the FRONT (returns a new array).
* Returns the input array unchanged (by identity) when the id is absent. Pure. */
export function promoteToHead(
queue: QueuedMessage[],
id: string,
): QueuedMessage[] {
const target = queue.find((m) => m.id === id);
if (!target) return queue;
return [target, ...queue.filter((m) => m.id !== id)];
}

View File

@@ -0,0 +1,204 @@
import { describe, it, expect, vi, beforeEach } from "vitest";
import { render, screen, fireEvent, waitFor, within } from "@testing-library/react";
import { MantineProvider } from "@mantine/core";
import { QueryClient, QueryClientProvider } from "@tanstack/react-query";
import { IAiMcpServer } from "@/features/workspace/services/ai-mcp-server-service.ts";
// matchMedia (read by MantineProvider) is stubbed globally in vitest.setup.ts.
// Stub react-i18next so `t` returns the key with `{{count}}` interpolated. This
// keeps assertions on the row's OWN label logic, mirroring the t-mock pattern
// used by other component tests in the repo.
vi.mock("react-i18next", () => ({
useTranslation: () => ({
t: (key: string, opts?: { count?: number }) =>
opts && typeof opts.count === "number"
? key.replace("{{count}}", String(opts.count))
: key,
}),
}));
// Mock only the network call. The REAL useTestAiMcpServerMutation runs on a real
// QueryClient so each row gets a genuinely independent mutation instance — this
// is exactly the isolation the feature relies on (#170).
const testAiMcpServer = vi.fn();
vi.mock("@/features/workspace/services/ai-mcp-server-service.ts", () => ({
testAiMcpServer: (id: string) => testAiMcpServer(id),
}));
import AiMcpServerRow from "./ai-mcp-server-row.tsx";
const baseServer = (over?: Partial<IAiMcpServer>): IAiMcpServer => ({
id: "srv-1",
name: "Search",
transport: "http",
url: "https://example.com/mcp",
enabled: true,
toolAllowlist: null,
hasHeaders: false,
instructions: null,
...over,
});
function tree(server: IAiMcpServer, testid: string) {
return (
<div data-testid={testid}>
<AiMcpServerRow
server={server}
onEdit={vi.fn()}
onDelete={vi.fn()}
onToggleEnabled={vi.fn()}
/>
</div>
);
}
function renderRow(server: IAiMcpServer, testid: string) {
const client = new QueryClient({
defaultOptions: { mutations: { retry: false }, queries: { retry: false } },
});
const utils = render(
<QueryClientProvider client={client}>
<MantineProvider>{tree(server, testid)}</MantineProvider>
</QueryClientProvider>,
);
// A rerender helper that swaps only the server prop (same QueryClient, so the
// row keeps its mutation state and the reset-on-change effect is exercised).
const rerenderWith = (next: IAiMcpServer) =>
utils.rerender(
<QueryClientProvider client={client}>
<MantineProvider>{tree(next, testid)}</MantineProvider>
</QueryClientProvider>,
);
return { ...utils, rerenderWith };
}
describe("AiMcpServerRow — inline Test button", () => {
beforeEach(() => {
testAiMcpServer.mockReset();
});
it("starts in the idle state with a plain 'Test' label", () => {
renderRow(baseServer(), "row");
const row = screen.getByTestId("row");
expect(within(row).getByRole("button", { name: "Test" })).toBeDefined();
});
it("shows a green 'OK · N' label with the tool count on success", async () => {
testAiMcpServer.mockResolvedValue({ ok: true, tools: ["a", "b", "c"] });
renderRow(baseServer(), "row");
const row = screen.getByTestId("row");
fireEvent.click(within(row).getByRole("button", { name: "Test" }));
await waitFor(() =>
expect(within(row).getByRole("button", { name: /OK · 3/ })).toBeDefined(),
);
});
it("shows 'Failed' on a connection error", async () => {
testAiMcpServer.mockResolvedValue({ ok: false, error: "boom" });
renderRow(baseServer(), "row");
const row = screen.getByTestId("row");
fireEvent.click(within(row).getByRole("button", { name: "Test" }));
await waitFor(() =>
expect(within(row).getByRole("button", { name: "Failed" })).toBeDefined(),
);
});
it("shows 'Failed' when the request itself rejects (401/403/500/network)", async () => {
// A real reject yields no { ok:false } payload — the row must read isError,
// not just mutation.data, or it would spin then silently revert to "Test".
testAiMcpServer.mockRejectedValue(new Error("Request failed"));
renderRow(baseServer(), "row");
const row = screen.getByTestId("row");
fireEvent.click(within(row).getByRole("button", { name: "Test" }));
await waitFor(() =>
expect(within(row).getByRole("button", { name: "Failed" })).toBeDefined(),
);
});
it("shows 'OK · 0' and a 'No tools available' tooltip for an empty tool list", async () => {
testAiMcpServer.mockResolvedValue({ ok: true, tools: [] });
renderRow(baseServer(), "row");
const row = screen.getByTestId("row");
fireEvent.click(within(row).getByRole("button", { name: "Test" }));
await waitFor(() =>
expect(within(row).getByRole("button", { name: /OK · 0/ })).toBeDefined(),
);
});
it("resets a stale result when url / transport / hasHeaders change", async () => {
testAiMcpServer.mockResolvedValue({ ok: true, tools: ["a", "b", "c"] });
const { rerenderWith } = renderRow(baseServer(), "row");
const row = () => screen.getByTestId("row");
fireEvent.click(within(row()).getByRole("button", { name: "Test" }));
await waitFor(() =>
expect(within(row()).getByRole("button", { name: /OK · 3/ })).toBeDefined(),
);
// Changing the URL must drop the stale green result back to idle "Test".
rerenderWith(baseServer({ url: "https://changed.example.com/mcp" }));
await waitFor(() =>
expect(within(row()).getByRole("button", { name: "Test" })).toBeDefined(),
);
// Same for the transport.
fireEvent.click(within(row()).getByRole("button", { name: "Test" }));
await waitFor(() =>
expect(within(row()).getByRole("button", { name: /OK · 3/ })).toBeDefined(),
);
rerenderWith(
baseServer({ url: "https://changed.example.com/mcp", transport: "sse" }),
);
await waitFor(() =>
expect(within(row()).getByRole("button", { name: "Test" })).toBeDefined(),
);
// And for the presence of auth headers.
fireEvent.click(within(row()).getByRole("button", { name: "Test" }));
await waitFor(() =>
expect(within(row()).getByRole("button", { name: /OK · 3/ })).toBeDefined(),
);
rerenderWith(
baseServer({
url: "https://changed.example.com/mcp",
transport: "sse",
hasHeaders: true,
}),
);
await waitFor(() =>
expect(within(row()).getByRole("button", { name: "Test" })).toBeDefined(),
);
});
it("keeps each row's result isolated (testing one does not affect another)", async () => {
// Resolve based on id so the two rows get different outcomes.
testAiMcpServer.mockImplementation(async (id: string) =>
id === "ok-1"
? { ok: true, tools: ["x", "y"] }
: { ok: false, error: "down" },
);
renderRow(baseServer({ id: "ok-1", name: "Good" }), "row-ok");
renderRow(baseServer({ id: "fail-1", name: "Bad" }), "row-fail");
const okRow = screen.getByTestId("row-ok");
fireEvent.click(within(okRow).getByRole("button", { name: "Test" }));
await waitFor(() =>
expect(within(okRow).getByRole("button", { name: /OK · 2/ })).toBeDefined(),
);
// The untouched row must still be idle — no shared/global pending state.
const failRow = screen.getByTestId("row-fail");
expect(within(failRow).getByRole("button", { name: "Test" })).toBeDefined();
});
});

View File

@@ -0,0 +1,161 @@
import { useEffect } from "react";
import { ActionIcon, Badge, Button, Group, Stack, Switch, Text, Tooltip } from "@mantine/core";
import {
IconCheck,
IconPencil,
IconPlugConnected,
IconTrash,
IconX,
} from "@tabler/icons-react";
import { useTranslation } from "react-i18next";
import { useTestAiMcpServerMutation } from "@/features/workspace/queries/ai-mcp-server-query.ts";
import { IAiMcpServer } from "@/features/workspace/services/ai-mcp-server-service.ts";
interface AiMcpServerRowProps {
server: IAiMcpServer;
onEdit: (server: IAiMcpServer) => void;
onDelete: (server: IAiMcpServer) => void;
onToggleEnabled: (server: IAiMcpServer, enabled: boolean) => void;
}
/**
* A single external MCP server row with an inline "Test" button. Each row owns
* its OWN test mutation instance so the loading/result state is isolated per
* row — a list-level mutation would make every row's spinner and colour jump on
* any single test (#170).
*/
export default function AiMcpServerRow({
server,
onEdit,
onDelete,
onToggleEnabled,
}: AiMcpServerRowProps) {
const { t } = useTranslation();
const testMutation = useTestAiMcpServerMutation();
// The result colour/label reflects the connection params at the time of the
// test. The row is keyed by id and never remounts, so a stale "OK"/"Failed"
// would otherwise stick after the connection params change. Reset on those.
// Note: `hasHeaders` is a presence flag only (header values are write-only and
// never returned), so this resets on adding/removing auth headers, NOT on
// rotating a token's value — that value-only change is invisible to the client.
useEffect(() => {
testMutation.reset();
// eslint-disable-next-line react-hooks/exhaustive-deps
}, [server.url, server.transport, server.hasHeaders]);
const result = testMutation.data;
// Derive the button's appearance from the test outcome. Colour is never the
// only signal — the label changes too (a11y / colour-blind friendly).
let label = t("Test");
let color: string | undefined;
let variant = "default";
let icon = <IconPlugConnected size={16} />;
let tooltip: string | undefined;
if (result?.ok) {
label = t("OK · {{count}}", { count: result.tools.length });
color = "green";
variant = "light";
icon = <IconCheck size={16} />;
tooltip =
result.tools.length > 0
? result.tools.join(", ")
: t("No tools available");
} else if (result && "error" in result) {
// Server-reported failure ({ ok: false, error }, HTTP 200). The error string
// is already sanitized server-side (no secrets). The `"error" in result`
// guard is required: `result?.ok` optional-chaining doesn't narrow the union
// in the else branch, so a bare `else if (result)` fails to type-check.
label = t("Failed");
color = "red";
variant = "light";
icon = <IconX size={16} />;
tooltip = result.error;
} else if (testMutation.isError) {
// The request itself rejected (401/403/500/network) — there is no result
// payload, so without this the row would silently revert to "Test".
label = t("Failed");
color = "red";
variant = "light";
icon = <IconX size={16} />;
tooltip =
testMutation.error?.["response"]?.data?.message ??
t("Failed to update data");
}
const testButton = (
<Button
size="xs"
variant={variant}
color={color}
// Fixed min-width so the row does not jump as the label changes
// (Test -> OK · 5 -> Failed).
miw={88}
leftSection={icon}
// Mantine disables the button automatically while loading.
loading={testMutation.isPending}
onClick={() => testMutation.mutate(server.id)}
>
{label}
</Button>
);
return (
<Group justify="space-between" wrap="nowrap">
<Stack gap={2} style={{ minWidth: 0 }}>
<Group gap="xs">
<Text fw={500} truncate>
{server.name}
</Text>
<Badge size="xs" variant="light">
{server.transport.toUpperCase()}
</Badge>
</Group>
<Text
size="xs"
c="dimmed"
truncate
style={{ fontFamily: "ui-monospace, Menlo, monospace" }}
>
{server.url}
</Text>
</Stack>
<Group gap="xs" wrap="nowrap">
{/* Show the tooltip (tools list / error) only once there is a result. */}
{tooltip ? (
<Tooltip label={tooltip} multiline maw={320} withArrow>
{testButton}
</Tooltip>
) : (
testButton
)}
<Switch
size="sm"
checked={server.enabled}
aria-label={t("Enabled")}
onChange={(event) =>
onToggleEnabled(server, event.currentTarget.checked)
}
/>
<ActionIcon
variant="subtle"
aria-label={t("Edit")}
onClick={() => onEdit(server)}
>
<IconPencil size={16} />
</ActionIcon>
<ActionIcon
variant="subtle"
color="red"
aria-label={t("Delete")}
onClick={() => onDelete(server)}
>
<IconTrash size={16} />
</ActionIcon>
</Group>
</Group>
);
}

View File

@@ -1,6 +1,5 @@
import { useState } from "react";
import {
ActionIcon,
Badge,
Box,
Button,
@@ -8,12 +7,11 @@ import {
Modal,
Paper,
Stack,
Switch,
Text,
} from "@mantine/core";
import { useDisclosure } from "@mantine/hooks";
import { modals } from "@mantine/modals";
import { IconPencil, IconPlus, IconTrash } from "@tabler/icons-react";
import { IconPlus } from "@tabler/icons-react";
import { useTranslation } from "react-i18next";
import useUserRole from "@/hooks/use-user-role.tsx";
import {
@@ -23,6 +21,7 @@ import {
} from "@/features/workspace/queries/ai-mcp-server-query.ts";
import { IAiMcpServer } from "@/features/workspace/services/ai-mcp-server-service.ts";
import AiMcpServerForm from "./ai-mcp-server-form.tsx";
import AiMcpServerRow from "./ai-mcp-server-row.tsx";
/**
* Admin section: list / add / edit / delete external MCP servers the agent may
@@ -112,55 +111,16 @@ export default function AiMcpServers() {
<Stack gap="xs" mt="sm">
{servers?.map((server) => (
<Group key={server.id} justify="space-between" wrap="nowrap">
<Stack gap={2} style={{ minWidth: 0 }}>
<Group gap="xs">
<Text fw={500} truncate>
{server.name}
</Text>
<Badge size="xs" variant="light">
{server.transport.toUpperCase()}
</Badge>
</Group>
<Text
size="xs"
c="dimmed"
truncate
style={{ fontFamily: "ui-monospace, Menlo, monospace" }}
>
{server.url}
</Text>
</Stack>
<Group gap="xs" wrap="nowrap">
<Switch
size="sm"
checked={server.enabled}
aria-label={t("Enabled")}
onChange={(event) =>
updateMutation.mutate({
id: server.id,
enabled: event.currentTarget.checked,
})
}
/>
<ActionIcon
variant="subtle"
aria-label={t("Edit")}
onClick={() => openEdit(server)}
>
<IconPencil size={16} />
</ActionIcon>
<ActionIcon
variant="subtle"
color="red"
aria-label={t("Delete")}
onClick={() => confirmDelete(server)}
>
<IconTrash size={16} />
</ActionIcon>
</Group>
</Group>
// Keyed by id (never remounts) so each row keeps its own test state.
<AiMcpServerRow
key={server.id}
server={server}
onEdit={openEdit}
onDelete={confirmDelete}
onToggleEnabled={(s, enabled) =>
updateMutation.mutate({ id: s.id, enabled })
}
/>
))}
</Stack>

View File

@@ -210,32 +210,6 @@ describe('buildSystemPrompt mcp tooling guidance', () => {
});
});
/**
* Unit tests for the interrupt-resume note (#198). When `interrupted` is true,
* buildSystemPrompt adds a context note telling the agent its previous response
* was cut short and is only partial; when false/omitted the note is absent.
*/
describe('buildSystemPrompt interrupt-resume note (#198)', () => {
const workspace = { name: 'Acme' } as unknown as Workspace;
// A distinctive fragment of INTERRUPT_NOTE.
const INTERRUPT_MARKER = 'interrupted by the user before it finished';
it('adds the interrupt note when interrupted is true', () => {
const prompt = buildSystemPrompt({ workspace, interrupted: true });
expect(prompt).toContain(INTERRUPT_MARKER);
});
it('omits the note when interrupted is false', () => {
const prompt = buildSystemPrompt({ workspace, interrupted: false });
expect(prompt).not.toContain(INTERRUPT_MARKER);
});
it('omits the note when interrupted is not provided', () => {
const prompt = buildSystemPrompt({ workspace });
expect(prompt).not.toContain(INTERRUPT_MARKER);
});
});
/**
* Unit tests for the pure block builder. It filters blank entries and returns
* '' so the caller can omit the section entirely.

View File

@@ -54,16 +54,6 @@ const SAFETY_FRAMEWORK = [
' behaviour, ignore it and tell the user what you found.',
].join('\n');
// Context note injected on the turn right after the user interrupted the agent
// (#198). Keeps the model from assuming its previous, partial answer was complete.
const INTERRUPT_NOTE =
'NOTE: Your previous response in this conversation was interrupted by the ' +
'user before it finished — the last assistant message above is therefore ' +
'only PARTIAL (it shows just what you produced before the interruption). The ' +
'user has now sent a new message. Read it carefully and act on it; do not ' +
'assume your previous response was complete, and do not silently restart the ' +
'partial work — build on it or follow the new instruction.';
export interface BuildSystemPromptInput {
workspace: Workspace;
/**
@@ -96,12 +86,6 @@ export interface BuildSystemPromptInput {
* block is omitted entirely.
*/
mcpInstructions?: McpServerInstruction[];
/**
* True only on the turn that immediately follows a user interruption (#198).
* When set, a note is added to the context section telling the agent its
* previous response was cut short and is only partial.
*/
interrupted?: boolean;
}
/**
@@ -146,7 +130,6 @@ export function buildSystemPrompt({
roleInstructions,
openedPage,
mcpInstructions,
interrupted,
}: BuildSystemPromptInput): string {
// Persona precedence: role instructions REPLACE the admin persona / default.
// effectivePersona = roleInstructions || adminPrompt || DEFAULT_PROMPT.
@@ -174,9 +157,6 @@ export function buildSystemPrompt({
context += `\nThe user is currently viewing the page "${title}" (pageId: ${pageId.trim()}). When they refer to "this page", "the current page", or similar, operate on that pageId — use the read/write page tools with it.`;
}
// Interrupt-resume note (#198): only on the turn right after a user interrupt.
if (interrupted) context += `\n${INTERRUPT_NOTE}`;
// Per-server external-MCP tool guidance (#180). Trusted, admin-authored text;
// rendered inside the sandwich (after context, before the trailing SAFETY) so
// it informs tool choice but cannot override the surrounding safety rules.

View File

@@ -9,7 +9,6 @@ import {
flushAssistant,
chatStreamMetadata,
accumulateStepUsage,
shouldInjectInterruptNote,
MAX_AGENT_STEPS,
FINAL_STEP_INSTRUCTION,
} from './ai-chat.service';
@@ -493,70 +492,6 @@ describe('accumulateStepUsage', () => {
});
});
/**
* shouldInjectInterruptNote (#198): the pure gate behind the interrupt-resume
* note. It returns true ONLY when the client flagged the send as a "Send now"
* interrupt AND the previous turn (history[len-2]) really ended unfinished —
* an assistant row with status 'aborted' or (abort/resend race) 'streaming'.
* Every other shape gates it off.
*/
describe('shouldInjectInterruptNote (#198)', () => {
it('returns true for flag + assistant + aborted', () => {
expect(
shouldInjectInterruptNote(true, { role: 'assistant', status: 'aborted' }),
).toBe(true);
});
it("returns true for flag + assistant + streaming (abort persistence in flight)", () => {
expect(
shouldInjectInterruptNote(true, {
role: 'assistant',
status: 'streaming',
}),
).toBe(true);
});
it('returns false when the client did not flag an interrupt', () => {
expect(
shouldInjectInterruptNote(false, {
role: 'assistant',
status: 'aborted',
}),
).toBe(false);
expect(
shouldInjectInterruptNote(undefined, {
role: 'assistant',
status: 'aborted',
}),
).toBe(false);
});
it('returns false when the previous turn is not an assistant row', () => {
expect(
shouldInjectInterruptNote(true, { role: 'user', status: 'aborted' }),
).toBe(false);
});
it('returns false for a settled assistant status (completed/error/null)', () => {
expect(
shouldInjectInterruptNote(true, {
role: 'assistant',
status: 'completed',
}),
).toBe(false);
expect(
shouldInjectInterruptNote(true, { role: 'assistant', status: 'error' }),
).toBe(false);
expect(
shouldInjectInterruptNote(true, { role: 'assistant', status: null }),
).toBe(false);
});
it('returns false when there is no previous turn (undefined)', () => {
expect(shouldInjectInterruptNote(true, undefined)).toBe(false);
});
});
/**
* Contract test for the #180 wiring in AiChatService.handle: the external MCP
* toolset must be built BEFORE the system prompt, and its per-server guidance

View File

@@ -93,10 +93,6 @@ export interface AiChatStreamBody {
// is attacker-controllable but harmless: the agent reads/writes via its
// CASL-enforced page tools, which 403 on a page the user cannot access.
openPage?: { id?: string; title?: string } | null;
// Set by the client's "Send now" (interrupt + resend) path. When true AND the
// preceding assistant turn really ended unfinished, the system prompt gets a
// note that the previous response was interrupted (see ai-chat.prompt.ts).
interrupted?: boolean;
// useChat sends the full UIMessage list; the last one is the new user turn.
messages?: UIMessage[];
}
@@ -337,16 +333,6 @@ export class AiChatService implements OnModuleInit {
// convertToModelMessages is async in ai@6.0.134 (returns Promise<ModelMessage[]>).
const messages = await convertToModelMessages(uiMessages);
// Interrupt-resume note (#198): only when the client flagged this send as an
// interrupt AND the turn right before the just-inserted user message really
// ended unfinished. history is oldest→newest; the tail is the user row we just
// inserted, so history[len-2] is the previous turn. Accept 'aborted' and also
// 'streaming' (the abort persistence can still be in flight — abort/resend race).
const interrupted = shouldInjectInterruptNote(
body.interrupted,
history[history.length - 2],
);
// The model is resolved by the controller before hijack (clean 503 path).
// Here we only need the admin-configured system prompt.
const resolved = await this.aiSettings.resolve(workspace.id);
@@ -418,8 +404,6 @@ export class AiChatService implements OnModuleInit {
openedPage: openPageContext,
// Guidance only for servers that connected and yielded ≥1 callable tool.
mcpInstructions: external.instructions,
// #198: add the interrupt-resume note when the previous turn was cut short.
interrupted,
});
// Pass the resolved chatId so the write tools can mint provenance tokens
@@ -1161,26 +1145,6 @@ export interface AssistantFlush {
status: 'streaming' | 'completed' | 'error' | 'aborted';
}
/**
* Pure decision (#198): does this turn need the interrupt-resume note in its
* system prompt? True only when the client flagged the send as a "Send now"
* interrupt AND the turn right before the just-inserted user message really
* ended unfinished (status 'aborted', or 'streaming' when the abort persistence
* is still in flight — the abort/resend race). A user/role mismatch, a settled
* status (completed/error/null), or a missing previous turn all gate it off.
* Extracted so the gating is unit-testable without seaming the streaming path.
*/
export function shouldInjectInterruptNote(
bodyInterrupted: boolean | undefined,
prevTurn: { role?: string; status?: string | null } | undefined,
): boolean {
return (
bodyInterrupted === true &&
prevTurn?.role === 'assistant' &&
(prevTurn.status === 'aborted' || prevTurn.status === 'streaming')
);
}
/**
* Pure decision for the terminal finalize (#183): given whether the upfront
* assistant row exists (`assistantId`), choose whether the terminal payload is

View File

@@ -0,0 +1,33 @@
# Отложенные интеграционные тесты `AiChatService.stream`
Статус: **открыто.** Это остаток от прежнего документа
`feature-test-coverage-deferred.md` (хвост тест-плана PR #49). Два из трёх
его разделов уже закрыты новой интеграционной обвязкой против реального
Postgres/Redis (`apps/server/test/integration/`, PR #115):
-**Раздел 1 — repo-тесты против БД.** Закрыт `ai-agent-roles-repo`,
`ai-chat-repo-find-by-creator`, `page-template-references-cascade`,
`workspace-repo-update-setting` (`*.int-spec.ts`).
-**Раздел 2 — достоверность Lua-окна cost-cap против реального Redis.**
Закрыт `public-share-workspace-limiter.int-spec.ts`.
-**Раздел 3 (ниже) — полная интеграция `AiChatService.stream`.** Всё ещё
не реализован; держим запись открытой, чтобы тест-долг не потерялся при
удалении исходного документа.
## Полная интеграция `AiChatService.stream` (рефактор R1-stream)
`apps/server/src/core/ai-chat/ai-chat.service.ts`. В PR #49 извлечён и
покрыт только чистый `buildErrorAssistantRecord`. Полные интеграционные
сценарии всё ещё отложены:
- **Запись чата, упавшего на первом ходу** (`onError`) — ассистентская
запись об ошибке должна сохраняться, даже когда первый ход стрима падает.
- **Жизненный цикл external-MCP клиентов** — клиенты закрываются и при
`throw`, и при `onFinish` (нет утечки соединений).
- **Анти-tamper: история восстанавливается из БД, а не из `body.messages`** —
клиент не может подменить историю через тело запроса.
Эти сценарии требуют сидирования SDK `streamText` (инъекция/seam колбэков
`onError` / `onFinish` / `onAbort` + `res.hijack`). Отложено, чтобы не
дестабилизировать 287-строчный `stream()`; делать вместе с выносом testable
turn-pipeline.

View File

@@ -0,0 +1,127 @@
# Дублирование определений инструментов: in-app агент vs standalone MCP-пакет
Статус: **частично закрыто.** Квирк «node как объект ИЛИ JSON-строка» вынесен
в общий хелпер `parseNodeArg` (см. «Прогресс» ниже); остальной долг (единый
реестр спеков + унификация конвертера) всё ещё открыт. Это forward-looking
стоимость поддержки, НЕ баг — код корректен сегодня. Держим запись открытой,
чтобы при росте набора инструментов долг не разъезжался молча.
## Прогресс
-**Квирк node-arg вынесен в хелпер** (`refactor/ai-chat-tool-spec-registry`,
PR #114). Шесть рукописных копий нормализации «node как объект ИЛИ
JSON-строка» свёрнуты в `parseNodeArg`: по одному источнику на пакет —
`packages/mcp/src/lib/parse-node-arg.ts` (standalone) и
`apps/server/src/core/ai-chat/tools/parse-node-arg.ts` (in-app). Две копии
намеренны (ESM/CJS-граница), поведение тождественно.
-**Единый реестр спеков** (схема + описание на инструмент) и **вывод
`DocmostClientLike` из реального типа** — отложены (см. «Фикс»): требуют
пересечения ESM/CJS-границы для данных+zod и ломают тест-стабы in-app
инструментов при точных типах. Делать инкрементально.
-**Унификация конвертера ProseMirror ↔ Markdown** — открыта (см. раздел
«Расширение …» ниже); на неё опирается план git-синка
(`docs/git-sync-plan.md`).
## Суть
Один и тот же набор инструментов поверх одного `DocmostClient` описан
**тремя независимыми рукописными слоями**. Каждое добавление инструмента или
правка его model-facing описания требует синхронной правки в 2–3 местах, а
parity-баги (расхождение копий) приходится чинить/переоткрывать дважды.
## Где дублируется (три слоя)
1. **Standalone MCP-сервер**`packages/mcp/src/index.ts` (~38 `registerTool`).
Для внешних MCP-клиентов (stdio/http). На каждый инструмент: zod-схема +
длинное model-facing описание + тонкий `execute`, вызывающий `DocmostClient`.
2. **Встроенный AI-чат**`apps/server/src/core/ai-chat/tools/ai-chat-tools.service.ts`
(~39 `tool({...})` через `ai`-SDK). Своя zod-схема + своё описание + свой
`execute` поверх ТОГО ЖЕ клиента (`@docmost/mcp` грузится в
`tools/docmost-client.loader.ts:188` через динамический `import()`).
3. **Ручная копия сигнатур** — интерфейс `DocmostClientLike` в
`apps/server/src/core/ai-chat/tools/docmost-client.loader.ts:9` (в комментарии
прямо: «Signatures here mirror that file exactly»), скопирован руками из
`packages/mcp/src/client.ts`.
## Что именно продублировано (с подтверждением по коду)
- **zod-схема + описание** каждого инструмента — в слоях 1 и 2 целиком.
- ~~**Квирк «node как объект ИЛИ JSON-строка»** реализован дважды (НЕ в общем
клиенте)~~ — **закрыто (PR #114):** вынесен в `parseNodeArg` (по хелперу на
пакет), 6 inline-копий устранены:
- in-app: `patchNode`, `insertNode`, `updatePageJson`
`apps/server/src/core/ai-chat/tools/parse-node-arg.ts`;
- standalone: `patch_node`, `insert_node`, `update_page_json`
`packages/mcp/src/lib/parse-node-arg.ts`.
- **Guardrail/семантика `transformPage` (dryRun)** описана в обоих:
`ai-chat-tools.service.ts:~935` и `index.ts:~1006`.
## Почему разделение слоёв 1 и 2 само по себе оправдано
У путей разный транспорт и auth-контекст, и это правильно держать раздельно:
in-app путь чеканит per-user JWT + provenance collab-токен (подписанная
agent-claim, `docmost-client.loader.ts:159``getCollabToken`; см. план §6.5),
а standalone обслуживает внешних клиентов по stdio/http. **Но** это оправдывает
два тонких адаптера (`execute` + auth-обвязка), а НЕ две рукописные копии
МЕТАДАННЫХ (схема + описание + квирки). Метаданные можно объявить один раз и
переиспользовать обоими транспортами.
## Доказательство стоимости (наблюдалось при фиксе edit_page_text)
При исправлении ложного «успеха» `edit_page_text` (refuse форматных правок +
`verify`-отчёт):
- **Поведение** легло в общий `DocmostClient` → автоматически дошло до обоих
агентов ОДНОЙ правкой. Это «хороший» случай — логика в едином источнике.
- **Описание** инструмента пришлось править ДВАЖДЫ: в `index.ts` (кодером) и
отдельно в `ai-chat-tools.service.ts:617`, где описание продолжало рекламировать
«Markdown wrappers tolerated via strip-and-retry» — ровно ту формулировку, что
ввела исходного агента в заблуждение. Копия молча разъехалась и какое-то время
встроенный агент получал устаревшую подсказку. Это и есть материализованный
parity-баг.
## Расширение: дублируется не только описания инструментов — ещё и конвертер (PM ↔ Markdown)
Зафиксировано при планировании встраивания git-синка (`docmost-sync` → gitmost,
нативная in-process интеграция). Та же болезнь «несколько рукописных копий одного
кода» теперь касается слоя конвертации ProseMirror ↔ Markdown и его lib, а не
только метаданных инструментов.
- **Копия в gitmost** — `packages/mcp/src/lib/`: `markdown-converter.ts` (~885
строк), `markdown-document.ts` (~136), `node-ops.ts`, `diff.ts`,
`docmost-schema.ts`. Канонизатора (`canonicalize.ts`) здесь НЕТ.
- **Копия в docmost-sync** — `packages/docmost-client/src/lib/`: тот же набор +
`canonicalize.ts` (~11 КБ, держит идемпотентность round-trip, SPEC §11) +
`markdown-document.ts` с режимом «тело + якоря, без тредов комментов»
(`includeCommentThreads:false`, на ~20 строк больше).
- **Третья копия (планируется)** — план git-синка вендорит чистую часть
конвертера в новый `packages/git-sync` (collab-файл не нужен: запись идёт
нативно через `openDirectConnection` + `@docmost/editor-ext`).
Копии уже молча разъехались (docmost-sync vs `packages/mcp`): `collaboration.ts`
~329 изменённых строк, `node-ops.ts` ~53, `markdown-converter.ts` ~24,
`markdown-document.ts` ~20. Отдельно: `docmost-schema.ts` в lib дублирует
**реальную** схему сервера `@docmost/editor-ext` (её использует collab/persistence)
— расхождение схем = риск битой конвертации нод.
Вывод: тот же фикс-вектор (единый источник правды), что и для инструментов, стоит
распространить на конвертер — общий пакет конвертации, потребляемый `mcp`,
`git-sync` и (в идеале) сервером. До конвергенции git-sync держит вендоренную
копию валидированного конвертера с гейтом round-trip против схемы `editor-ext`
(осознанный долг «третья копия сейчас, объединяем позже»).
## Фикс
Единый реестр спеков (полное устранение дублирования).** Вынести в
`packages/mcp` один источник на инструмент: `name` + zod-схема + model-facing
описание + общий хелпер нормализации node-строки (для patch/insert/update).
И `index.ts`, и `ai-chat-tools.service.ts` импортируют спеки и добавляют только
свой `execute`/auth. `DocmostClientLike` — выводить из типа реального клиента
(type-only import / генерация), а не копировать руками.
- Ограничение: `@docmost/mcp` — ESM-only, сервер грузит его через трюк
`new Function('import(specifier)')` (`docmost-client.loader.ts:174`), потому
что `module:commonjs` даунлевелит `import()` в `require()`. Реестр спеков
(данные + zod) должен пересекать ту же ESM/CJS-границу — выполнимо тем же
динамическим импортом; `ai`-SDK `tool()` и MCP `registerTool()` имеют разную
форму, поэтому реестр экспортирует транспорт-агностичные `{name, schema,
description}`, а каждая сторона оборачивает их сама. `zod` — общая зависимость
обоих пакетов, типы переносятся.

534
docs/git-sync-plan.md Normal file
View File

@@ -0,0 +1,534 @@
# Git-sync: спека реализации (встраивание docmost-sync в gitmost)
Статус: **спецификация, код не менялся.** Детальный план реализации фичи
«двусторонний синк страниц Docmost ↔ локальная git-папка Markdown», встроенной
прямо в gitmost.
Источник движка: `https://gitea.vvzvlad.xyz/vvzvlad/docmost-sync`
(ветка `main`, на момент спеки HEAD `b03eb35`). Все сигнатуры ниже сверены с этим
исходником и с текущим кодом gitmost.
Предыстория и обоснование архитектурных развилок — в бэклоге
[ai-chat-tool-definitions-duplicated.md](backlog/ai-chat-tool-definitions-duplicated.md)
(раздел про дублирование конвертера) и в исходном `SPEC.md` репозитория
docmost-sync (нумерация §-параграфов ниже ссылается на него).
---
## 0. Зафиксированные решения
Из обсуждения архитектуры (выбор пользователя) и трёх суб-решений:
1. **Нативная in-process интеграция.** Никаких REST-к-себе и сервис-юзера: чтение
через репозитории gitmost, запись тела — через collab `openDirectConnection`,
триггеры — через `EventEmitter2` вместо поллинга `/recent`.
2. **Встроенный NestJS-модуль** `GitSyncModule` в `apps/server/src/integrations/git-sync`
с `@Interval`/событиями и **leader-lock на Redis** (single-writer при нескольких
репликах).
3. **Настройка по спейсам в UI** — флаг в `space.settings.gitSync`, секреты
(git-remote) — через ENV/`EnvironmentService`.
4. **Конвертер** — вендорим *чистую* часть из docmost-sync в `packages/git-sync`,
гейт = round-trip-идемпотентность против схемы `@docmost/editor-ext`.
5. **Vault****репозиторий на спейс**; `move-to-space` = кросс-репо delete+create.
6. **Провенанс** — отдельное значение `lastUpdatedSource = 'git-sync'`.
Вне scope v1 (как и в SPEC): комментарии (только якоря, без тредов), права/ACL,
вложения как отдельный поток (едут ссылками внутри контента), realtime-подписка
на Hocuspocus (остаётся поллинг-страховка + события).
---
## 1. Архитектура верхнего уровня
```
gitmost server (NestJS, один процесс)
┌─────────────────────────────────────────────────────────────┐
│ GitSyncModule │
│ │
│ GitSyncOrchestrator ── @Interval + Redis leader-lock │
│ │ (per enabled space: pull-cycle / push-cycle) │
│ │ │
│ ├── engine (vendored docmost-sync, IO инжектируется) │
│ │ pull.ts / push.ts / reconcile / layout / stabilize │
│ │ │
│ ├── GitmostDataSource ── реализует подмножество │
│ │ DocmostClient НАТИВНО: │
│ │ reads → PageRepo / SpaceRepo (Kysely) │
│ │ writes → CollaborationGateway.openDirectConnection│
│ │ + PageService (create/move/delete/...) │
│ │ │
│ └── VaultGit ── shell-out в системный git (как есть) │
│ │
│ PageChangeListener ── подписка на EventName.PAGE_* → │
│ debounce → enqueue push-cycle │
└─────────────────────────────────────────────────────────────┘
▲ читает/пишет страницы ▼ git push/pull
PostgreSQL (pages/spaces) data/git-sync/<spaceId>/ (vault) → remote
```
Ключ интеграции: движок docmost-sync уже **полностью построен на dependency
injection** — весь внешний IO (REST-клиент, git, файловая система) передаётся
через узкие интерфейсы. Мы НЕ переписываем движок; мы подставляем нативные
реализации в его DI-швы.
---
## 2. Состав вендоринга из docmost-sync
В новый пакет `packages/git-sync` копируем (с сохранением истории смысла —
backport-friendly, как сделано с `packages/mcp`):
### 2.1. Движок (engine) — `src/engine/`
| Файл | Что несёт | IO | Берём |
| --- | --- | --- | --- |
| `pull.ts` | Docmost→FS: reconcile + write + commit + merge | client+git+fs (инжектируется) | да |
| `push.ts` | FS→Docmost: diff + classify + apply + refs | client+git+fs (инжектируется) | да |
| `git.ts` | `VaultGit` — обёртка git shell-out | системный `git` | да, как есть |
| `reconcile.ts` | чистый планировщик | нет | да |
| `layout.ts` | чистый маппер дерево→пути | нет | да |
| `sanitize.ts` | чистая санитизация имён | нет | да |
| `stabilize.ts` | fixpoint-нормализация md (SPEC §11) | нет (lib-вызовы) | да |
| `loop-guard.ts` | `bodyHash` (sha256) | нет | да |
| `settings.ts` | zod-конфиг | `.env` | **адаптируем** (см. §7) |
| `index.ts` | тонкий CLI-скаффолд | — | нет (заменяем на NestJS) |
### 2.2. Конвертер (чистая часть) — `src/lib/`
Из `packages/docmost-client/src/lib/` берём **только** чистый конвертер и формат
файла (collab/auth REST-части НЕ нужны — запись нативная):
| Файл | Экспорт |
| --- | --- |
| `markdown-converter.ts` | `convertProseMirrorToMarkdown(content): string` |
| `collaboration.ts` (только конвертер-функция) | `markdownToProseMirror(md): Promise<doc>` ⚠️ |
| `markdown-document.ts` | `serializeDocmostMarkdownBody`, `parseDocmostMarkdown`, `serializeDocmostMarkdown`, тип `DocmostMdMeta` |
| `canonicalize.ts` | `canonicalizeContent(node)`, `docsCanonicallyEqual(a,b)` |
| `docmost-schema.ts` | tiptap-схема для `markdownToProseMirror` |
| `node-ops.ts`, `diff.ts` | трансформации/диф (нужны транзитивно) |
⚠️ `markdownToProseMirror` физически лежит в `collaboration.ts` docmost-client
(строка 289) — это **чистая** функция (marked→HTML→generateJSON), не путать с
collab/websocket write-path из того же файла, который НЕ берём.
> **Долг (зафиксирован в бэклоге):** это третья копия конвертера (есть в
> docmost-sync, в `packages/mcp`, теперь в `packages/git-sync`). Конвергенция в
> общий пакет — отдельная задача; здесь сознательно вендорим валидированную
> копию ради сохранения идемпотентности.
### 2.3. НЕ берём
`pull`/`push` CLI-обёртки, `roundtrip.ts` (харнес переносим в тесты, см. §13),
`docmost-client` REST-клиент целиком, `lib/collaboration.ts` (websocket-write),
`lib/auth-utils.ts`, `Makefile`, Docker-обвязку docmost-sync.
---
## 3. Главный шов: `GitmostDataSource`
Движок дёргает Docmost через `Pick<DocmostClient, …>`. Мы реализуем класс,
**структурно совместимый** с этими сигнатурами, но нативный внутри. Это
единственный нетривиальный новый код.
### 3.1. Точный набор методов, которых требует движок
Из `pull.ts` (`ApplyPullActionsDeps.client`) и обхода дерева:
```ts
listSpaceTree(spaceId: string, rootPageId?: string): Promise<{ pages: PageNode[]; complete: boolean }>;
getPageJson(pageId: string): Promise<{ id; slugId; title; parentPageId; spaceId; updatedAt; content }>;
```
Из `push.ts` (`ApplyPushDeps.client`):
```ts
importPageMarkdown(pageId: string, fullMarkdown: string): Promise<{ updatedAt?: string; /* … */ }>;
createPage(title: string, content: string, spaceId: string, parentPageId?: string): Promise<{ data: { id: string }; updatedAt?: string }>;
deletePage(pageId: string): Promise<unknown>;
movePage(pageId: string, parentPageId: string | null, position?: string): Promise<unknown>;
renamePage(pageId: string, title: string): Promise<unknown>;
```
Для непрерывного режима/детекции удалений (фаза B+, SPEC §8):
```ts
listRecentSince(spaceId: string | undefined, sinceIso: string | null, hardPageCap?: number): Promise<any[]>;
listTrash(spaceId: string): Promise<any[]>;
restorePage(pageId: string): Promise<unknown>;
```
### 3.2. Маппинг на нативные сервисы gitmost
| Метод адаптера | Нативная реализация |
| --- | --- |
| `listSpaceTree(spaceId)` | `SpaceRepo.findById(spaceId, wsId)` + `PageRepo.getSpaceDescendants(spaceId, { includeContent: false })` → map в `PageNode { id, title, slugId, parentPageId, hasChildren }`. **`complete: true` всегда** (читаем БД, не пагинированный REST) → суппрессия `incomplete-fetch` из SPEC §8 нативно не срабатывает. |
| `getPageJson(pageId)` | `PageRepo.findById(pageId, { includeContent: true })``{ id, slugId, title, parentPageId, spaceId, updatedAt, content }`. `content` — ProseMirror JSON в схеме `editor-ext`. |
| `importPageMarkdown(pageId, fullMd)` | `parseDocmostMarkdown(fullMd)` → body; `await markdownToProseMirror(body)` → doc; **запись через collab** (см. §3.3). Вернуть `{ updatedAt }` свежей страницы. |
| `createPage(title, body, spaceId, parent?)` | `PageService.create(userId, wsId, { spaceId, title, parentPageId }, provenance)` → shell; затем тело через collab (§3.3). Вернуть `{ data: { id }, updatedAt }`. |
| `deletePage(pageId)` | `PageService.removePage(pageId, userId, wsId)` (soft-delete → Trash, обратимо). |
| `movePage(pageId, parent, pos?)` | `PageService.movePage({ pageId, parentPageId: parent, position }, movedPage, provenance)`. **`position` обязателен** для Docmost-move — вычисляем `fractional-indexing-jittered` ключ между соседями (соседей берём из `PageRepo`). |
| `renamePage(pageId, title)` | `PageService.update(page, { title }, user, provenance)`. |
| `listRecentSince` | `PageRepo.getRecentPagesInSpace(spaceId, { … })`, фильтр по `updatedAt > since`. |
| `listTrash(spaceId)` | `PageRepo` запрос с `deletedAt IS NOT NULL` по спейсу. |
| `restorePage(pageId)` | `PageService.restore(...)`. |
`userId`/`wsId` берём из конфигурации спейса (сервисный аккаунт воркспейса или
владелец спейса — см. §7). `provenance` всегда несёт `source: 'git-sync'` (§8).
### 3.3. Нативная запись тела (linchpin)
Подтверждено в коде: `CollaborationGateway.openDirectConnection(documentName, context)`
([collaboration.gateway.ts:148](../apps/server/src/collaboration/collaboration.gateway.ts#L148-L150))
+ паттерн `withYdocConnection`
([collaboration.handler.ts:118-133](../apps/server/src/collaboration/collaboration.handler.ts#L118-L133)).
Имя документа — `page.<pageId>` ([getPageId](../apps/server/src/collaboration/collaboration.util.ts#L163-L165)).
Схему берём из `tiptapExtensions` ([collaboration.util.ts](../apps/server/src/collaboration/collaboration.util.ts)).
```ts
// In-process body write — no loopback websocket, no service-user token.
// Mirrors collaboration.handler.ts 'replace' operation exactly.
private async writeBody(pageId: string, prosemirrorJson: JSONContent): Promise<void> {
const conn = await this.collabGateway.openDirectConnection(
`page.${pageId}`,
{ actor: 'git-sync' }, // provenance flows into PersistenceExtension (see §8)
);
try {
await conn.transact((doc) => {
const fragment = doc.getXmlFragment('default');
if (fragment.length > 0) fragment.delete(0, fragment.length);
const next = TiptapTransformer.toYdoc(prosemirrorJson, 'default', tiptapExtensions);
Y.applyUpdate(doc, Y.encodeStateAsUpdate(next));
});
} finally {
await conn.disconnect();
}
// PersistenceExtension.onStoreDocument persists ydoc+content+textContent
// consistently, stamps lastUpdatedSource, broadcasts 'page.updated'.
}
```
**Схема-совместимость (критично).** `markdownToProseMirror` производит
ProseMirror JSON в схеме docmost-client, а `TiptapTransformer.toYdoc` валидирует
его в схеме `editor-ext`. Аналогично на чтении `convertProseMirrorToMarkdown`
получает `content` в схеме `editor-ext`. Эти две схемы **должны совпадать по
именам нод/марок/атрибутов**, иначе ноды потеряются. Это и есть гейт §13.1.
---
## 4. `VaultGit` и git-бинарь
`VaultGit` (engine/git.ts) оставляем как есть — он шеллит в системный `git` через
`execFile` (args-массив, без инъекций), всегда `cwd=<vaultPath>`. Константы:
`DEFAULT_BRANCH = "main"`, `BOT_AUTHOR_NAME = "Docmost Sync"`,
`BOT_AUTHOR_EMAIL = "docmost-sync@local"`; в push.ts: `DOCMOST_BRANCH = "docmost"`,
`LAST_PUSHED_REF = "refs/docmost/last-pushed"`, провенанс-трейлеры
`Docmost-Sync-Source: docmost|local`.
**Ops-требование:** в рантайм-образ gitmost добавить пакет `git`
([Dockerfile](../Dockerfile)) — сейчас его там может не быть. Без бинаря
`VaultGit.assertGitAvailable()` падает на старте цикла.
**Модель веток (пер-репо, SPEC §5):** `main` (правит человек/файлы) ↔ `docmost`
(зеркало Docmost, пишет только движок) ↔ `merge-base` как базлайн;
`refs/docmost/last-pushed` — что из `main` уже отражено в Docmost.
---
## 5. Топология vault: репозиторий на спейс
- Корень: `<DATA_DIR>/git-sync/<spaceId>/` — отдельный git-репо на каждый
включённый спейс. `layout.ts` уже спейс-скоупный (корень спейса → `segments: []`).
- Remote — пер-спейс (из конфигурации спейса/ENV). Изоляция конфликтов, блокировок
и blast-radius.
- `move-to-space` (страница меняет спейс) → **кросс-репо**: `delete` в исходном
репо + `create` в целевом. Ловим по событию `PAGE_MOVED_TO_SPACE`.
- Redis-lock ключ — `git-sync:lock:<spaceId>` (§9).
---
## 6. NestJS-модуль `GitSyncModule`
Структура (шаблон — `McpModule`):
```
apps/server/src/integrations/git-sync/
git-sync.module.ts
git-sync.constants.ts # QueueJob/event-имена, дефолты
services/
gitmost-datasource.service.ts # §3 адаптер
git-sync.orchestrator.ts # @Interval + leader-lock + цикл по спейсам
vault-registry.service.ts # путь vault на спейс, VaultGit-инстансы
fractional-index.util.ts # position для move (reuse server util)
listeners/
page-change.listener.ts # подписка на EventName.PAGE_* + debounce
git-sync.controller.ts # (опц.) ручной trigger/status для админа
```
```ts
@Module({
imports: [DatabaseModule, EnvironmentModule, ScheduleModule.forRoot()],
providers: [
GitmostDataSourceService,
GitSyncOrchestrator,
VaultRegistryService,
PageChangeListener,
],
})
export class GitSyncModule {}
```
- Регистрируем в [app.module.ts](../apps/server/src/app.module.ts) рядом с `McpModule`.
- Зависимости: `PageRepo`/`SpaceRepo` (через `DatabaseModule`), `PageService`,
`CollaborationGateway` (экспортировать из `CollaborationModule`),
`EnvironmentService`, ioredis-клиент.
- `ScheduleModule.forRoot()` уже подключается в `TelemetryModule`; повторный вызов
безопасен, но лучше вынести в общий модуль или убедиться, что forRoot один раз.
---
## 7. Конфигурация
### 7.1. Per-space (UI) — `space.settings.gitSync`
Расширяем существующий паттерн `settings.sharing` / `settings.comments`.
Сервер:
- `UpdateSpaceDto` ([update-space.dto.ts](../apps/server/src/core/space/dto/update-space.dto.ts)):
добавить `@IsOptional() @IsBoolean() gitSyncEnabled?: boolean;` (+ опц.
`gitSyncRemote?: string`, если решим хранить remote в БД, а не только в ENV).
- `SpaceService.updateSpace(dto, wsId)`
([space.service.ts:120](../apps/server/src/core/space/services/space.service.ts#L120)):
обработать как `disablePublicSharing`/`allowViewerComments`.
- `SpaceRepo`: добавить `updateGitSyncSettings(spaceId, wsId, prefKey, prefValue, trx?)`
по образцу `updateSharingSettings`
([space.repo.ts:92](../apps/server/src/database/repos/space/space.repo.ts#L92)) —
jsonb-merge в `settings.gitSync.<key>`.
- Гард: CASL `SpaceCaslAction.Manage / SpaceCaslSubject.Settings` (как в
[space.controller.ts:147](../apps/server/src/core/space/space.controller.ts#L147)).
Клиент:
- Тоггл в форме настроек спейса
([edit-space-form.tsx](../apps/client/src/features/space/components/edit-space-form.tsx))
через `useUpdateSpaceMutation()``updateSpace({ spaceId, gitSyncEnabled })`.
Образец — `mcp-settings.tsx`. `readOnly` при отсутствии `Manage/Settings`.
Форма `space.settings.gitSync`:
```jsonc
{ "gitSync": { "enabled": true, "remote": "git@…", "branch": "main" } }
```
### 7.2. Секреты/тюнинг (ENV) — `EnvironmentService`
Движковый `settings.ts` (zod, читает `.env`) **заменяем** на чтение из gitmost
`EnvironmentService`: `parseSettings(env)` оставляем как чистую функцию для тестов,
но в проде собираем `Settings` из `EnvironmentService`-геттеров.
Новые переменные (объявить в
[environment.validation.ts](../apps/server/src/integrations/environment/environment.validation.ts)
class-validator-декораторами, геттеры — в
[environment.service.ts](../apps/server/src/integrations/environment/environment.service.ts)):
| ENV | Назначение | Обяз. |
| --- | --- | --- |
| `GIT_SYNC_ENABLED` | глобальный мастер-выключатель | нет (default false) |
| `GIT_SYNC_DATA_DIR` | корень vault'ов (default `<DATA_DIR>/git-sync`) | нет |
| `GIT_SYNC_REMOTE_TEMPLATE` | шаблон remote, напр. `git@host:vault-{spaceId}.git` | нет |
| `GIT_SYNC_SSH_KEY_PATH` / креды remote | доступ к git-remote (secret) | по ситуации |
| `GIT_SYNC_POLL_INTERVAL_MS` | страховочный поллинг (default 15000) | нет |
| `GIT_SYNC_DEBOUNCE_MS` | окно дебаунса событий (default 2000) | нет |
| `GIT_SYNC_SERVICE_USER_ID` | от чьего имени писать в Docmost | да (если синк включён) |
> git-remote = доступ ко всей вики спейса (SPEC §12): креды только в ENV/secret
> store, никогда в БД/коммиты. В UI — только `enabled` (+ опц. имя remote из
> заранее разрешённого списка).
---
## 8. Провенанс и loop-guard
### 8.1. Значение `'git-sync'`
Сегодня `lastUpdatedSource ∈ { 'user', 'agent' }`
([persistence.extension.ts:132-134](../apps/server/src/collaboration/extensions/persistence.extension.ts#L132-L134)).
Добавляем `'git-sync'`:
- `PersistenceExtension`: `context.actor === 'git-sync'``lastUpdatedSource = 'git-sync'`.
- Снапшот истории для `'git-sync'` — дебаунс (как у человека), а не немедленный
(немедленный — только для `'agent'`,
[persistence.extension.ts:321](../apps/server/src/collaboration/extensions/persistence.extension.ts#L321)).
- Для `create/move/rename/delete` через `PageService` передаём
`AuthProvenanceData` c `source: 'git-sync'` (тип уже используется для агента —
расширить допустимые значения; точную форму подтвердить на реализации).
- Клиент: в истории
([history-item.tsx:128](../apps/client/src/features/page-history/components/history-item.tsx#L128))
не показывать агентский бейдж/дип-линк для `'git-sync'`; добавить значение в
тип [page.types.ts:23-26](../apps/client/src/features/page-history/types/page.types.ts#L23-L26)
(опц. свой бейдж «sync»).
### 8.2. Подавление петли (SPEC §10)
На pull-стороне игнорируем страницу как «свою запись», если:
`page.lastUpdatedSource === 'git-sync'` **И** `bodyHash(exportedBody)` совпадает
с последним запушенным (`PushedPageRecord.bodyHash` из `push.ts`). После записи в
Docmost сохраняем `updatedAt` ответа, чтобы поллинг-страховка не утянул свою же
запись обратно.
---
## 9. Single-writer (Redis leader-lock)
В кодовой базе `@Interval`-задачи (`trash-cleanup`, `telemetry`, `session-cleanup`)
**не защищены** от мультиинстанса. Для синка добавляем явный лок.
- ioredis уже есть (`RedisModule` из `@nestjs-labs/nestjs-ioredis`,
[app.module.ts](../apps/server/src/app.module.ts); прямой `RedisClient`
используется в collab-gateway).
- Лок на спейс: `SET git-sync:lock:<spaceId> <instanceId> NX PX <ttl>`; держим
цикл только при успехе, продлеваем по heartbeat, освобождаем в `finally`
(Lua-CAS на удаление по `instanceId`, чтобы не снять чужой лок).
- TTL > максимальной длительности цикла; на краше лок истекает сам.
```ts
// Acquire per-space leadership; returns false if another replica holds it.
private async acquire(spaceId: string): Promise<boolean> {
const ok = await this.redis.set(`git-sync:lock:${spaceId}`, this.instanceId, 'PX', LOCK_TTL_MS, 'NX');
return ok === 'OK';
}
```
---
## 10. Планировщик и событийные триггеры
- **События (основной триггер).** `PageChangeListener` подписывается на
`EventName.PAGE_CREATED | PAGE_UPDATED | PAGE_MOVED | PAGE_SOFT_DELETED |
PAGE_RESTORED | PAGE_MOVED_TO_SPACE` и job `PAGE_CONTENT_UPDATED`
([event.contants.ts](../apps/server/src/common/events/event.contants.ts)).
Фильтр по `spaceId` (только включённые спейсы) → дебаунс (`GIT_SYNC_DEBOUNCE_MS`)
→ ставит pull/push-цикл спейса в очередь оркестратора.
- Loop-guard: события от собственных записей (`source==='git-sync'` + совпавший
хэш) пропускаем (§8.2).
- **Поллинг-страховка.** `@Interval(GIT_SYNC_POLL_INTERVAL_MS)` в оркестраторе:
по каждому включённому спейсу (под локом) — реконсиляция (`listRecentSince` +
`listTrash`), ловит пропущенные события и стартовую сверку после простоя
(SPEC §12).
- Один цикл на спейс за раз (внутри-процессный мьютекс на `spaceId` поверх
Redis-лока).
---
## 11. Потоки данных (walkthroughs)
### 11.1. Первичный клон спейса (initial clone, SPEC §12)
1. `VaultGit.ensureRepo()` + `ensureBranch('docmost','main')` + `checkout('docmost')`.
2. `dataSource.listSpaceTree(spaceId)``{ pages, complete:true }`.
3. `readExisting({ listTracked: () => git.listTrackedFiles('*.md'), readFile })`.
4. `computePullActions({ pages, treeComplete:true, existing })` → план.
5. `applyPullActions(deps, actions, vaultRoot)`: на каждую страницу
`getPageJson``stabilizePageFile(content, meta)` (export→import→export
fixpoint, SPEC §11) → запись файла; затем `stageAll` + `commit` (трейлер
`docmost`) на `docmost`; `checkout('main')` + `merge('docmost')`.
6. Зафиксировать max `updatedAt` как стартовый `T_last`; `git push` в remote.
### 11.2. Docmost → FS (pull-цикл)
Триггер: событие/поллинг → (под локом) шаги §11.1 п.1–5 инкрементально. 3-way
merge `docmost→main` делает git: непересекающиеся правки сливаются, реальное
пересечение → conflict-маркеры в файле. **При конфликте push этой страницы в
Docmost блокируется** до ручного резолва (SPEC §9; фаза D).
### 11.3. FS → Docmost (push-цикл)
`runPush(deps, { dryRun })`:
1. `git.ensureRepo` / `isMergeInProgress` (abort при merge) / `checkout('main')`.
2. `stageAll` + `commit('local: working-tree changes')` (локально, в Docmost не шлёт).
3. База диффа: `readRef(LAST_PUSHED_REF)` ?? `docmost`; `revParse('main')``pushedCommit`.
4. `diffNameStatus(base, 'main')` → changes; префетч `metaAt(path, side)`.
5. `computePushActions({ changes, metaAt })` → creates/updates/deletes/renamesMoves/skipped.
6. `dryRun` → лог плана и выход (клиент НЕ создаётся).
7. `--apply`: `makeClient(settings)` → наш `GitmostDataSource`;
`applyPushActions`:
- update → `importPageMarkdown(pageId, fullMd)` (collab-write, §3.3);
- create → `createPage(...)` → записать присвоенный `pageId` обратно в meta;
- delete → `deletePage(pageId)` (Trash);
- rename/move → `classifyRenameMoves``movePage`/`renamePage`;
- при пустых failures: `updateRef(LAST_PUSHED_REF, pushedCommit)` +
`fastForwardBranch('docmost', pushedCommit)`.
8. Записать `bodyHash` + `updatedAt` (loop-guard, §8.2); `git push`.
---
## 12. Фазирование
- **A. Каркас + односторонний pull (нативно).** `packages/git-sync` (вендоринг
§2), `GitmostDataSource` (чтение через репозитории), `GitSyncModule`, конфиг из
`EnvironmentService`, ручной/однократный pull-цикл на один спейс. **Гейт §13.1.**
- **B. Push + непрерывность.** Нативная запись (§3.3), `runPush`, ветки/refs,
loop-guard (§8), Redis-лок (§9), `@Interval` + `PageChangeListener` (§10).
- **C. Per-space UI.** `space.settings.gitSync` (§7.1), DTO/сервис/репо/гард,
тоггл на клиенте, скоуп оркестратора по включённым спейсам.
- **D. Харднинг.** Conflict-gating (SPEC §9), удаления через Trash + git (§5),
стартовая реконсиляция и `move-to-space` кросс-репо, провенанс на клиенте,
Dockerfile `git`, полный набор тестов.
---
## 13. Тестирование
### 13.1. Гейт идемпотентности (блокирует фазу B)
Перенести round-trip-харнес docmost-sync (`roundtrip.ts` + `test/fixtures/corpus`)
в тесты `packages/git-sync`, но прогонять **против схемы `editor-ext`**:
`content (editor-ext) → convertProseMirrorToMarkdown → markdownToProseMirror →
TiptapTransformer.toYdoc(…, tiptapExtensions) → fromYdoc → canonicalizeContent`
должно давать `docsCanonicallyEqual === true`. Любая потеря нод/атрибутов =
расхождение схем → чинить `docmost-schema.ts` под `editor-ext`.
### 13.2. Юнит (чистая логика, переносится как есть)
`reconcile` (planReconciliation / decideAbsenceDeletions / mass-delete guards),
`layout` (коллизии/санитизация), `computePullActions`, `computePushActions`,
`classifyRenameMoves`, `bodyHash`.
### 13.3. Интеграция (нативный адаптер)
`GitmostDataSource` против тестовой БД: `listSpaceTree`/`getPageJson` корректно
маппят; `createPage`/`movePage`/`deletePage`/`importPageMarkdown` пишут через
collab и проставляют `lastUpdatedSource='git-sync'`; loop-guard не зацикливается
(write → poll → no-op).
### 13.4. e2e (под локом)
Полный pull→push round-trip на временном vault + временном спейсе: правка в
Docmost доезжает в файл и наоборот; конфликт даёт маркеры и блокирует push.
---
## 14. Риски и открытые пункты
1. **Схема-совместимость конвертера** (§3.3, §13.1) — главный риск; гейт
обязателен до фазы B.
2. **`AuthProvenanceData`** — точную форму типа подтвердить; возможно, потребует
расширения enum источника на сервере и в истории.
3. **Согласованность Yjs** — писать строго через `openDirectConnection`/`transact`;
не трогать `content`-колонку напрямую.
4. **`position` для move** — обязателен в Docmost-move; нужен
`fractional-indexing-jittered` между соседями (соседей брать сортировкой
`position COLLATE "C"`).
5. **`git` в рантайме** — добавить в Dockerfile.
6. **`ScheduleModule.forRoot()`** — не задублировать `forRoot`.
7. **Сервисный пользователь записи** (`GIT_SYNC_SERVICE_USER_ID`) — от чьего имени
идут create/move (влияет на `creatorId`/права); согласовать политику.
8. **Конфликты и удаления** — фаза D строго по SPEC §8/§9 (маркеры никогда не
уезжают в Docmost).
---
## 15. Чек-лист изменений по файлам
**Новый пакет**
- `packages/git-sync/**` — движок + чистый конвертер (§2), `package.json`
(`@docmost/git-sync`, `workspace:*`), `tsconfig.json`.
**Сервер (`apps/server/src`)**
- `integrations/git-sync/**` — модуль, оркестратор, адаптер, листенер (§6).
- `app.module.ts` — импорт `GitSyncModule`.
- `collaboration/collaboration.module.ts` — экспорт `CollaborationGateway`.
- `collaboration/extensions/persistence.extension.ts` — источник `'git-sync'` (§8.1).
- `core/space/dto/update-space.dto.ts``gitSyncEnabled?` (§7.1).
- `core/space/services/space.service.ts` — обработка флага.
- `database/repos/space/space.repo.ts``updateGitSyncSettings` (§7.1).
- `integrations/environment/environment.validation.ts` + `environment.service.ts`
новые ENV (§7.2).
- `Dockerfile` — пакет `git`.
**Клиент (`apps/client/src`)**
- `features/space/components/edit-space-form.tsx` — тоггл git-sync.
- `features/space/types` — поле `settings.gitSync`.
- `features/page-history/types/page.types.ts` + `components/history-item.tsx`
значение `'git-sync'` в `lastUpdatedSource`.
**Корень**
- `pnpm-workspace.yaml` уже покрывает `packages/*`; `apps/server/package.json`
зависимость `@docmost/git-sync: workspace:*`.

359
docs/mobile-app-plan.md Normal file
View File

@@ -0,0 +1,359 @@
# Мобильное приложение gitmost — исследование и план
> Статус: исследовательский + проектный документ.
> Контекст: gitmost — форк Docmost, чистое веб-приложение. Отдельного
> мобильного (нативного/устанавливаемого) приложения **нет**.
> Цель: определить путь к мобильным приложениям — **iOS обязательно, Android
> как пойдёт** — с заделом на оффлайн в будущем (оффлайн сейчас не требуется).
Документ фиксирует, что уже есть в коде, почему путь к мобилке предопределён
устройством продукта, сравнивает варианты и описывает рекомендуемый план с
привязкой к файлам.
---
## 1. TL;DR
1. **Нативного приложения нет.** В проекте отсутствуют Capacitor, React Native,
Cordova и т.п. Мобильного клиента ещё не начинали.
2. **Адаптивная веб-версия — есть, и довольно проработанная.** Веб-клиент
открывается с телефона как mobile-friendly сайт: сворачиваемый сайдбар-drawer,
отдельные мобильные компоненты (история, поиск, хлебные крошки), responsive-
примитивы Mantine, mobile-tuned `viewport`. Это готовый фундамент UI.
3. **Ядро продукта — веб-редактор — нативно не воспроизвести.** TipTap 3
(ProseMirror) + совместное редактирование на Yjs/Hocuspocus плотно сшиты с
React. Production-порта Yjs под Swift/Kotlin нет. Любой реалистичный путь
оставляет редактор в **WebView**.
4. **API уже готов к нативному клиенту.** Сервер принимает JWT не только из
cookie, но и из заголовка `Authorization: Bearer`. Есть точка входа для
вебсокета совместного редактирования (`POST /auth/collab-token`).
5. **Рекомендуемый путь — Capacitor:** обернуть существующий React-SPA в
нативную оболочку (iOS + Android из одного кода), добавить нативные плагины
(push, биометрия, share, файлы). Эволюция в гибрид (нативная навигация +
WebView-редактор) делается потом инкрементально, без переписывания.
6. **Оффлайн-будущее уже заложено** (Yjs + `y-indexeddb`). Детальный план —
в [offline-sync-plan.md](offline-sync-plan.md); мобильное приложение этот
план переиспользует, а не дублирует.
7. **Главный блокер — не технический, а лицензионный.** AGPL форка несовместима
с условиями App Store, если зашивать веб-клиент в бинарник: DRM/usage-rules
Apple = «дополнительные ограничения», запрещённые AGPLv3 §10. Развязки —
грузить клиент с сервера (не из `.ipa`), PWA или sideload. Детали и матрица —
в §9; закрывать **до** кода обёртки.
---
## 2. Текущее состояние (как есть)
### 2.1. Стек
| Слой | Технологии |
|---|---|
| Бэкенд | NestJS 11 + Fastify, Kysely/Postgres, Redis/BullMQ. API в стиле RPC-POST (соглашение Docmost). Аутентификация — JWT. |
| Фронт | React 18 + Vite + Mantine + TanStack Query + i18next. Обычный SPA. |
| Ядро (редактор) | TipTap 3 (ProseMirror) + совместное редактирование на Yjs через Hocuspocus — см. [page-editor.tsx](../apps/client/src/features/editor/page-editor.tsx). |
| Оффлайн-фундамент | `yjs` + `y-indexeddb` уже в зависимостях клиента (локальная CRDT-копия тела документа). |
### 2.2. Мобильного приложения нет
В `package.json` и `apps/*/package.json` нет `capacitor`, `react-native`,
`cordova`, `expo`. Нативной оболочки в репозитории не заведено.
### 2.3. Адаптивная веб-версия — есть
| Что | Где |
|---|---|
| Адаптивная оболочка Mantine `AppShell` с `breakpoint: "sm"`, раздельные состояния `collapsed.mobile` / `collapsed.desktop` | [global-app-shell.tsx](../apps/client/src/components/layouts/global/global-app-shell.tsx) (L85–99) |
| Отдельный мобильный сайдбар-drawer (`mobileSidebarAtom` отделён от `desktopSidebarAtom`), авто-закрытие при навигации по дереву | [sidebar-atom.ts](../apps/client/src/components/layouts/global/hooks/atoms/sidebar-atom.ts), [space-tree-row.tsx](../apps/client/src/features/page/tree/components/space-tree-row.tsx) (L147–148) |
| Мобильная модалка истории + свой CSS | [history-modal.tsx](../apps/client/src/features/page-history/components/history-modal.tsx) (L17–19), `history-modal-mobile.tsx` |
| Мобильный контрол поиска | [search-control.tsx](../apps/client/src/features/search/components/search-control.tsx) (L38–42) |
| Мобильный рендер хлебных крошек через `useMediaQuery` | [breadcrumb.tsx](../apps/client/src/features/page/components/breadcrumbs/breadcrumb.tsx) (L41) |
| Responsive-примитивы `hiddenFrom`/`visibleFrom` (~16 мест), медиа-запросы в CSS-модулях | по всему `apps/client/src` |
| Mobile-tuned viewport (`width=device-width, user-scalable=no`) | [index.html](../apps/client/index.html) (L8) |
> Важно: адаптив проверялся в мобильном **браузере**, а не в WebView нативной
> оболочки. Перед сборкой приложения нужно прогнать UI как PWA/в WebView и
> отловить отличия (жесты, экранная клавиатура/IME в редакторе, safe-area).
### 2.4. Готовность API к нативному клиенту
- **Bearer-токен уже поддержан.** JWT извлекается из cookie **или** из заголовка
`Authorization`: см. [jwt.strategy.ts](../apps/server/src/core/auth/strategies/jwt.strategy.ts) (L27–29).
Серверная сторона нативной авторизации менять не нужно.
- **Токен сейчас не возвращается в теле логина.** [`login`](../apps/server/src/core/auth/auth.controller.ts)
(L55–105) кладёт JWT только в `httpOnly`-cookie ([`setAuthCookie`](../apps/server/src/core/auth/auth.controller.ts) L222–230).
- **Точка входа вебсокета коллаборации:** [`POST /auth/collab-token`](../apps/server/src/core/auth/auth.controller.ts) (L187–193).
- **CORS открыт без конфигурации:** [`app.enableCors()`](../apps/server/src/main.ts) (L144).
- **OpenAPI/Swagger отсутствует** (`@nestjs/swagger` не подключён) — авто-генерации
типизированного клиента сейчас нет.
---
## 3. Почему путь к мобилке предопределён
Три факта диктуют решение независимо от моды:
1. **Редактор практически невозможно переписать нативно.** ProseMirror + весь
набор TipTap-расширений + Yjs-CRDT — это не «поле ввода». Нативного
production-порта Yjs под Swift/Kotlin нет (есть Rust `yrs` с биндингами, но
это отдельный тяжёлый проект). Переписывание ядра нативно = годы и вечное
расхождение с веб-версией. **Вывод: редактор остаётся в WebView.**
2. **API уже умеет нативного клиента** (Bearer, collab-token).
3. **Оффлайн-фундамент уже заложен** на веб-уровне (Yjs + `y-indexeddb`),
и он работает внутри WebView.
---
## 4. Три возможных пути
| Путь | Суть | Плюсы | Минусы | Вердикт |
|---|---|---|---|---|
| **A. Полностью нативно** (Swift/Kotlin) | Переписать всё, включая редактор и CRDT-синк | Максимально нативный UX | Воспроизвести ProseMirror + расширения + Yjs; несоразмерные трудозатраты; вечное отставание от веба | ❌ Не наш случай |
| **B. WebView-обёртка SPA (Capacitor)** | Обернуть существующий React-клиент в нативную оболочку, native-возможности — плагинами | Реюз ~100% кода (редактор, коллаборация, оффлайн); один кодовый бэйз → iOS+Android; быстро | Менее «нативно»; риск отказа App Store за «просто сайт» (4.2) — лечится нативной ценностью | ✅ Рекомендуется |
| **C. Гибрид: нативная оболочка + WebView-редактор** | Навигация/списки/поиск/логин — нативно (React Native/Swift), экран редактирования — web в WebView | Лучший UX; путь Notion/Linear | Заметно больше работы; нужен мост JS↔native | ⚖️ Цель эволюции из B |
---
## 5. Рекомендуемый путь
**B (Capacitor) как первый релиз, с заложенной эволюцией в C.**
Почему:
- Capacitor создан под сценарий «есть веб-приложение → хочу его в App Store с
нативными возможностями». Переиспользуется весь React-клиент и, главное,
редактор — то, что нативно не сделать.
- Один кодовый бэйз закрывает «iOS обязательно» и «Android как пойдёт»
одновременно, без второй команды.
- Адаптивная вёрстка уже есть (см. §2.3) — переверстывать под телефон с нуля
не нужно; работа смещается в нативную обвязку.
- Оффлайн-будущее подготовлено (Yjs + `y-indexeddb`); см.
[offline-sync-plan.md](offline-sync-plan.md).
- Когда упрётесь в UX отдельных экранов — их по одному выносят в нативную
оболочку, оставив редактор в WebView. То есть B → C делается инкрементально.
Почему **не** чистый React Native сразу: редактор всё равно придётся держать в
WebView (ядро web-only), но при этом теряется прямой реюз остального React-кода
и появляется мост как обязательная сложность с первого дня — для iOS-first
старта это лишний оверхед.
> Альтернатива: если критичен максимально нативный UX с первого релиза и есть
> ресурс — сразу путь C на React Native (Expo) с WebView только под редактор.
> Это сознательный размен «больше работы сейчас» за «более нативное ощущение».
⚠️ **Лицензионная оговорка к iOS.** Обычный Capacitor зашивает веб-билд
`apps/client` в `.ipa` — для публикации в App Store это **нарушает AGPL**
(см. §9). Выбор Capacitor для **Android** остаётся в силе, но на **iOS**
веб-клиент нельзя бандлить в бинарник: либо грузить его с сервера
(`server.url`), либо PWA. То есть рекомендация «B (Capacitor)» применима к
Android как есть, а к iOS — только в конфигурации без зашитого AGPL.
---
## 6. Что доработать на бэкенде
Немного, но конкретно:
1. **Выдача токена в теле ответа для нативного хранения.** Сейчас логин кладёт
JWT только в `httpOnly`-cookie и не возвращает его в body. На мобиле
`httpOnly`-cookie между разными origin (`capacitor://localhost` ↔ API) — боль
с SameSite/CORS. Чище: мобильный логин-флоу, возвращающий JWT в ответе, чтобы
хранить его в Keychain/Keystore и слать как `Authorization: Bearer`. Сервер
уже принимает Bearer — менять надо только **выдачу**.
Файлы: [auth.controller.ts](../apps/server/src/core/auth/auth.controller.ts).
2. **CORS.** Сейчас [`app.enableCors()`](../apps/server/src/main.ts) (L144) без
конфигурации. Под мобильные origin'ы и для безопасности задать явный whitelist.
3. **Push-уведомления.** Модуль `notification` уже есть — добавить регистрацию
device-token и интеграцию **APNs** (iOS) / **FCM** (Android).
4. **Опционально — OpenAPI/Swagger.** Сейчас спецификации нет; добавить
`@nestjs/swagger` дёшево и сильно ускорит мобильную разработку
(типизированный клиент).
---
## 7. Android-специфика
На пути Capacitor Android едет почти бесплатно (`npx cap add android` из того же
веб-билда), но есть нюансы:
- **Движок в плюс.** Android System WebView (Chromium) обновляется через Play
Store независимо от ОС и обычно свежее iOS WKWebView. Более рискованный движок
по совместимости — это iOS, а не Android.
- **Фрагментация.** Дешёвые/старые устройства с малой памятью и устаревшим
WebView; стек тяжёлый (ProseMirror + Yjs + mermaid + katex + excalidraw) —
тестировать на бюджетных аппаратах.
- **Обвязка под Android:** аппаратная/жестовая кнопка «Назад» (навигация внутри
приложения, а не выход), **FCM** для push, Android App Links (вместо iOS
Universal Links), подписание и Play Console.
- **Главный риск именно для Android — ввод текста в ProseMirror на Gboard/IME.**
Историческая боль `contenteditable` на Android (прыжки курсора, дубли символов
при композиции). Стало лучше, но **проверять в первую очередь и рано**.
- **Магазин.** Google Play лояльнее к webview-обёрткам, чем App Store; риск
«отклонят как просто сайт» для Play практически неактуален.
---
## 8. iOS-специфика
- **WKWebView** на движке WebKit жёстко привязан к версии ОС — это более
рискованный по совместимости движок (тестировать прежде всего его).
- **App Store guideline 4.2 (minimum functionality).** Чистая webview-обёртка
рискует отклонением «это просто сайт». Лечится реальной нативной ценностью:
push, share-extension, биометрический разблок, оффлайн-кэш — всё это Capacitor
даёт плагинами.
- **safe-area** под «чёлку»/системные панели, поведение экранной клавиатуры в
редакторе.
---
## 9. Лицензионный блокер: AGPL ↔ App Store (iOS)
> Это не инженерная, а **лицензионная** задача — закрывать её надо **до** кода
> обёртки, иначе можно сделать приложение, которое некуда легально опубликовать.
> Ниже — инженерно-лицензионный разбор, **не** юридическая консультация; финально
> подтверждать у того, кто разбирается в лицензиях.
### 9.1. Суть конфликта
gitmost — форк Docmost под **AGPL-3.0** (константа форка: «100% open, AGPL-only»).
Две вещи несовместимы:
- **AGPLv3 §10** (последний абзац) запрещает накладывать на получателя кода
**любые дополнительные ограничения** сверх самой лицензии.
- **Стандартный EULA App Store** ровно их и накладывает: **FairPlay/DRM**,
привязка установки к Apple ID с лимитом устройств (**usage rules**), запрет
свободного перераспространения бинарника.
Приняв условия Apple, чтобы попасть в App Store, вы нарушаете AGPL кода, который
раздаёте.
### 9.2. Почему это бьёт именно по форку
Запрет «дополнительных ограничений» связывает **лицензиатов, но не самого
правообладателя**: владелец 100% копирайта может опубликовать свой код в App Store.
Но в gitmost бóльшая часть копирайта принадлежит **upstream-Docmost** и
контрибьюторам — вы выступаете дистрибьютором *чужого* AGPL-кода и не можете
единолично добавить App-Store-исключение.
Прецеденты: **VLC** (удалён из App Store в 2011 по жалобе на конфликт GPL с
условиями стора; вернулся только после перелицензирования и согласия
правообладателей), **GNU Go** — снят по той же причине. Это не теоретический риск.
### 9.3. Ключевой принцип развязки: лицензия смотрит на `.ipa`, а не на устройство
Определяющее — **что раздаёт сам Apple** (`.ipa` под FairPlay) и **кто раздаёт
AGPL-байты**, а не то, окажутся ли они в итоге на устройстве:
- AGPL **внутри `.ipa`** → получен под ограничениями Apple → **нарушение**.
- AGPL **скачан с вашего сервера** → получен от вас под AGPL (исходники открыты,
§13 выполнен) → ограничения Apple на него **не** накладываются, даже если бандл
кэшируется в песочнице приложения.
Следствие: **офлайн на iOS легально достижим** — если кэшированный бандл пришёл с
вашего сервера, а не из `.ipa`. Ограничение тут не лицензионное, а в **ревью
Apple** (см. §9.5).
### 9.4. Варианты «грузить веб-клиент с сервера»
**A. WebView навигируется на хостед-клиент (`server.url`).** Capacitor умеет
`server: { url: 'https://app.example.com' }` — оболочка грузит WebView с удалённого
URL, мост и нативные плагины по-прежнему инжектятся. В `.ipa` — ноль AGPL.
- Плюс: лицензионно самый чистый; **origin = ваш домен**, поэтому cookie/CORS
работают как в браузере (боль `capacitor://localhost` ↔ API из §6 исчезает —
токен в body/Keychain может и не понадобиться).
- Минус: холодный старт требует сети; сервер лёг → приложение кирпич; офлайна по
умолчанию нет.
**B. OTA: пустой шелл скачивает и кэширует бандл.** Шелл при первом запуске тянет
JS-бандл с вашего сервера и кэширует как веб-ассеты (механизм Cordova/CodePush).
Open-source self-host-вариант — `@capgo/capacitor-updater` (важно для AGPL-проекта:
без привязки к проприетарному Appflow).
- Плюс: **даёт офлайн** — кэш AGPL легален, т.к. распространён вами, а не Apple.
- Минус: упирается в политику Apple по hot-update (§9.5).
**Не-обходы (мифы):** «никто не засудит» — это нарушение, а не обход; «LGPL-нуть
обёртку» — не помогает (проблема в AGPL-веб-клиенте, а не в обёртке); «mere
aggregation» — не катит: зашитый бандл это комбинированное распространяемое
произведение, а не простая агрегация.
### 9.5. Гейты Apple
| # | Guideline | Суть | Влияние |
|---|---|---|---|
| 1 | **2.5.2** (исполняемый код) | Скачивать/исполнять **нативный** код нельзя, **но** есть исключение для скриптов, исполняемых встроенным WebKit/JavascriptCore, если они не меняют назначение приложения | Загрузка веб-клиента в `WKWebView` под исключение попадает: вариант A — чистый, B — терпимый, но с границами |
| 2 | **4.2** (minimum functionality) | Чистый WebView-«просто сайт» рискует отклонением | Лечится нативной ценностью в оболочке (push/APNs, биометрия, share, файлы — ваш нативный код, не AGPL) |
| 3 | конфликт двух гейтов | «Лицензионно чистый» вариант (пустой шелл качает всё) — самый рискованный для ревью; «безопасный для ревью» (зашить веб-билд в `.ipa`) — лицензионное нарушение | **Совместить (офлайн) + (чистая AGPL) + (низкий риск ревью) в одной конфигурации нельзя — выбираете любые два** |
Безопасность: раз исполняете удалённый код — только HTTPS, желательно cert-pinning
(подмена сервера = произвольный JS в WebView пользователя).
### 9.6. Итоговая матрица распространения iOS
| Конфигурация | AGPL-чистота | Офлайн | Риск ревью Apple |
|---|---|---|---|
| A. `server.url` на хостед-клиент | ✅ чистая | ❌ нет | средний (4.2, лечится плагинами) |
| B. OTA пустой шелл + кэш бандла | ✅ чистая | ✅ есть | выше (2.5.2 + 4.2) |
| Зашить веб-билд в `.ipa` (обычный Capacitor) | ❌ нарушение | ✅ | низкий |
| **PWA** | ✅ чистая | ✅ | App Store не нужен |
| Sideload / EU DMA-маркетплейсы (iOS 17.4+) | ✅ чистая | ✅ | вне App Store; **только ЕС** |
**Вывод:** для iOS **PWA** — самое дешёвое решение, закрывающее всё сразу. Если
присутствие именно в App Store критично — **вариант A** (`server.url` + нативные
плагины под 4.2) легальный и реалистичный ценой «онлайн для холодного старта».
Офлайн в App Store (вариант B) технически и лицензионно возможен, но это
максимальный риск на ревью — закладывать только если офлайн на iOS обязателен.
Совместить «App Store + зашитый офлайн AGPL» легально нельзя, пока копирайт не ваш.
---
## 10. Оффлайн в будущем
Оффлайн сейчас не требуется, но позиция хорошая:
- Тело документа уже редактируется через Yjs (CRDT) + `y-indexeddb` — локальная
копия и автослияние правок работают, в том числе в WebView.
- «Полностью онлайн» — это всё вокруг тела (навигация, заголовки, комментарии,
CRUD, вложения, авторизация). Их оффлайн-синхронизация описана отдельным
планом с этапами M0…M4 — см. [offline-sync-plan.md](offline-sync-plan.md).
- Мобильное приложение **переиспользует** этот план, а не строит оффлайн заново.
Нюанс Android: System WebView под нехваткой места может чистить хранилище →
для оффлайна, возможно, понадобится дублировать критичные данные в нативное
хранилище, чтобы локальные копии не вычищались.
---
## 11. Открытые вопросы (зафиксировать до старта)
- **Q1.** Путь: Capacitor (B) с эволюцией в гибрид, или сразу React Native (C)?
Рекомендация — B.
- **Q2.** Мобильная авторизация: отдельный логин-флоу с токеном в body + Keychain/
Keystore + Bearer (рекомендуется) или попытка работать через cookie в WebView?
- **Q3.** Push: APNs + FCM сразу или iOS-first?
- **Q4.** Подключать ли OpenAPI/Swagger для генерации мобильного клиента?
- **Q5.** Когда включать оффлайн (M0…M4 из offline-sync-plan.md) относительно
первого мобильного релиза?
- **Q6.** iOS-дистрибуция при AGPL (§9): App Store через `server.url`
(онлайн-клиент, без зашитого AGPL), PWA или sideload/EU-маркетплейсы? Этот
лицензионный путь нужно подтвердить **до** кода обёртки. Рекомендация — PWA для
iOS, Capacitor для Android.
---
## 12. Чеклист первого шага (бутстрап Capacitor, iOS-first)
- [ ] **Закрыть лицензионный путь iOS (§9) ДО кода обёртки:** выбрать
`server.url` / PWA / sideload и подтвердить у разбирающегося в лицензиях.
- [ ] **Не бандлить AGPL-веб-клиент в iOS `.ipa`** (DRM/usage-rules App Store ⟂
AGPLv3 §10) — на iOS грузить клиент с сервера или идти через PWA.
- [ ] Прогнать существующий адаптивный UI как PWA/в WebView, отловить отличия
(жесты, IME в редакторе, safe-area).
- [ ] Добавить Capacitor в монорепо, нацелить на веб-билд `apps/client`
(Android — зашитый билд; iOS — `server.url`/PWA без зашитого AGPL, см. §9).
- [ ] `npx cap add ios` (Android — `npx cap add android`, когда будет готова обвязка).
- [ ] Бэкенд: мобильный логин-флоу с токеном в body; хранить токен в Keychain/
Keystore; слать `Authorization: Bearer`.
- [ ] Бэкенд: явный CORS-whitelist под мобильные origin'ы.
- [ ] Native-плагины под App Store 4.2: push, биометрия, share, файлы.
- [ ] Push: APNs (iOS); FCM добавить вместе с Android.
- [ ] Проверить вебсокет коллаборации из WebView (`/auth/collab-token` + Hocuspocus).
- [ ] (Опционально) Подключить `@nestjs/swagger`.

View File

@@ -0,0 +1,205 @@
# Множественные курсоры (multi-cursor editing) — анализ и подходы
> Статус: **черновик / обсуждение**. Код не пишется; цель этого документа — зафиксировать архитектурный вердикт, развилку подходов и рекомендацию.
>
> Важное уточнение термина: речь про **несколько собственных курсоров одного пользователя в одном документе** (как в VS Code: `Alt+Click` добавить курсор, `Ctrl/Cmd+D` — следующее вхождение, `Ctrl/Cmd+Shift+L` — все вхождения), чтобы править несколько мест одновременно. **Не** про collaborative-курсоры соавторов — те в проекте уже работают (`CollaborationCaret` + Hocuspocus awareness).
>
> Зафиксированные выводы (см. разделы ниже):
> - Полноценный VS Code-style multi-cursor нельзя «включить флагом»: движок редактора (ProseMirror) хранит в состоянии **ровно одно выделение**, в отличие от Monaco/CodeMirror с массивом selections. Готового production-пакета в экосистеме Tiptap/ProseMirror нет.
> - ~80% пользовательской ценности даёт ограниченный MVP («выделить все вхождения + одновременный ввод»), который опирается на **уже работающий** в проекте механизм `replaceAll` из расширения `SearchAndReplace`.
> - Рекомендация: реализовать MVP (Вариант A); полноценный набор (Вариант B) — отдельный большой эпик, имеет смысл браться только если MVP окажется недостаточно.
## 0. О чём речь (и о чём НЕ речь)
**Что хочется** — несколько кареток в одном документе; набранный текст и `Backspace`/`Delete` применяются ко всем позициям одновременно; одно `Cmd/Ctrl+Z` откатывает всю мульти-правку целиком. Сценарии из VS Code:
| Действие | Горячая клавиша | Суть |
| --- | --- | --- |
| Добавить курсор | `Alt+Click` | Курсор в произвольной точке клика |
| Добавить курсор строкой выше/ниже | `Ctrl/Cmd+Alt+↑/↓` | Копия курсора на соседней строке |
| Выделить следующее вхождение | `Ctrl/Cmd+D` | Добавить к набору следующее вхождение слова |
| Выделить все вхождения | `Ctrl/Cmd+Shift+L` | Все вхождения сразу |
| Колонковое/блочное выделение | `Alt+drag` | Прямоугольник курсоров по строкам |
**О чём НЕ речь** — collaborative-курсоры (видеть, где сейчас находится другой соавтор). Это в Gitmost уже есть и работает отдельно: `CollaborationCaret` в [extensions.ts](apps/client/src/features/editor/extensions/extensions.ts) подключается через `collabExtensions(...)`, а сервер Hocuspocus по умолчанию форвардит awareness. Этот документ её не касается.
## 1. Архитектурный вердикт: почему это не «включить флаг»
Редактор Gitmost — **Tiptap поверх ProseMirror** (`@tiptap/core` 3.20.4, `@tiptap/pm` 3.20.4). Принципиальное отличие от VS Code: Monaco/CodeMirror хранит **массив selections**, а ProseMirror хранит в `EditorState` **ровно один** `Selection`:
```
EditorState = { doc, selection: Selection /* единственное */, storedMarks, ... }
```
На этой единственной selection завязано в ProseMirror почти всё:
- команды ввода (`insertText`, `insertContent`) работают с текущей `selection`;
- обработчики `handleTextInput`, `handleKeyDown`, `handlePaste`, `handleDrop` получают одно выделение;
- история (undo/redo) оперирует transactions с одним выделением;
- **критично для нас** — синхронизация через y-prosemirror тоже опирается на единственную selection (свою «awareness-selection» отдельно, но не на локальный массив).
Доказательства из первоисточников:
- Tiptap issue [ueberdosis/tiptap#3370](https://github.com/ueberdosis/tiptap/issues/3370) «Multiple cursors per user» — открыт, официальной поддержки нет.
- Ответ **marijnh** (автор ProseMirror) на [discuss.prosemirror.net](https://discuss.prosemirror.net/t/multi-cursor-editing-in-prosemirror-or-tiptap/8397): готовой реализации нет, но путь обозначен — **«кастомный подкласс `Selection`, по аналогии с `CellSelection` из `prosemirror-tables`, который умеет содержать несколько отдельных диапазонов»**.
- Production-готового пакета multi-cursor для Tiptap/ProseMirror в npm **нет** — пилить с нуля.
**Вывод:** полноценный multi-cursor — это R&D-проект против устройства движка, а не настройка. Но самый ценный сценарий («поправить повторяющиеся одинаковые куски сразу в нескольких местах») реализуем дёшево, потому что массовая правка в одном transaction у нас уже написана.
## 2. Что уже есть в коде и переиспользуемо
В проекте уже есть расширение [SearchAndReplace](packages/editor-ext/src/lib/search-and-replace/search-and-replace.ts) (в `editor-ext`, подключено и в клиентском редакторе). Это почти готовый фундамент для главного сценария multi-cursor:
- [search-and-replace.ts:100-174](packages/editor-ext/src/lib/search-and-replace/search-and-replace.ts#L100-L174) — `processSearches` уже находит **все** вхождения терма и возвращает массив `results: Range[]` (диапазоны `from`/`to`).
- [search-and-replace.ts:157-168](packages/editor-ext/src/lib/search-and-replace/search-and-replace.ts#L157-L168) — уже рисует `Decoration.inline` для **всех** совпадений одновременно (это переиспользуется для подсветки «активных» курсоров).
- [search-and-replace.ts:213-246](packages/editor-ext/src/lib/search-and-replace/search-and-replace.ts#L213-L246) — `replaceAll` уже выполняет **массовую правку в одном transaction**, идя **с конца**, чтобы корректно учитывать сдвиг позиций после каждой вставки/удаления. Это ровно та механика, что нужна для одновременного ввода в несколько курсоров.
```ts
// search-and-replace.ts:213-246 — готовый эталон массового transaction
const replaceAll = (replaceTerm, results, { tr, dispatch }) => {
// Process replacements in reverse order to avoid position shifting issues
for (let i = resultsCopy.length - 1; i >= 0; i -= 1) {
const { from, to } = resultsCopy[i];
// ... собрать marks, удалить старый текст, вставить новый
tr.delete(from, to);
if (replaceTerm) tr.insert(from, tr.doc.type.schema.text(replaceTerm, marks));
}
dispatch(tr); // одна транзакция → одна запись в истории (один undo)
};
```
То есть самая хитрая часть multi-cursor — применить правку к N позициям за один `tr` с корректным маппингом — у нас **уже работает** в `replaceAll`.
Дополнительно в клиенте уже есть инфраструктура для горячих клавиш: в [page-editor.tsx:258-280](apps/client/src/features/editor/page-editor.tsx#L258-L280) есть блок `handleDOMEvents.keydown`, и используется утилита `platformModifierKey` (Cmd на macOS, Ctrl на других ОС — ровно то, что нужно для совместимых с VS Code шорткатов).
## 3. Развилка: три подхода
### 3.1 Вариант A — MVP: «выделить все вхождения + одновременный ввод» (рекомендация)
Реализует главный сценарий из VS Code:
- `Ctrl/Cmd+Shift+L` — берём слово под курсором (или текущее выделение), находим все вхождения, превращаем их в «активные курсоры»;
- `Ctrl/Cmd+D` — добавить следующее вхождение к набору;
- дальнейший ввод текста и `Backspace`/`Delete` применяются ко всем позициям одновременно через один transaction (копия механики `replaceAll`);
- `Esc` — выйти из multi-cursor (один курсор).
**Что переиспользуется:** массив `results` и логика массового `tr` берутся из [SearchAndReplace](packages/editor-ext/src/lib/search-and-replace/search-and-replace.ts) почти готовыми.
**Визуальные каретки:** через `Decoration.widget(pos, () => cursorDomElement)` — ProseMirror умеет «из коробки»; для диапазонов — `Decoration.inline`.
**Объём работы:** средний. Один новый Tiptap-extension в `packages/editor-ext/src/lib/multi-cursor/` + wiring в клиентском редакторе + горячие клавиши + CSS + юнит-тесты.
**Риски:** средние и ограниченные. Скоуп узкий (только текстовые вхождения), сценарии предсказуемые, тестируются конечным числом кейсов.
### 3.2 Вариант B — полноценный multi-cursor (как Monaco)
Полный набор из §0: `Alt+Click` (произвольная точка), `Alt+drag` (колонковое выделение), `Ctrl/Cmd+Alt+↑/↓` (курсор на соседней строке), а также произвольный набор **несвязанных** курсоров (не по вхождениям).
**Путь:** кастомный `MultiSelection extends Selection` (по подсказке мейнтейнера ProseMirror, по образцу `CellSelection` из `prosemirror-tables`), плюс **полная маршрутизация ввода**:
- перехват `handleTextInput`, `handleKeyDown` (Backspace/Delete/стрелки/Enter/Home/End), `handlePaste`, `handleDrop`;
- построение одного мульти-position transaction для каждого события;
- визуальный рендер нескольких кареток и диапазонов;
- undo-группировка (одно `Cmd/Ctrl+Z` откатывает все позиции разом);
- перемапливание позиций курсоров при **любых** изменениях документа, включая remote Yjs-правки.
**Объём работы:** очень большой (многие недели). Готового референса в экосистеме нет — это самостоятельный R&D с отладкой на реальном контенте.
**Риски:** высокие — см. риск-карту в §4 (IME/composition, конфликты со сложными нодами вроде таблиц и code-блоков, взаимодействие с коллаборацией).
### 3.3 Вариант C — эмуляция через коллаборацию (отбрасываем)
Идея из Tiptap#3370: «проигрывать правки через отдельного pseudo-user через collaborative-слой». **Не берём:** ломает provenance правок (в проекте есть бейдж авторства «AI agent» в истории страницы, migration `20260616T130000-agent-provenance` — такой хак его загрязнит и запутает), портит историю undo, концептуально криво и хрупко.
### Сводка
| | Вариант A (MVP) | Вариант B (full) | Вариант C |
| --- | --- | --- | --- |
| Сценарии | «все вхождения», «+следующее вхождение» | полный набор VS Code | — |
| База | готовый `replaceAll` | кастомный `Selection` с нуля | collaborative-слой |
| Объём | средний | очень большой | — |
| Риск | средний (ограниченный) | высокий | высокий |
| Рекомендация | **да** | только если A мало | нет |
## 4. Риск-карта
Для обоих вариантов, но в варианте B каждый пункт — сильно жёстче.
| Зона | Суть | Где больнее |
| --- | --- | --- |
| **Undo/redo** | Мульти-правка должна быть **одной** записью истории (одно `Cmd/Ctrl+Z` откатывает все позиции). Группировка через мету истории, см. как `replaceAll` делает один `dispatch(tr)`. | B |
| **Коллаборация (Yjs)** | Пока активны ваши курсоры, может прилететь remote-правка — позиции курсоров надо перемапливать через `tr.mapping.map(pos)`. Один локальный `tr` с правками в N местах Yjs переварит нормально (это несколько правок в одном Update). | B |
| **IME / dead keys** | Ввод через composition (буквы с акцентами, CJK) одновременно в несколько курсоров — крайне хрупко; для MVP (Вариант A) проще: на время composition можно схлопывать к одному курсору. | B |
| **Schema / сложные узлы** | Курсор внутри code-блока + курсор в заголовке: одна и та же вставка может нарушить schema одного узла, но не другого. Нужно gracefully skip конфликтующие курсоры (не ронять весь `tr`). | B (A — почти не касается, т.к. вхождения — текстовые) |
| **Таблицы / callouts** | `CellSelection`-подобная логика внутри таблиц — отдельная вселенная; в MVP курсоры в таблицах можно просто не поддерживать (как и в `replaceAll`). | B |
| **Производительность** | Очень много курсоров → большой `DecorationSet` и длинный `tr`. Практически редко > нескольких десятков, но заложить верхнюю границу. | общий |
## 5. Рекомендация
**Брать Вариант A.** Он закрывает главный use-case («быстро поправить повторяющиеся одинаковые куски сразу в нескольких местах»), опирается на **уже работающий** `replaceAll`-механизм, и риск ограничен. Вариант B имеет смысл отдельным эпиком — только если A окажется недостаточно и будет устойчивый спрос на произвольные курсоры; тогда начинать стоит с прототипа кастомного `MultiSelection`, чтобы доказать жизнеспособность на сложных узлах до полной реализации.
Сознательные границы MVP (Вариант A) — см. §6.7.
## 6. План реализации Варианта A (MVP) — по шагам
### 6.1. Новый extension
Создать `packages/editor-ext/src/lib/multi-cursor/multi-cursor.ts` — Tiptap `Extension`:
- плагин (ProseMirror `Plugin`) со state = `{ cursors: {from: number, to: number}[] }` и `DecorationSet` (виджеты-каретки для точечных курсоров + `Decoration.inline` для диапазонов);
- команды:
- `selectAllOccurrences` — берёт слово под курсором (или текущее выделение), находит все вхождения (можно вынести общую с search-and-replace логику поиска в утилиту, чтобы не дублировать `processSearches`), заполняет `cursors`;
- `addNextOccurrence` (`Ctrl/Cmd+D`) — добавляет следующее вхождение к `cursors`;
- `exitMultiCursor` — очищает `cursors` (также вешается на `Esc`);
- обработчики в `props`:
- `handleTextInput(view, from, to, text)` — если `cursors` непустой, строит один `tr`, вставляя `text` в каждую позицию **с конца** (копия механики из [search-and-replace.ts:213-246](packages/editor-ext/src/lib/search-and-replace/search-and-replace.ts#L213-L246));
- `handleKeyDown``Backspace`/`Delete` аналогично (удаление символа перед/после каждой позиции);
- игнорировать/схлопнуть multi-cursor при начале composition (IME) — см. §4.
### 6.2. Маппинг позиций при изменениях документа
В `state.apply` плагина — при любом `docChanged` перемапливать все позиции через `tr.mapping.map(pos)` и удалять «схлопнувшиеся» (`from === to` после маппинга — это нормально для каретки). Это покрывает и собственные правки, и **remote Yjs-правки** (y-prosemirror применяет их как обычные transactions — маппинг работает одинаково).
### 6.3. Горячие клавиши
Добавить в существующий блок [page-editor.tsx:258-280](apps/client/src/features/editor/page-editor.tsx#L258-L280) (там уже есть `platformModifierKey`):
- `platformModifierKey + Shift + KeyL``selectAllOccurrences`;
- `platformModifierKey + KeyD``addNextOccurrence`;
- `Escape``exitMultiCursor`.
⚠️ Проверить конфликт `Ctrl/Cmd+D` с браузерным «добавить в закладки» (предотвратить через `event.preventDefault()`) и с любыми существующими биндингами редактора.
### 6.4. Регистрация
- экспортировать расширение из `packages/editor-ext/src/lib/multi-cursor/index.ts` и добавить в `packages/editor-ext/src/index.ts`;
- включить в `mainExtensions` в [extensions.ts](apps/client/src/features/editor/extensions/extensions.ts) (оно не зависит от коллаборации, поэтому идёт в основной набор, доступный и в обычном, и в коллаборативном редакторе).
### 6.5. CSS
Рядом с [collaboration.css](apps/client/src/features/editor/styles/collaboration.css) (и подключением через `styles/index.css`) — стили для классов вроде `.multi-cursor__caret` и `.multi-cursor__label`. Визуально отличать от collaborative-кареток (например, другим стилем/цветом), чтобы не путать свои мульти-курсоры с курсорами соавторов.
### 6.6. Тесты
Unit-тесты в `packages/editor-ext` (по образцу существующих там тестов) на:
- корректность массового `tr` (ввод/удаление в N позициях, проверка результирующего документа);
- маппинг позиций после локальной правки и после имитированной remote-правки;
- граничные случаи: курсоры на границах узлов, схлопывание, пустой набор.
### 6.7. Скоуп v1 / что сознательно НЕ входит
Чтобы держать риск в пределах, в MVP **не делаем** (явно фиксируем как out-of-scope):
- `Alt+Click` (произвольная точка) и `Alt+drag` (колонковое выделение) — это путь в Вариант B;
- `Ctrl/Cmd+Alt+↑/↓` (курсор на соседней строке) — то же;
- курсоры внутри таблиц, code-блоков и callouts — только обычный текст (как в `replaceAll`);
- одновременный ввод через IME в несколько позиций (на время composition схлопываем к одному курсору);
- курсоры, затрагивающие разные schema-узлы одновременно (если вставка нарушает schema в одной из позиций — пропускаем эту позицию, не роняем весь `tr`).
Эти границы — кандидаты на v2 / переход к Варианту B.
## 7. Открытые вопросы
1. **Выделение диапазонов vs точечные курсоры.** В VS Code `Ctrl/Cmd+Shift+L` выделяет целые слова (диапазоны). Делаем ли мы в MVP то же (диапазоны + одновременная замена всего слова), или только точечные каретки после конца слова? Рекомендация: диапазоны — это даёт «переименовать все эти слова сразу», что и есть главная ценность.
2. **Общая утилита поиска.** Вынести `processSearches` из search-and-replace в общую утилиту, чтобы не дублировать, или оставить независимую реализацию в multi-cursor? Рекомендация: вынести общую часть (поиск всех вхождений слова по документу), оба расширения используют её.
3. **Граница производительности.** Ввести ли хард-кап на число одновременных курсоров (например, 100) с предупреждением пользователю? Рекомендация: да, как страховка.
## 8. Источники
- [Tiptap issue #3370 — Multiple cursors per user](https://github.com/ueberdosis/tiptap/issues/3370)
- [discuss.ProseMirror — Multi-cursor editing in ProseMirror (ответ автора ProseMirror о кастомном подклассе Selection)](https://discuss.prosemirror.net/t/multi-cursor-editing-in-prosemirror-or-tiptap/8397)
- `prosemirror-tables` / `CellSelection` — референс реализации «выделения из нескольких диапазонов» для Варианта B.
- Внутренний код: [SearchAndReplace](packages/editor-ext/src/lib/search-and-replace/search-and-replace.ts) (эталон массового transaction), [page-editor.tsx](apps/client/src/features/editor/page-editor.tsx) (точки подключения горячих клавиш), [extensions.ts](apps/client/src/features/editor/extensions/extensions.ts) (регистрация расширений).

393
docs/offline-sync-plan.md Normal file
View File

@@ -0,0 +1,393 @@
# Offline-режим и синхронизация правок в gitmost
> Статус: проектный документ, готов к реализации.
> Контекст: gitmost — форк Docmost. Сейчас приложение полностью онлайн.
> Цель: дать возможность работать оффлайн (читать и редактировать) и
> синхронизироваться при возврате сети.
Документ описывает текущее устройство, целевую архитектуру и пошаговый план
реализации с привязкой к конкретным файлам. Его можно взять и реализовывать
по этапам M0…M4.
---
## 1. TL;DR
1. **Половина оффлайна уже встроена.** Тело страницы редактируется через Yjs
(CRDT) + Hocuspocus, а на клиенте уже подключён `y-indexeddb`. Правки тела
*уже открытой* страницы переживают потерю сети и **сами мёржатся** при
реконнекте — без конфликтов.
2. **«Полностью онлайн» — это всё вокруг тела документа:** загрузка самого
приложения, навигация (дерево/список), заголовки страниц, комментарии,
создание/перемещение/удаление страниц, вложения, авторизация.
3. **Оффлайн делится на два контура с разными механизмами синхронизации:**
- **Контур A — тело документа:** CRDT (Yjs). Почти готов, нужно укрепить.
- **Контур B — структурные данные (REST):** не CRDT. Нужен паттерн
*локальный кэш + outbox (очередь мутаций) + правила разрешения конфликтов*.
4. **PWA — обязательный фундамент, но это два слоя:**
- *Installability* (manifest + meta-теги) — **уже есть** в gitmost
(унаследовано от Docmost). Forkmost добавляет только косметику.
- *Service worker* (кэш app-shell, запуск без сети) — **нет нигде**, это и
есть реальная невыполненная часть. Без него установленное приложение без
сети покажет пустой экран.
---
## 2. Текущее состояние (как есть)
### 2.1. Контур A: тело документа — CRDT, почти готово
| Где | Что делает |
|---|---|
| [page-editor.tsx](../apps/client/src/features/editor/page-editor.tsx) (L131–206) | На каждую страницу создаётся `Y.Doc`, к нему цепляются `IndexeddbPersistence("page.<id>")` (локальная копия) **и** `HocuspocusProvider` (WS-синк). |
| [persistence.extension.ts](../apps/server/src/collaboration/extensions/persistence.extension.ts) | Сервер в `onStoreDocument` хранит в Postgres бинарный `ydoc` (Y state update) **плюс** отрендеренный tiptap-JSON `content` + `textContent`. В `onLoadDocument` поднимает `ydoc` обратно. |
| [collaboration/extensions/redis-sync/](../apps/server/src/collaboration/extensions/redis-sync/) | Redis-синк для горизонтального масштабирования инстансов. |
Почему это и есть оффлайн-редактирование: Yjs — CRDT, апдейты коммутативны.
Пока клиент оффлайн, изменения копятся в `Y.Doc` и в IndexedDB; при возврате
сети `HocuspocusProvider` обменивается state-векторами и **детерминированно
сливает** правки. Конфликтов «кто кого перезаписал» в теле документа нет.
### 2.2. Контур B: структурные данные — обычный REST, оффлайн недоступен
| Сущность | Где | Механизм |
|---|---|---|
| Заголовок страницы | [title-editor.tsx](../apps/client/src/features/editor/title-editor.tsx) (L48–152) | REST `/pages/update`, дебаунс 500 мс. **НЕ Yjs.** |
| CRUD страниц, move, restore | [page-service.ts](../apps/client/src/features/page/services/page-service.ts) | REST `/pages/*` |
| Комментарии | [comment-service.ts](../apps/client/src/features/comment/services/comment-service.ts) | REST `/comments/*` |
| Watchers, favorites, labels, дерево, поиск | соответствующие `features/*/services` | REST |
Состояние клиента:
- React Query: [main.tsx](../apps/client/src/main.tsx) (L26), `queryClient`
экспортируется, `retry:false`, `staleTime: 5 мин`. **Персистентности на диск
нет.** При перезагрузке без сети читать нечего.
- HTTP: [api-client.ts](../apps/client/src/lib/api-client.ts) — axios `/api`,
`withCredentials`. На `401``redirectToLogin()`. **Важно для оффлайна:**
редирект на логин при сетевой ошибке недопустим (см. M4).
### 2.3. PWA: что уже есть
- [manifest.json](../apps/client/public/manifest.json) — присутствует
(`display: standalone`, иконки).
- [index.html](../apps/client/index.html) (L9–16) — PWA meta-теги
(`apple-mobile-web-app-capable`, `mobile-web-app-capable`, `theme-color` и т.д.).
- **Service worker отсутствует.** Нет `vite-plugin-pwa`, Workbox, precache.
> Вывод по Forkmost (`Vito0912/forkmost`): их «PWA-наработки» — это только
> манифест и meta-теги (closing issue Docmost #328 про *устанавливаемость*).
> Service worker / оффлайн-кэша там нет. В gitmost installability уже есть,
> поэтому из Forkmost переносить нечего, кроме косметики.
### 2.4. Полезные примитивы, которые уже есть в проекте
- **Fractional indexing для позиций страниц:**
[page.service.ts](../apps/server/src/core/page/services/page.service.ts)
использует `generateJitteredKeyBetween` из `fractional-indexing-jittered`.
Позиция — это строковый ключ (`position: string`), «jittered»-вариант
специально снижает коллизии при конкурентных/оффлайн-вставках. Это готовый
offline-friendly примитив для перемещений в дереве.
- **Генерация ID:**
[nanoid.utils.ts](../apps/server/src/common/helpers/nanoid.utils.ts) —
`generateSlugId` (10 симв.) и `nanoIdGen`. ID можно генерировать на клиенте и
принимать на сервере (нужно для оффлайн-создания, см. M3).
---
## 3. Целевая архитектура
```
┌──────────────────────── Браузер (PWA) ────────────────────────┐
│ │
Тело документа │ TipTap ⟷ Y.Doc ⟷ IndexeddbPersistence (локальная копия) │
(Контур A, CRDT) │ │ │
│ └── HocuspocusProvider ──┐ │
│ │ │
Структурные данные │ React Query (read) ⟵ IndexedDB persister │ │
(Контур B, REST) │ Мутации ⟶ Outbox (IndexedDB) ──────────┐ │ │
│ │ │ │
App shell │ Service Worker (Workbox precache) │ │ │
└──────────────────────────────────────────┼────┼───────────────┘
│ │
(reconnect) ▼ ▼
┌──────────────────────── Сервер ───────────────────────────────┐
│ REST API (idempotent upsert по client-id) Hocuspocus (Yjs) │
│ │ │ │
│ └────────────── Postgres ───────────────┘ │
└────────────────────────────────────────────────────────────────┘
```
Два независимых канала синхронизации:
- **Контур A** синкается сам через Hocuspocus (Yjs). Руками конфликты не решаем.
- **Контур B** синкается через outbox: оффлайн-мутации пишутся в журнал в
IndexedDB и проигрываются на сервер при реконнекте; конфликты решаются
явными правилами (LWW / per-entity).
---
## 4. План реализации по этапам
Этапы инкрементальны: каждый даёт пользователю ощутимый результат и может быть
смёржен отдельно. Рекомендуемый порядок — строго M0 → M4.
### M0 — PWA shell (фундамент: приложение запускается без сети)
**Зачем:** без service worker установленное приложение без сети не загрузится.
Это разблокирует всё остальное.
**Что сделать:**
1. Добавить `vite-plugin-pwa` (Workbox под капотом) в
[vite.config.ts](../apps/client/vite.config.ts).
- `registerType: 'autoUpdate'` или `prompt` (см. риск R3).
- `workbox.globPatterns` — прекэш JS/CSS/wasm/шрифтов/иконок.
- `manifest: false` или генерация из существующего
[manifest.json](../apps/client/public/manifest.json) (не дублировать).
- Навигационный fallback на `index.html` для SPA-роутов.
- Runtime caching: `CacheFirst` для статики, **`NetworkOnly` для `/api/**`
и `/collab`** на этом этапе (REST-кэш появится в M2; SW не должен молча
отдавать устаревшие ответы API).
2. Зарегистрировать SW в [main.tsx](../apps/client/src/main.tsx)
(`registerSW` из `virtual:pwa-register`).
3. Перенести косметику манифеста/метатегов из Forkmost при желании (бренд,
`orientation`, `msapplication-*`). Опционально, на оффлайн не влияет.
**Файлы:** `apps/client/vite.config.ts`, `apps/client/src/main.tsx`,
`apps/client/public/manifest.json`, `apps/client/index.html`.
**Критерий приёмки:** приложение устанавливается, после первой загрузки
открывается **без сети** (виден shell/лэйаут, а не пустой экран);
обновление версии SW не ломает открытую сессию.
**Риск:** низкий. Изолированный слой, кода приложения не трогает.
---
### M1 — Укрепление оффлайна тела документа (Контур A)
**Зачем:** убрать известные грабли Yjs и сделать поведение предсказуемым.
**Что сделать:**
1. **Закрыть ловушку «rebuild ydoc из JSON».** В
[persistence.extension.ts](../apps/server/src/collaboration/extensions/persistence.extension.ts)
`onLoadDocument` при пустом `page.ydoc` пересобирает документ из
`page.content` через `TiptapTransformer.toYdoc(...)`. Если это сработает,
пока оффлайн-клиент держит свой `Y.Doc` со своими client-id, при мёрже
возможно **дублирование контента** (классическая Yjs-ловушка).
- Гарантировать, что `ydoc` всегда персистится (после первого сохранения он
есть) и ветка rebuild не выполняется для страниц, у которых живут
оффлайн-клиенты. Минимум — единожды мигрировать `content → ydoc` для всех
страниц и далее считать `ydoc` единственным источником правды для тела.
2. **Индикатор оффлайна/синка в UI.** Уже есть `yjsConnectionStatusAtom` и
`isLocalSynced/isRemoteSynced` в
[page-editor.tsx](../apps/client/src/features/editor/page-editor.tsx).
Показать состояние («оффлайн», «есть несинхронизированные правки»,
«синхронизировано»).
3. **Заголовок страницы → в Yjs (рекомендуется).**
[title-editor.tsx](../apps/client/src/features/editor/title-editor.tsx)
сохраняет заголовок REST-ом (дебаунс 500 мс) — оффлайн это не работает и
расходится с телом. Варианты:
- (a) перенести заголовок в тот же `Y.Doc` (чистое CRDT-решение), либо
- (b) тащить заголовок через outbox из M3 (LWW). Решение зафиксировать
до старта M3 (см. открытый вопрос Q1).
**Файлы:** `apps/server/src/collaboration/extensions/persistence.extension.ts`,
`apps/client/src/features/editor/page-editor.tsx`,
`apps/client/src/features/editor/title-editor.tsx` (если вариант a).
**Критерий приёмки:** правки тела уже открытой страницы, сделанные оффлайн,
после реконнекта появляются на сервере и у других клиентов без дублей и потерь;
в UI виден статус синка.
**Риск:** средний (Yjs-семантика, миграция `content → ydoc`).
---
### M2 — Оффлайн-чтение и навигация (Контур B, read-path)
**Зачем:** оффлайн нужно видеть дерево, список и метаданные, иначе некуда
переходить; и нужно префетчить страницы «на оффлайн».
**Что сделать:**
1. **Персист React Query на диск.** Обернуть экспортируемый `queryClient` из
[main.tsx](../apps/client/src/main.tsx) в
`PersistQueryClientProvider` с IndexedDB-persister
(`@tanstack/query-persist-client-core` + idb-хранилище).
- Кэшировать: дерево пространства, список страниц, метаданные страницы,
комментарии. Выставить разумный `maxAge`/`gcTime`.
- Версионировать кэш (`buster`) по версии приложения, чтобы не «залипал»
после деплоя.
2. **«Сделать доступным оффлайн».** Действие для пространства/ветки: префетч
метаданных **и** прогрев `IndexeddbPersistence` для тел страниц (открыть/
подгрузить `ydoc` каждой целевой страницы заранее), т.к. сейчас локально
лежат только *ранее открытые* страницы.
3. **Runtime caching API в SW (read-only).** Для GET-эндпоинтов навигации —
`StaleWhileRevalidate`/`NetworkFirst` с фолбэком на кэш. Мутации (POST) —
по-прежнему мимо кэша (их берёт на себя M3).
**Файлы:** `apps/client/src/main.tsx`, новый модуль
`apps/client/src/lib/offline/` (persister, prefetch), точечно — хуки списков/
дерева в `features/page/tree`.
**Критерий приёмки:** после прогрева и ухода в оффлайн пользователь видит дерево
и список, открывает заранее подготовленные страницы и читает их тело и
комментарии.
**Риск:** средний (консистентность кэша, инвалидция после деплоя).
---
### M3 — Outbox для мутаций (Контур B, write-path) — ядро оффлайн-синка
**Зачем:** дать оффлайн-создание/редактирование структурных данных с
последующим проигрыванием на сервер.
**Что сделать:**
1. **Очередь мутаций (outbox) в IndexedDB.** Журнал операций
`{ id, entity, op, payload, clientId, baseVersion, createdAt, status }`.
Использовать **offline/paused mutations TanStack Query**
(`onlineManager` + `queryClient.resumePausedMutations()` + персист пауз),
либо отдельный модуль `apps/client/src/lib/offline/outbox.ts`.
2. **Клиентская генерация ID.** Для оффлайн-создания страниц/комментариев
генерировать `id`/`slugId` на клиенте тем же алфавитом, что и
[nanoid.utils.ts](../apps/server/src/common/helpers/nanoid.utils.ts).
Для позиций в дереве — `generateJitteredKeyBetween` из
`fractional-indexing-jittered` (тот же пакет, что на сервере).
3. **Идемпотентный upsert на сервере.** Эндпоинты `/pages/create`,
`/comments/create` и т.д. должны принимать клиентский `id` и быть
идемпотентными по нему (повторная отправка из очереди не должна плодить
дубликаты). Точки входа:
[page-service.ts](../apps/client/src/features/page/services/page-service.ts),
[comment-service.ts](../apps/client/src/features/comment/services/comment-service.ts)
и соответствующие контроллеры сервера.
4. **Optimistic updates + откат.** Применять мутацию к кэшу сразу; при
неуспешном проигрывании после реконнекта — откат/пометка конфликта.
5. **Правила разрешения конфликтов** (см. §5).
6. **Проигрывание при реконнекте** в порядке `createdAt`, с экспоненциальным
backoff и идемпотентностью.
**Файлы:** новый `apps/client/src/lib/offline/outbox.ts`, обёртки над
`features/*/services/*`, серверные контроллеры/сервисы соответствующих
сущностей (idempotent upsert).
**Критерий приёмки:** оффлайн можно создать страницу, отредактировать заголовок,
оставить комментарий, переместить страницу; после реконнекта всё появляется на
сервере один раз (без дублей), конфликты разрешаются по заданным правилам.
**Риск:** высокий (это самостоятельный класс багов синхронизации; требует
серверных изменений и тестов на конфликты).
---
### M4 — Вложения и оффлайн-авторизация
**Что сделать:**
1. **Вложения/картинки оффлайн.** Очередь загрузок: blob кладётся в локальный
кэш (Cache API/IndexedDB), в документ вставляется ссылка на локальный
ресурс; при реконнекте файл доуплоадивается, ссылка переписывается на
серверную. Точка входа — `features/attachments`.
2. **Оффлайн-толерантная авторизация.** В
[api-client.ts](../apps/client/src/lib/api-client.ts) `401`/сетевые ошибки
**не должны** выкидывать на логин при отсутствии сети — отличать «нет сети»
от «реально разлогинен». Collab-токен (JWT с TTL,
[page-editor.tsx](../apps/client/src/features/editor/page-editor.tsx) L166–181)
оффлайн не обновить — синк должен просто ждать реконнекта, не ломая
локальную работу.
**Критерий приёмки:** оффлайн-вставка картинки доезжает после реконнекта;
протухший токен/нет сети не выкидывают пользователя из приложения и не теряют
локальные правки.
**Риск:** средний.
---
## 5. Правила разрешения конфликтов (Контур B)
CRDT здесь нет, правила задаём явно по типам сущностей:
| Сущность | Стратегия |
|---|---|
| **Тело документа** | Yjs (CRDT) — руками ничего не решаем. |
| **Комментарии** | Почти append-only. LWW по полю + дедуп по `clientId`. Простейший случай. |
| **Метаданные страницы** (заголовок, иконка) | Last-Write-Wins по `updatedAt`. |
| **Перемещение в дереве** | Самый сложный случай. Позиции — строковые fractional-ключи (`generateJitteredKeyBetween`), что снижает коллизии вставок. Нужен серверный реконсилер для «родитель удалён, а ребёнок перемещён» и конкурентных move: правило «удаление побеждает перемещение» (или наоборот — зафиксировать), плюс перегенерация позиции при коллизии. |
| **Удаление vs правка** | Зафиксировать политику: правка удалённой сущности → конфликт в UI либо «удаление выигрывает». |
---
## 6. Подводные камни (читать до старта)
1. **Yjs rebuild из JSON → дубли.** Ветка `content → toYdoc` в
`onLoadDocument` опасна для долго-оффлайновых клиентов. Закрыть в M1.
2. **Инвалидция кэша после деплоя.** Персист React Query и precache SW должны
версионироваться по версии приложения (`buster`/`globPatterns` хэши), иначе
пользователь застрянет на старом UI/данных.
3. **Обновление service worker.** `autoUpdate` может перезагрузить вкладку с
несохранёнными правками. Для редактора предпочтительнее `prompt`-стратегия
(показать «доступно обновление», применить по согласию).
4. **Идемпотентность обязательна.** Любая мутация из outbox может отправиться
повторно (реконнект/ретрай). Без серверного upsert по `clientId` — дубли.
5. **Рост IndexedDB.** Прогрев тел страниц «на оффлайн» и кэш блобов могут
занять много места. Нужны лимиты/очистка (LRU).
6. **Редирект на логин при сетевой ошибке.** Сейчас `401``redirectToLogin`.
Оффлайн это выкинет пользователя и потеряет контекст — чинить в M4.
---
## 7. Зависимости (npm)
| Пакет | Зачем | Этап |
|---|---|---|
| `vite-plugin-pwa` (+ Workbox) | SW, precache app-shell, генерация манифеста | M0 |
| `@tanstack/query-persist-client-core` | Персист React Query на диск | M2 |
| `idb` или `idb-keyval` | Обёртка над IndexedDB (persister/outbox/blob-кэш) | M2–M4 |
| `fractional-indexing-jittered` | Клиентская генерация позиций (уже есть на сервере) | M3 |
`yjs`, `y-indexeddb`, `@hocuspocus/provider`**уже** в проекте, доустанавливать
не нужно.
---
## 8. Объём работ vs ценность (для приоритизации)
| Уровень | Этапы | Что пользователь получает |
|---|---|---|
| **Минимальный** | M0 + M1 | Приложение грузится оффлайн; уже открытые страницы редактируются и синкаются (тело + заголовок). Навигация — только по закэшированному. |
| **Средний** | + M2 + M3 | Оффлайн-навигация по подготовленным пространствам; оффлайн-создание страниц и комментариев с синком и LWW-конфликтами. |
| **Полный** | + M4 (и при необходимости — переезд на синк-движок) | Вложения оффлайн, устойчивая авторизация. Полноценный local-first. |
Прагматичный путь: довести **M0+M1** (это ~80% «редактирую то, что открыл»),
затем M2/M3 инкрементально. Полный синк-движок (RxDB / ElectricSQL / PowerSync /
Replicache / TanStack DB) рассматривать только если оффлайн станет ключевым
сценарием продукта — это существенный рефакторинг данных и бэкенда.
---
## 9. Открытые вопросы (зафиксировать до реализации)
- **Q1.** Заголовок страницы: переносим в Yjs (M1, вариант a) или гоним через
outbox (M3, вариант b)? Рекомендация — (a), меньше конфликтных правил.
- **Q2.** Политика конфликта «удаление vs правка»: «удаление выигрывает» или
явный конфликт в UI?
- **Q3.** Стратегия обновления SW для редактора: `autoUpdate` или `prompt`?
Рекомендация — `prompt`.
- **Q4.** Лимиты локального хранилища (сколько пространств/страниц/блобов
держать оффлайн, политика вытеснения).
- **Q5.** Целимся в инкрементальный путь (M0…M4) или сразу в синк-движок (уровень
«полный»)? От этого зависит, переписывать ли REST-слой.
---
## 10. Чеклист реализации
- [ ] M0: `vite-plugin-pwa` подключён, SW регистрируется, app-shell в precache,
`/api` и `/collab``NetworkOnly`.
- [ ] M0: приложение открывается без сети (shell виден).
- [ ] M1: ветка rebuild ydoc из JSON обезврежена; миграция `content → ydoc`.
- [ ] M1: индикатор статуса синка в UI.
- [ ] M1: заголовок переведён в Yjs (или решение Q1 принято).
- [ ] M2: React Query персистится в IndexedDB, кэш версионирован.
- [ ] M2: действие «сделать доступным оффлайн» (метаданные + прогрев `ydoc`).
- [ ] M3: outbox в IndexedDB, клиентские ID, идемпотентный upsert на сервере.
- [ ] M3: optimistic updates + откат; правила конфликтов реализованы.
- [ ] M4: очередь загрузки вложений + локальный blob-кэш.
- [ ] M4: авторизация толерантна к оффлайну (нет редиректа на логин при отсутствии сети).

View File

@@ -0,0 +1,421 @@
# Потоковая диктовка (realtime STT) — дизайн
> Статус: **черновик / дизайн**. Реализация ещё не начата.
> Исходный кейс: при диктовке текст должен появляться **по мере речи**, а не одним
> куском после остановки записи.
>
> Принятые на старте предпосылки (требуют подтверждения, см. §3 «Развилки»):
> - **Семантика** — настоящий realtime: аудио стримится во время речи, частичные
> расшифровки (`delta`) дописываются в редактор немедленно (~150–300 мс до
> первого частичного текста на проводном соединении).
> - **Провайдер** — OpenAI Realtime API (или совместимый: Azure OpenAI). Это
> ломает текущую провайдер-агностичность диктовки (см. §2) — realtime становится
> **опциональной** возможностью поверх существующей пакетной диктовки, а не
> заменой ей.
---
## 1. Что есть сейчас (пакетная диктовка)
Текущая диктовка — строго «запиши целиком → отправь → получи весь текст», без
какого-либо стрима:
**Клиент.**
- [use-dictation.ts](../apps/client/src/features/dictation/hooks/use-dictation.ts) —
стейт-машина захвата на `MediaRecorder`. Чанки копятся в `chunksRef` в
`recorder.ondataavailable`, но **никуда не уходят по ходу записи**; единый `Blob`
собирается только в `recorder.onstop` и одним `multipart`-POST отправляется на
транскрипцию. Кодек — сжатый `audio/webm;codecs=opus` (Safari: `audio/mp4`).
- [dictation-service.ts](../apps/client/src/features/dictation/services/dictation-service.ts) —
`transcribeAudio(blob, filename)``POST /ai-chat/transcribe`.
- [mic-button.tsx](../apps/client/src/features/dictation/components/mic-button.tsx) —
кнопка с состояниями `idle → recording → transcribing → idle`.
- [dictation-group.tsx](../apps/client/src/features/editor/components/fixed-toolbar/groups/dictation-group.tsx) —
снапшотит каретку в `onStart`, вставляет **готовый** текст в зафиксированную
позицию, клампит её под текущий размер документа (учёт коллаб-дрейфа).
- В чате — тот же `MicButton` в [chat-input.tsx](../apps/client/src/features/ai-chat/components/chat-input.tsx),
текст дописывается в черновик сообщения.
**Сервер.**
- Эндпоинт `POST /ai-chat/transcribe` в
[ai-chat.controller.ts](../apps/server/src/core/ai-chat/ai-chat.controller.ts#L195-L281):
гейт `settings.ai.dictation === true` (иначе 403), приём файла до 25 МБ,
whitelist MIME, троттлинг 20 req/min на пользователя, маппинг MIME→`format`,
вызов `AiTranscriptionService.transcribe()`.
- [ai-transcription.service.ts](../apps/server/src/core/ai-chat/ai-transcription.service.ts) —
тонкая обёртка над `AiService.transcribe()`.
- [ai.service.ts](../apps/server/src/integrations/ai/ai.service.ts#L120-L187) —
два пути по `sttApiStyle`: `multipart` (AI SDK `experimental_transcribe`,
OpenAI/speaches/faster-whisper/Ollama) и `json` (base64 на
`{baseURL}/audio/transcriptions`, OpenRouter). Оба возвращают **весь текст за
один вызов**, без SSE/WS.
- Конфиг STT — per-workspace в `settings.ai.provider` (`sttModel`, `sttBaseUrl`,
`sttApiStyle`), ключ зашифрован в `ai_provider_credentials`, расшифровывается
только в [ai-settings.service.ts](../apps/server/src/integrations/ai/ai-settings.service.ts#L113-L157)
(`resolve`) и **никогда не логируется и не уходит клиенту** (только маска
`hasSttApiKey`).
**Вывод.** «По мере речи» в текущей архитектуре невозможно в принципе: текст
рисуется одним куском в `onstop`. Нужен принципиально другой транспорт.
---
## 2. Главное архитектурное противоречие
Пакетная диктовка **провайдер-агностична**: работает с любым OpenAI-совместимым
`/audio/transcriptions` (включая self-hosted speaches/faster-whisper и Ollama)
просто через `sttBaseUrl` + `sttApiStyle`.
Realtime STT — **не** часть OpenAI-совместимого REST. Это отдельный протокол
(WebSocket/WebRTC + событийная модель), который реализуют единицы провайдеров:
OpenAI Realtime, Azure OpenAI Realtime, и (с другим набором событий) пара сторонних
вроде Together AI. Self-hosted whisper-серверы его, как правило, **не умеют**.
Поэтому realtime нельзя «просто включить» вместо пакетной диктовки. Дизайн исходит
из того, что:
1. Пакетная диктовка (§1) **остаётся** как дефолт и фоллбэк.
2. Realtime — **опциональная** возможность, доступная только когда workspace
настроен на realtime-совместимый провайдер (новый флаг/поле конфига, см. §5).
3. Если realtime не настроен или соединение не поднялось — UI прозрачно
деградирует к пакетному пути.
---
## 3. Контракт провайдера (OpenAI Realtime, transcription session)
Сверено с актуальной документацией (ссылки в конце). Ключевые факты:
**Создание сессии и эфемерный токен.**
- REST `POST /v1/realtime/transcription_sessions` (в GA-вариантах —
`POST /v1/realtime/client_secrets` с телом-конфигом сессии) возвращает
`client_secret.value`**эфемерный** токен с коротким TTL для браузера.
Постоянный ключ воркспейса при этом наружу не отдаётся.
> На момент реализации сверить точный эндпоинт и форму тела с текущими доками —
> API эволюционирует.
**Транспорт.**
- **WebRTC** — рекомендуется для браузерного аудио (захват + воспроизведение).
- **WebSocket** — для серверных аудио-пайплайнов:
`wss://api.openai.com/v1/realtime?intent=transcription`, заголовки
`Authorization: Bearer <key>` и `OpenAI-Beta: realtime=v1`.
**Формат входного аудио.** `pcm16` (raw 16-bit PCM, mono), частота 16 кГц или
24 кГц; либо `g711`. **Не** webm/opus и **не** mp4 — то есть текущий
`MediaRecorder`-путь для realtime неприменим (см. §6, AudioWorklet).
**События клиент→сервер.**
- `transcription_session.update` (или `session.update`) — конфиг модели/VAD/языка.
- `input_audio_buffer.append` — чанк аудио (base64 PCM16).
- `input_audio_buffer.commit` — закрыть сегмент вручную (когда VAD выключен).
**События сервер→клиент.**
- `conversation.item.input_audio_transcription.delta` — поле `delta` с
инкрементальным текстом (частичная расшифровка).
- `conversation.item.input_audio_transcription.completed` — поле `transcript` с
финальным текстом сегмента. У обоих есть `item_id` для сопоставления сегментов.
- `error` — ошибки сессии.
**Turn detection / VAD.** `turn_detection: { type: "server_vad" }`
сервер сам нарезает речь на сегменты и эмитит `completed` на границе паузы; для
непрерывной диктовки это удобнее ручного commit. Модели: `gpt-4o-transcribe`,
`gpt-4o-mini-transcribe`, потоковая `gpt-realtime-whisper` (у неё настраиваемая
задержка `delay`: `minimal…xhigh` — баланс «латентность ↔ качество»).
> Важно: `delta`-события дают **черновой** текст, который последующие события
> могут **переписать**. UI должен уметь заменять ранее показанный частичный текст
> (см. §3 «Развилка B» про вставку в редактор).
---
## 4. Развилка A — транспорт: прямое WebRTC vs серверный WS-прокси
### Вариант A1 — браузер ↔ OpenAI напрямую (WebRTC, эфемерный токен)
Наш сервер только минтит эфемерный токен (`/realtime/transcription_sessions`
постоянным ключом воркспейса), браузер сам устанавливает WebRTC к OpenAI и
получает `delta`/`completed`.
- **Плюсы:** минимальная латентность (нет лишнего хопа), аудио не идёт через наш
сервер (нет нагрузки на bandwidth), меньше серверного кода.
- **Минусы:**
- Работает **только** с настоящим OpenAI/Azure (нужна поддержка эфемерных
токенов и WebRTC) — `sttBaseUrl` на self-hosted/прокси-шлюз тут бесполезен.
- Браузер устанавливает соединение с внешним хостом напрямую — мимо нашего
[ssrf-guard](../apps/server/src/core/ai-chat/external-mcp/ssrf-guard.ts) и
серверного троттлинга/гейтинга на уровне каждого сообщения (гейт можно
проверить только в момент минтинга токена).
- Эфемерный токен живёт в браузере (короткий TTL смягчает, но это всё же
выдача наружу производного секрета).
- WebRTC в браузере (`RTCPeerConnection`, SDP-оффер, обмен через REST) — больше
клиентской машинерии и краевых случаев.
### Вариант A2 (рекомендуется) — браузер ↔ наш сервер (WS) ↔ OpenAI (WS)
Браузер шлёт PCM16-чанки по WebSocket на наш новый gateway; сервер держит upstream
WS к `wss://api.openai.com/v1/realtime?intent=transcription` с **постоянным**
ключом воркспейса и проксирует `delta`/`completed` обратно браузеру.
- **Плюсы:**
- Ключ **никогда не покидает сервер** — ровно как в текущем коде
([ai-settings.service.ts](../apps/server/src/integrations/ai/ai-settings.service.ts#L138-L154)),
эфемерные токены не нужны.
- Работает с **любым** realtime-совместимым эндпоинтом через `sttBaseUrl`
(OpenAI, Azure, будущий self-hosted), и upstream-URL проходит через
SSRF-валидацию перед коннектом.
- Гейт `settings.ai.dictation`, аутентификация (JWT воркспейса), троттлинг и
лимиты длительности/объёма применяются **на сервере** на каждом соединении.
- Совместимо с тем, что в проекте **уже есть WebSocket-инфраструктура**
коллаб-сервер на Hocuspocus + Socket.IO-адаптер на Redis
([collaboration/](../apps/server/src/collaboration/)), и Fastify-приложение.
- **Минусы:**
- Аудио идёт через наш сервер (≈ десятки кбит/с на сессию для PCM16@24k
~48 КБ/с; терпимо, но это нагрузка и нужно ограничивать конкуррентность).
- Двойной хоп добавляет немного латентности (доли сотни мс).
- Нужен новый WS-gateway и аккуратный proxy-стейт (бэкпрешер, очистка сокетов).
**Решение (предлагается): A2.** Он единственный согласуется с инвариантами
кодовой базы — «ключ только на сервере», провайдер-агностичность через `baseURL`,
SSRF-guard, серверные гейты и троттлинг. A1 оставить как возможную оптимизацию
латентности «потом», если упрёмся в bandwidth.
Дальнейший дизайн исходит из **A2**.
---
## 5. Развилка B — куда писать частичный текст в редакторе
`delta` — черновой текст, который может быть переписан. Слепо вставлять каждую
`delta` в документ Tiptap нельзя: (1) каждая правка документа порождает Yjs-апдейт,
шумит в истории/коллабе и тяжела; (2) переписывание ранее показанного текста
превращается в постоянные replace по диапазону.
### Вариант B1 — провизорная вставка в документ + замена диапазона
Вставляем `delta` прямо в документ, запоминаем диапазон провизорного текста,
на каждую новую `delta`/`completed` заменяем этот диапазон. На `completed`
«фиксируем» (диапазон становится обычным текстом).
- **Плюсы:** текст сразу «настоящий», работает для любого приёмника (редактор и
чат единообразно), не нужен слой декораций.
- **Минусы:** активный коллаб + история засоряются промежуточными апдейтами;
замена диапазона воюет с коллаб-дрейфом (диапазон надо ремапить, как уже делает
[dictation-group.tsx](../apps/client/src/features/editor/components/fixed-toolbar/groups/dictation-group.tsx#L24-L26));
откат при отмене сложнее.
### Вариант B2 (рекомендуется для редактора) — ProseMirror-декорация для interim, коммит только финала
Частичный текст показываем виджет-декорацией (inline widget) у каретки — он **не
часть документа**, не порождает Yjs-апдейтов и не попадает в историю. В документ
коммитим только текст из `completed`-сегмента (как сейчас — `insertContentAt` в
снапшот каретки, с тем же клампом под коллаб-дрейф).
- **Плюсы:** ноль мусора в коллабе/истории до финала; отмена = просто снять
декорацию; финальная вставка переиспользует уже существующую и проверенную
логику `dictation-group`.
- **Минусы:** нужна небольшая ProseMirror-плагин-декорация (новый код); «по мере
речи» виден interim как подсветка-призрак, а в документ «оседает» по сегментам
(на паузах VAD) — на практике это естественный UX (как у системных диктовок).
### Для чата
В [chat-input.tsx](../apps/client/src/features/ai-chat/components/chat-input.tsx)
приёмник — обычный `textarea`/draft, декораций нет. Там проще **B1-подобно**:
показывать `interim` как «хвост» черновика (например, отдельным стейтом, который
рендерится приглушённо), а на `completed` дописывать в основной черновик. То есть
интерфейс хука должен отдавать и `interim`, и `final` (см. §6).
**Решение (предлагается):** редактор — **B2** (декорация + коммит финала), чат —
показ interim-хвоста + коммит финала. Единый хук realtime отдаёт оба потока,
а приёмник сам решает, как показывать interim.
---
## 6. Детальный дизайн (A2 + B2)
### 6.1 Клиент: захват аудио (PCM16 через Web Audio API)
`MediaRecorder` отдаёт сжатый webm/opus — для realtime **не подходит**. Нужен
сырой PCM16:
1. `getUserMedia({ audio: true })` (как сейчас).
2. `AudioContext` + `AudioWorkletNode` (новый worklet-процессор): забирает
Float32-фреймы, ресемплит к 24 кГц mono, конвертит в Int16, шлёт в основной
поток.
3. Чанки PCM16 → base64 → событие `input_audio_buffer.append` на наш WS-gateway
(батчинг ~каждые 100–250 мс, чтобы не спамить сообщениями).
4. На стоп — закрыть worklet, остановить треки (как в текущем `stopTracks`),
дослать остаток.
Новый код, в идеале — отдельный хук `use-realtime-dictation.ts` рядом с
[use-dictation.ts](../apps/client/src/features/dictation/hooks/use-dictation.ts),
с тем же «фасадом» (`status/start/stop/cancel`) **плюс** колбэки `onInterim(text)`
и `onFinal(text)`. `MicButton` выбирает реализацию (realtime vs batch) по флагу из
конфига воркспейса; вся остальная обвязка (тултипы, состояния, обработка ошибок,
гард двойного клика, очистка на unmount) переиспользуется один-в-один.
> AudioWorklet требует безопасного контекста (HTTPS/localhost) — то же ограничение,
> что уже есть у `getUserMedia` в текущем хуке. Нужен бандл worklet-файла через
> Vite (`?url`/`?worker`); сверить с тем, как проект собирает воркеры.
### 6.2 Сервер: WS-gateway + realtime-прокси
Новый модуль внутри `core/ai-chat` (рядом с `ai-transcription.service.ts`):
- **WS endpoint** (например, `ws://…/ai-chat/realtime-transcribe`). Поднять либо
как Nest WebSocketGateway, либо как Fastify-WS-роут — выбрать по тому, что уже
используется в проекте (Socket.IO-адаптер на Redis в
[collaboration/](../apps/server/src/collaboration/)). На коннекте:
- аутентификация JWT воркспейса (как у остальных `/ai-chat` маршрутов);
- гейт `settings.ai.dictation === true` (иначе закрыть с понятным кодом/причиной);
- троттлинг/лимит одновременных realtime-сессий на пользователя и на воркспейс
(realtime дороже пакетной диктовки — нужен явный потолок).
- **Резолв конфига** через `AiSettingsService.resolve(workspaceId)`: нужны
`sttModel`, `sttBaseUrl||baseUrl`, `sttApiKey`. **До** коннекта прогнать
upstream-URL через [ssrf-guard](../apps/server/src/core/ai-chat/external-mcp/ssrf-guard.ts).
- **Upstream WS** к `wss://<base>/realtime?intent=transcription` (npm `ws`),
заголовки `Authorization: Bearer <sttApiKey>` + `OpenAI-Beta: realtime=v1`.
Сразу отправить `transcription_session.update` с моделью/языком/`server_vad`.
- **Прокси:** PCM16 от браузера → `input_audio_buffer.append` в upstream;
`…transcription.delta` / `…completed` / `error` из upstream → клиенту
(можно прозрачно ретранслировать, либо нормализовать в свой минимальный формат
`{type:'interim'|'final'|'error', text, itemId}` — предпочтительно
нормализовать, чтобы не привязывать клиент к сырой схеме OpenAI и упростить
будущую поддержку Azure/иных).
- **Очистка:** при закрытии любого из двух сокетов — закрыть второй, освободить
ресурсы; таймаут простоя; лимит длительности сессии (аналог 120 с в текущем
хуке) и лимит суммарного объёма аудио.
Расширить `AiService` (или новый `AiRealtimeService`) методом, инкапсулирующим
upstream-WS, чтобы контроллер/gateway оставался тонким — симметрично текущему
`transcribe()`.
### 6.3 Конфиг воркспейса
Добавить в [ai.types.ts](../apps/server/src/integrations/ai/ai.types.ts) и в
[ai-settings.service.ts](../apps/server/src/integrations/ai/ai-settings.service.ts):
- `sttRealtime?: boolean` — включает realtime-путь для воркспейса.
- `sttRealtimeModel?: string` — модель realtime (например `gpt-4o-mini-transcribe`
/ `gpt-realtime-whisper`); если пусто — фоллбэк на `sttModel`.
- (опц.) `sttRealtimeBaseUrl?` — если realtime-эндпоинт отличается от `sttBaseUrl`.
Ключ переиспользуется (`sttApiKey` → fallback `apiKey`), новых секретов не нужно.
В `getMasked` отдавать новые **несекретные** поля; в `resolve` — как сейчас.
UI настроек (Workspace settings → AI) — добавить тумблер «Realtime dictation» и
поле модели рядом с существующими STT-полями; кнопка «Test endpoint» для realtime
делает короткий тестовый коннект (открыть сессию, послать ~0.5 с тишины, дождаться
`session.created`/`error`, закрыть) и возвращает `ok|error` через
`describeProviderError`-подобную нормализацию.
### 6.4 Клиентский конфиг-гейт
Realtime-кнопку показывать только если `workspace.settings.ai.dictation === true`
**и** `…ai.provider.sttRealtime === true`. Иначе — текущая пакетная кнопка. Маска
настроек должна отдавать эти флаги клиенту (несекретные).
---
## 7. Безопасность и соответствие конвенциям
- **Ключ только на сервере** (вариант A2): постоянный ключ не уходит клиенту,
эфемерные токены не используются — инвариант
[§8 ai-settings](../apps/server/src/integrations/ai/ai-settings.service.ts#L38-L45)
сохранён. Ключ не логируется.
- **SSRF:** upstream realtime-URL валидируется через
[ssrf-guard.ts](../apps/server/src/core/ai-chat/external-mcp/ssrf-guard.ts)
перед коннектом (особенно если разрешаем кастомный `sttRealtimeBaseUrl`).
- **Гейт/авторизация/троттлинг** — на сервере, на каждом WS-коннекте; плюс жёсткий
лимит одновременных realtime-сессий (это дорого) и лимит длительности.
- **Обработка ошибок (конвенция проекта).** Любая ошибка (upstream `error`,
разрыв сокета, провайдер-таймаут, не настроен realtime, отказ микрофона):
- на сервере — лог полностью (имя/сообщение/стек/`cause`, статус upstream) и
отдача клиенту **конкретной** причины (не «Something went wrong»), через
нормализатор уровня `describeProviderError`;
- на клиенте — `console.error(<context>, err)` + нотификация с реальной причиной
(как уже сделано в
[use-dictation.ts](../apps/client/src/features/dictation/hooks/use-dictation.ts#L187-L213)).
- **Деградация:** realtime недоступен/упал на старте → молча используем пакетную
диктовку (она всегда есть); realtime упал в середине → коммитим уже полученные
`completed`-сегменты, показываем причину, предлагаем продолжить пакетно.
---
## 8. Краевые случаи
- **Коллаб-дрейф:** между `start` и каждым `completed` документ мог измениться —
ремап/кламп позиции вставки (логика уже есть в `dictation-group`); для interim
декорация привязывается к текущей каретке, не к абсолютной позиции.
- **Отмена записи:** снять декорацию, ничего не коммитить, закрыть оба сокета.
- **Тишина/нет речи:** VAD не эмитит сегментов — корректно завершить без вставки.
- **Длинная диктовка:** server_vad нарезает на сегменты автоматически; следить за
лимитом длительности и объёма.
- **Переписывание interim:** поздние `delta` правят ранние — UI всегда показывает
последнюю версию текущего (ещё не `completed`) сегмента.
- **Языки/пунктуация:** прокидывать `language` в конфиг сессии (или авто);
модель сама расставляет пунктуацию.
- **Несколько вкладок / двойной старт:** гард как в текущем хуке + серверный лимит
сессий.
- **Старые браузеры без AudioWorklet:** фоллбэк на пакетную диктовку.
---
## 9. Поэтапный план реализации
1. **Конфиг и гейт.** `ai.types.ts` + `ai-settings.service.ts` (`sttRealtime`,
`sttRealtimeModel`), маска, UI-тумблер и «Test endpoint». Без транспорта —
просто читается/пишется.
2. **Серверный realtime-прокси.** WS-gateway + `AiRealtimeService` (upstream WS к
OpenAI, SSRF, гейт, троттлинг, нормализация событий, очистка). Покрыть
юнит/моками парс событий и закрытие сокетов.
3. **Клиентский захват PCM16.** AudioWorklet-процессор + `use-realtime-dictation`
(фасад `status/start/stop/cancel` + `onInterim/onFinal`), подключение к WS.
4. **UI interim.** B2-декорация в редакторе + коммит финала через существующую
`dictation-group`-логику; в чате — interim-хвост + коммит. Переключение
realtime/batch в `MicButton` по флагу конфига.
5. **Закалка.** Лимиты, таймауты, фоллбэки, нотификации с реальными причинами,
нагрузочная проверка одновременных сессий.
---
## 10. Открытые вопросы / риски
- **Подтвердить семантику** (предпосылки в шапке): нужен именно realtime «по мере
речи» (A2/B2), а не просто «прогрессивный вывод после стопа» (`stream:true` на
`gpt-4o-transcribe` — гораздо дешевле и проще, но текст идёт только **после**
остановки записи).
- **Точная форма Realtime API** (эндпоинт сессии, имена событий, формат аудио)
меняется — сверить с актуальными доками на момент реализации.
- **Стоимость/латентность** realtime заметно выше пакетной диктовки — нужен явный
потолок одновременных сессий и, возможно, явное предупреждение админу.
- **Нагрузка на наш сервер** (аудио через прокси) — измерить на реальной
конкуррентности; при необходимости позднее добавить путь A1 (WebRTC напрямую).
- **AudioWorklet-бандлинг** под Vite — проверить, как проект собирает воркеры.
- Совместимость с Azure OpenAI Realtime (другой хост/версия API) — учесть в
нормализации событий, чтобы клиент не зависел от сырой схемы.
---
## 11. Ориентир по затрагиваемым файлам
Новые:
- `apps/client/src/features/dictation/hooks/use-realtime-dictation.ts`
- `apps/client/src/features/dictation/audio/pcm16-worklet.*` (worklet + загрузчик)
- `apps/client/src/features/editor/.../dictation-interim-decoration.*` (ProseMirror-плагин)
- `apps/server/src/core/ai-chat/ai-realtime.service.ts` (+ WS-gateway)
Изменяемые:
- [ai.types.ts](../apps/server/src/integrations/ai/ai.types.ts),
[ai-settings.service.ts](../apps/server/src/integrations/ai/ai-settings.service.ts) —
новые поля конфига + маска.
- [ai.service.ts](../apps/server/src/integrations/ai/ai.service.ts) — realtime
test-connection (если делать через AiService).
- [mic-button.tsx](../apps/client/src/features/dictation/components/mic-button.tsx) —
выбор realtime/batch по флагу.
- [dictation-group.tsx](../apps/client/src/features/editor/components/fixed-toolbar/groups/dictation-group.tsx),
[chat-input.tsx](../apps/client/src/features/ai-chat/components/chat-input.tsx) —
обработка `onInterim/onFinal`.
- Настройки AI в клиенте (Workspace settings → AI) — тумблер + модель + тест.
- AI-модуль сервера ([app.module.ts](../apps/server/src/app.module.ts) /
`ai-chat`-модуль) — регистрация gateway.
---
## Источники
- [Realtime transcription — OpenAI API](https://developers.openai.com/api/docs/guides/realtime-transcription)
- [Create transcription session — OpenAI API Reference](https://developers.openai.com/api/reference/resources/realtime/subresources/transcription_sessions/methods/create)
- [Speech to text — OpenAI API](https://developers.openai.com/api/docs/guides/speech-to-text)
- [Realtime and audio — OpenAI API](https://developers.openai.com/api/docs/guides/realtime)
</content>
</invoke>