admin/91 - 91 - viaeon git

admin/91

mirror of https://github.com/nianzhibai/91.git synced 2026-06-15 00:44:30 +08:00

Author	SHA1	Message	Date
nianzhibai	c1355385e1	feat(crawler): simplify script crawler workflow Redesign crawler management around imported Python scripts instead of built-in crawler storage. Crawler scripts now declare CRAWLER_NAME, imports validate metadata, crawler IDs are generated internally, and deleted crawler scripts are detached without deleting already imported videos. Add backend support for file and URL script imports, dry-run testing, metadata parsing, safer job paths, original filename preservation, and crawler listing that ignores detached script records. Remove the legacy built-in Spider91 script path flow and hidden Python/config JSON fields from the crawler API. Rework the admin crawler page into an independent crawler console with script import, dry-run testing, status metrics, spider iconography, and simplified controls. Update docs, examples, installer checks, Docker/release packaging, and tests for the new protocol.	2026-06-10 14:27:16 +08:00
nianzhibai	ec5a01b6aa	feat(crawler): redesign crawler scripts and admin workflow - add generic scriptcrawler backend runner using the crawler.v1 JSONL protocol - support crawler script upload and HTTP(S) URL import from the admin crawler page - simplify the user-facing crawler contract to title, media_url, optional thumbnail_url and optional source_id - convert Spider91 into a normal script crawler and reject new Spider91 storage-drive configs - keep legacy Spider91 storage rows visible only for cleanup/deletion - add crawler protocol docs, example script, admin UI, tests and migration coverage	2026-06-09 23:51:12 +08:00
nianzhibai	5bb93bd95b	fix: install socks support for 91Spider proxy	2026-06-01 20:31:33 +08:00
nianzhibai	c78f22aedb	feat: add 91Spider proxy support and drive improvements	2026-06-01 17:41:20 +08:00
nianzhibai	d2d4db8062	fix: harden spider91 source matching	2026-05-28 16:10:20 +08:00
nianzhibai	39ef2defcc	feat(spider91): 流式爬取 + 完成后统一入队 teaser + 封面失败标 failed 三件相关改动，主题都是 spider91 爬虫流程。 1. 流式爬取协议（取代旧的 "Python 凑齐 15 个再交 Go" 模型） Python 端 (spider_91porn.py)： - 新增 --stream-output flag。开启后每解析出一个 video 直链就把 entry 作为一行 JSON 写到 stdout 并 flush。 - log() 在 stream 模式下走 stderr，避免污染 stdout JSONL 协议。 - --output FILE 仍生效，作离线归档用。 Go 端 (crawler.go)： - 新 startSpiderTargetNew() 异步启动 cmd，返回 stdout pipe。 - RunOnce 用 bufio.Scanner 按行读 stdout，每行解析后立即 processOne (下载视频 + 封面 + UpsertVideo)。删掉旧 readSpiderOutput / 全 JSON 文件解析路径。 - Python stderr 转发到 backend log，前缀 [spider91:py]。收益：Python 翻页找下一个 viewkey 与 Go 下载当前视频在时间上重叠，最大化每条签名链接 e= 时间窗。今天观察到 Python 77 秒就找完 15 个 viewkey 全部 emit；如果还像旧模型那样要等 Go 串行下完才开始下一个，后面几个的签名很容易过期（之前 8/15 全 EOF 的根因之一）。 2. teaser 在 crawler 完成后统一入队（取代每条入库立即 enqueue） - main.go attachSpider91Crawler 不再注入 OnNewVideo callback。 - main.go runSpider91Crawl 在 Crawler.RunOnce 完成后调一次 enqueueDriveGeneration(driveID)，让所有新视频统一进 teaser worker。 - 与 nightly Phase 2 的 "等 teaser 队列 idle" 语义自然对齐。 - 下载阶段不和 ffmpeg 抢 CPU/IO。 3. 网站封面下载失败时显式标 thumbnail_status='failed' spider91 drive 的 thumb worker 按设计不处理 spider91 视频（封面应是网站原图直接保存）。当网站封面下载失败时，url='' + status='pending' 会让 enqueueDriveGeneration 的 waitForThumbnailsBeforePreview 因为 CountVideosNeedingThumbnail > 0 把 teaser 卡死等待循环。修复：crawler.go processOne 中 thumb 失败分支显式标 status='failed' （CountVideosNeedingThumbnail 条件 status != 'failed' 会排除）。今天观察到的现象：187 MB 视频 c2c04fc8602c5396d469 卡在 '[preview] waiting for 1 thumbnails before teaser generation' 循环 35 分钟。测试： - crawler_test.go 重构为 buildFakeSpiderScript helper，生成支持 --stream-output 的伪 python（其实是 sh），逐行 echo JSON。 - TestCrawlerRunOnceFullFlow / TestCrawlerThumbDownloadFailureMarksStatusFailed 通过新 helper 验证流式协议 + thumb fail 闸门。 go test ./... 全绿；线上手动触发 spider91 抓取验证流式行为正确。	2026-05-27 18:48:30 +08:00
nianzhibai	d424fc0553	feat(spider91): 接入 91porn 爬虫作为新的视频源把 91VideoSpider/spider_91porn.py 包装成一种 spider91 drive 类型，每天凌晨自动从 91porn 本月最热第 1 页起翻页，跳过已知 viewkey 凑够 N 个新视频后停止；下载视频和封面到本地，接入现有的视频列表 / 详情 / 标签 / teaser 流水线。主要内容： - Python 脚本：加 --target-new / --seen-viewkeys-file CLI 参数 - 后端：新增 drives/spider91 包（driver + crawler + 测试） - 后端：catalog.ListVideoFileIDsByDrive 辅助查询 - 后端：crawlerLoop ticker（独立于 02:00-07:00 的网盘扫描循环） - 后端：HTTP 客户端尊重 HTTPS_PROXY 环境变量 + 每 drive 可选 proxy - 后端：视频文件后缀按直链 URL 真实后缀决定（mp4/webm/mkv/flv 等） - 后端：所有 spider91 视频自动打 91porn 标签（source=system） - API：新增 /p/spider91/{videoID} 路由用 http.ServeFile 服务本地文件 - 管理后台：下拉加 "91 爬虫" 类型；几处特例适配（状态显示"已就绪"、操作显示"立即抓取"、扫描根列显示"上次抓取 N 小时前"、表单隐藏 root_id 等无关字段） - 文档：README + plan 16 节完整记录测试：20+ 新增用例覆盖 driver 路径安全、crawler 端到端（伪 python + httptest 服务器）、扩展名识别、定时窗口判断。	2026-05-22 21:13:26 +08:00

7 Commits