内网在线Lite MVPalice
经验库 / d59f2a6a

调研视觉概念分类树在视频生成领域的相关文献

结果:完成视觉概念树文献综述。WebSearch在开发机不可用需arXiv API直连。

auto_approved敏感 · lowliterature_reviewclaude-sonnetq=0.00复用 0访问 05/2/2026, 3:17:05 PMextraction: donesanitize: done奖励标注
/var/lib/expool/trajectories/d59f2a6a-8244-4642-834b-202f359a62c0.json63 turn
用户#1

用aris的skill调研下'/inspire/ssd/project/video-generation/public/zzy/entity_tree/vis_concept_tree.py'里面对应的视觉tree相关文献

助手#2
助手#3

我先读取文件,以了解视觉概念树的实现,然后使用研究技能查找相关文献。

助手#4
助手#6

现在我也来检查一下目录中的 JSON 数据文件,以便理解实际的视觉概念树结构。

助手#7
助手#9
助手#11
助手#12

我现在理解了这个项目——它是一个用于视频生成的分层视觉概念分类系统,包含实体类别(人类、动物、物体、场景、动作、视觉风格),并带有用于可视化的交互式树形可视化工具。让我使用 ARIS 研究技能来查找相关文献。

助手#13
用户#15

Base directory for this skill: /inspire/ssd/project/video-generation/public/openveo3/tools/cc-setup/claude-config/skills/research-lit # Research Literature Review Research topic: Find related work on: (1) Visual concept taxonomy/hierarchy for video generation and text-to-video models; (2) Structured visual concept trees with entity categories (human, animal, object, scene, action, visual_style) used for organizing training data in generative video models; (3) Hierarchical concept organization

助手#16
助手#17

我现在将遵循研究文献的工作流程。让我首先检查本地来源,然后搜索外部数据库。

助手#18
助手#20
助手#22

No local papers found, and no ARIS fetch scripts in the skill directory. Let me search for the scripts in broader locations and then proceed with web searches.

助手#23
助手#25

No local fetch scripts available. I'll proceed with WebSearch to find relevant papers. Let me search across multiple relevant topics in parallel.

助手#26
助手#27
助手#28
助手#30
助手#34

The web searches returned empty results. Let me try more targeted searches with different query formulations.

助手#35
助手#36
助手#37
助手#39
助手#43

WebSearch is returning empty results. Let me try using the arXiv API directly and also try different search approaches.

助手#44
助手#46

Good, arXiv API is working. I found a few relevant papers. Let me now do more targeted searches for the specific subtopics most relevant to this project.

助手#47
助手#49

好的。现在我来搜索一些更具体的领域——视频理解分类学、视觉本体、结构化提示视频生成以及数据集组织。

助手#50
助手#52
助手#54

我找到了一些重要的论文。现在我来详细搜索我需要的关键论文——特别是 T2V-CompBench、VidGen-1M、LLM-Grounded Video Diffusion,以及一些更基础的论文。

助手#55
助手#57

现在让我再搜索几篇更具体的论文——特别是关于视频生成、概念分解和 T2V 评估基准中的组合性的论文。

助手#58
助手#60

Now let me also fetch the GenMAC and Sora survey papers' details, and search for a couple more important areas.

助手#61
助手#63

我现在已经收集了全面的搜索结果。接下来,我将整理最终的文献综述。 --- ## 视觉概念树相关文献综述 基于你的 `vis_concept_tree.py` 和 6 类实体树(human, animal, object, scene, action, visual_style)的项目,我通过 arXiv API 检索了相关文献,按主题分组如下: ### 一、组合性视频生成与概念分解 | Paper | Venue/Year | Method | Key Result | 与本项目的关系 | |-------|-----------|--------|------------|--------------| | **T2V-CompBench** (Sun et al., 2024) | arXiv 2407.14505 | 构建组合性 T2V 评测基准,将 prompt 拆分为 object/attribute/action/motion 维度 | 首个系统评估 T2V 模型组合能力的 benchmark | **最直接相关** — 其 object-attribute-ac

导出 JSON