From 22c34929af855f6e540b2efe843ba0a1c76d518b Mon Sep 17 00:00:00 2001 From: imac-maxwell Date: Mon, 8 Dec 2025 09:20:19 +0800 Subject: [PATCH] vault backup: 2025-12-08 09:20:19 --- app_prd/Auto cut docx to questions.md | 20 ++++++++++++++++++++ 1 file changed, 20 insertions(+) create mode 100644 app_prd/Auto cut docx to questions.md diff --git a/app_prd/Auto cut docx to questions.md b/app_prd/Auto cut docx to questions.md new file mode 100644 index 0000000..2cded88 --- /dev/null +++ b/app_prd/Auto cut docx to questions.md @@ -0,0 +1,20 @@ +# Auto cut docx to questions + +> 自动切割docx文件中的题目,把它单独以json格式组织起来; + +## 输入 +docx 文件 + +## 输出 +json格式的schema: +1. 主文件概况;包括文件名;定义一个session_id作为主文件(docx)的唯一id;文件被切割出来的题目数量等; +2. 提取出来的小题: + 1. question_id: 小题编号; + 2. image_base64:被提取出来中,如果含有图片,则给出图片的url或base64; + 3. ocr_text:被提取出来的题目内容。如果含有公式等,则使用markdown格式的latex数学公式,以`$`或者`$$`包裹; + 4. problem_summary: 题目概要,通过summary_api 获得; + 5. knowledges: 题目中包含的知识点,通过summary_api 获得,json格式:["knowledge1","knowledge2","knowledge3"]; + 6. methods: 题目中包含的方法,通过summary_api 获得,json格式:["method1","method2","method3"]; + 7. updated_knowledges;同knowledges,经过人工审核过的知识点; + 8. updated_methods;通methods,经过人工审核过的方法; + 9. \ No newline at end of file