note/app_prd/Auto cut docx to questions.md

21 lines
1.1 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# Auto cut docx to questions
> 自动切割docx文件中的题目把它单独以json格式组织起来
## 输入
docx 文件
## 输出
json格式的schema
1. 主文件概况包括文件名定义一个session_id作为主文件docx的唯一id文件被切割出来的题目数量等
2. 提取出来的小题:
1. question_id: 小题编号;
2. image_base64:被提取出来中如果含有图片则给出图片的url或base64
3. ocr_text:被提取出来的题目内容。如果含有公式等则使用markdown格式的latex数学公式以`$`或者`$$`包裹;
4. problem_summary: 题目概要通过summary_api 获得;
5. knowledges: 题目中包含的知识点通过summary_api 获得json格式["knowledge1","knowledge2","knowledge3"]
6. methods: 题目中包含的方法通过summary_api 获得json格式["method1","method2","method3"]
7. updated_knowledges;同knowledges经过人工审核过的知识点
8. updated_methods;通methods经过人工审核过的方法
9. created_at: date
10. updated_at:date