note/tech/prompt/gemini-dr.md
2025-11-19 10:16:05 +08:00

13 lines
2.2 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

研究方向概述
我正在着手研究PDF转Word的工具重点关注它们对纯文本和包含图片需要OCR识别的PDF文档的转换效果。我还会深入探讨这些工具的免费、收费及开源特性并特别留意它们对中文字体的支持情况。
初步研究计划
我的研究将从广泛搜索主流的PDF转Word转换工具开始特别关注那些提及OCR功能和中文支持的工具。我计划使用中英文混合的搜索词以确保覆盖国内外流行的工具。随后我会根据搜索结果对这些工具进行分类并针对有潜力的工具进行更详细的调查包括转换准确性、中文OCR表现、中文字体支持以及用户体验等。最终我将综合所有信息提供一份全面的工具总结。
Researching websites
初步工具发现
我通过初步搜索已经识别出一些潜在的PDF转Word工具它们在OCR和中文支持方面有所提及。这些工具包括Wondershare PDFelement、Xodo、Smallpdf、LightPDF、i2OCR、2OCR、UPDF、Adobe Acrobat、Convertio、Sumatra PDF、Foxit Reader以及百度飞桨的PP-Structurev2。其中Wondershare PDFelement和UPDF似乎是付费工具中的有力竞争者而Xodo、Smallpdf、LightPDF、i2OCR和2OCR则提供了免费的在线转换服务但部分高级功能如OCR可能需要付费。
关注中文OCR与字体支持
我注意到一些工具明确提到了对中文简体和繁体的OCR支持例如i2OCR和UPDF。这对于确保转换后中文字体的准确性和可编辑性至关重要。同时我也发现了一些开源项目如百度飞桨的PP-Structurev2它更像是一个文档分析模型而非直接的终端用户工具但其在中文OCR方面的技术实力值得进一步探究。
下一步行动计划
接下来,我将深入访问这些工具的官方网站,以核实它们的免费/付费/开源状态、具体定价、以及对中文OCR和字体处理的详细说明。我还会特别关注Sumatra PDF和PaddlePaddle等开源项目了解它们是否提供直接的PDF转Word转换功能。通过这些详细的调查我将进一步筛选出最符合研究需求的工具以便后续进行更深入的转换质量评估。
Researching websites