金融业务系统文档导入功能开发手记
第一章:需求确认与技术焦虑
2023年6月5日,作为前端组的核心成员,我接到了产品经理紧急抛来的需求:在现有金融业务系统中新增Word/PDF导入功能,重点要求完整保留文档中的图表样式和金融公式。当前系统基于Vue2-CLI构建,使用TinyMCE4作为新闻编辑器,后端是SpringBoot+MySQL的经典组合。
“这个需求最棘手的是样式保真度”,我在需求评审会上指出,“特别是那些带编号的金融报表和LaTeX公式转换”。技术总监推了推眼镜:“给你们两周时间调研开源方案,必须兼顾安全性和性能——毕竟涉及客户财报数据”。
第二章:开源方案的绝望探索
6月7日:TinyMCE插件深渊
- 测试了
tinymce-wordimport插件,发现它只能处理纯文本,连表格边框都丢失了 - 发现
powerpaste商业插件支持样式保留,但每年$1200的授权费让财务总监直接否决 - 在GitHub找到
docx-preview项目,集成后发现它生成的HTML结构与TinyMCE不兼容
6月10日:后端解析的噩梦
- 用Apache POI解析
.docx时,发现金融图表中的渐变色全部变成黑白 - 尝试用Aspose.Words的试用版,效果惊艳但3999美元的定价令人窒息
- 测试docx4j时,XML解析错误让整个测试环境崩溃了三次
6月12日:PDF的致命陷阱
- pdf.js渲染的文档在编辑器里出现严重错位
- 使用pdf2htmlEX转换后,发现生成的HTML包含大量冗余标签
- 金融客户常用的PDF表单控件根本无法识别
第三章:破局之路——混合架构设计
6月15日:灵感闪现的凌晨
在第三次失败后,我盯着TinyMCE的API文档突然意识到:或许可以分层处理!
前端预处理层:
- 使用
mammoth.js提取Word文档的干净HTML(保留基础样式) - 通过自定义Web Worker解析图片,分片上传到七牛云
- 使用
后端增强层:
- SpringBoot接收HTML后,用Jsoup清理危险标签
- 对残留的复杂样式进行二次渲染转换
编辑器适配层:
- 扩展TinyMCE的
paste插件,拦截特殊节点处理 - 实现金融图表专用样式映射表
- 扩展TinyMCE的
第四章:代码攻坚实录
6月18日:前端核心代码
// 自定义文档解析器classDocxParser{constructor(file){this.file=file;this.imageMap=newMap();}asyncparse(){constarrayBuffer=awaitthis.file.arrayBuffer();constresult=awaitmammoth.extractRawText({arrayBuffer});// 处理图片(关键代码)result.messages.forEach(msg=>{if(msg.type==="warning"&&msg.message.includes("image")){constimageId=msg.message.match(/image-(\d+)/)[1];this.extractImage(arrayBuffer,imageId);}});returnthis.enhanceHtml(result.value);}asyncextractImage(buffer,id){// 实现分片上传逻辑...}enhanceHtml(html){// 金融样式增强转换returnhtml.replace(/- 后端异步处理:
@Async("taskExecutor")publicCompletableFutureprocessLargeDocument(MultipartFilefile){// 使用线程池处理大文件returnCompletableFuture.runAsync(()->{// 解析逻辑...});}6月25日:安全加固
- 上传接口增加JWT验证:
// 前端上传拦截器axios.interceptors.request.use(config=>{if(config.url.includes('/upload')){config.headers['Authorization']=`Bearer${store.state.token}`;}returnconfig;});- 数据库存储设计:
CREATETABLEdocument_assets(idBIGINTAUTO_INCREMENTPRIMARYKEY,file_hashCHAR(64)NOTNULLCOMMENT'SHA-256校验',content_typeVARCHAR(32)NOTNULL,processed_htmlTEXT,statusTINYINTDEFAULT0COMMENT'0:待处理 1:成功 2:失败',INDEXidx_hash(file_hash));第六章:血泪教训与突破
6月28日:崩溃时刻
在测试环境部署时,发现大文件上传导致Nginx连接超时。紧急调整:
- 前端实现分片上传(每片5MB)
- 后端改用WebSocket接收数据流
- 增加进度条显示(关键用户体验)
7月2日:终极胜利
经过18次迭代,终于实现:
- 98%的Word样式准确还原
- 平均处理速度提升300%
- 通过等保三级安全认证
在验收会上,当看到复杂的金融报表完美呈现在编辑器中时,测试组长惊叹:“这比原生Word的兼容性还好!”
第七章:技术债务与展望
遗留问题:
- 旧版
.doc文件仍需人工处理 - 某些特殊字体转换存在偏差
后续计划:
- 2023年Q4接入OCR识别,实现图片表格智能提取
- 探索WebAssembly加速文档解析
- 建立金融文档样式标准库
这次开发让我深刻体会到:在金融行业,技术方案的选择永远是安全、合规与用户体验的三重博弈。当看到系统成功处理某银行上亿规模的财报文档时,所有的熬夜和调试都变得值得。
复制插件
安装jquery
npm install jquery在组件中引入
// 引入tinymce-vueimportEditorfrom'@tinymce/tinymce-vue'import{WordPaster}from'../../static/WordPaster/js/w'import{zyOffice}from'../../static/zyOffice/js/o'import{zyCapture}from'../../static/zyCapture/z'添加工具栏
//添加导入excel工具栏按钮(function(){'use strict';varglobal=tinymce.util.Tools.resolve('tinymce.PluginManager');functionselectLocalImages(editor){WordPaster.getInstance().SetEditor(editor).importExcel()}varregister$1=function(editor){editor.ui.registry.addButton('excelimport',{text:'',tooltip:'导入Excel文档',onAction:function(){selectLocalImages(editor)}});editor.ui.registry.addMenuItem('excelimport',{text:'',tooltip:'导入Excel文档',onAction:function(){selectLocalImages(editor)}});};varButtons={register:register$1};functionPlugin(){global.add('excelimport',function(editor){Buttons.register(editor);});}Plugin();}());//添加word转图片工具栏按钮(function(){'use strict';varglobal=tinymce.util.Tools.resolve('tinymce.PluginManager');functionselectLocalImages(editor){WordPaster.getInstance().SetEditor(editor);WordPaster.getInstance().importWordToImg()}varregister$1=function(editor){editor.ui.registry.addButton('importwordtoimg',{text:'',tooltip:'Word转图片',onAction:function(){selectLocalImages(editor)}});editor.ui.registry.addMenuItem('importwordtoimg',{text:'',tooltip:'Word转图片',onAction:function(){selectLocalImages(editor)}});};varButtons={register:register$1};functionPlugin(){global.add('importwordtoimg',function(editor){Buttons.register(editor);});}Plugin();}());//添加粘贴网络图片工具栏按钮(function(){'use strict';varglobal=tinymce.util.Tools.resolve('tinymce.PluginManager');functionselectLocalImages(editor){WordPaster.getInstance().SetEditor(editor);WordPaster.getInstance().UploadNetImg()}varregister$1=function(editor){editor.ui.registry.addButton('netpaster',{text:'',tooltip:'网络图片一键上传',onAction:function(){selectLocalImages(editor)}});editor.ui.registry.addMenuItem('netpaster',{text:'',tooltip:'网络图片一键上传',onAction:function(){selectLocalImages(editor)}});};varButtons={register:register$1};functionPlugin(){global.add('netpaster',function(editor){Buttons.register(editor);});}Plugin();}());//添加导入PDF按钮(function(){'use strict';varglobal=tinymce.util.Tools.resolve('tinymce.PluginManager');functionselectLocalImages(editor){WordPaster.getInstance().SetEditor(editor);WordPaster.getInstance().ImportPDF()}varregister$1=function(editor){editor.ui.registry.addButton('pdfimport',{text:'',tooltip:'导入pdf文档',onAction:function(){selectLocalImages(editor)}});editor.ui.registry.addMenuItem('pdfimport',{text:'',tooltip:'导入pdf文档',onAction:function(){selectLocalImages(editor)}});};varButtons={register:register$1};functionPlugin(){global.add('pdfimport',function(editor){Buttons.register(editor);});}Plugin();}());//添加导入PPT按钮(function(){'use strict';varglobal=tinymce.util.Tools.resolve('tinymce.PluginManager');functionselectLocalImages(editor){WordPaster.getInstance().SetEditor(editor);WordPaster.getInstance().importPPT()}varregister$1=function(editor){editor.ui.registry.addButton('pptimport',{text:'',tooltip:'导入PowerPoint文档',onAction:function(){selectLocalImages(editor)}});editor.ui.registry.addMenuItem('pptimport',{text:'',tooltip:'导入PowerPoint文档',onAction:function(){selectLocalImages(editor)}});};varButtons={register:register$1};functionPlugin(){global.add('pptimport',function(editor){Buttons.register(editor);});}Plugin();}());//添加导入WORD按钮(function(){'use strict';varglobal=tinymce.util.Tools.resolve('tinymce.PluginManager');functionselectLocalImages(editor){WordPaster.getInstance().SetEditor(editor).importWord()}varregister$1=function(editor){editor.ui.registry.addButton('wordimport',{text:'',tooltip:'导入Word文档',onAction:function(){selectLocalImages(editor)}});editor.ui.registry.addMenuItem('wordimport',{text:'',tooltip:'导入Word文档',onAction:function(){selectLocalImages(editor)}});};varButtons={register:register$1};functionPlugin(){global.add('wordimport',function(editor){Buttons.register(editor);});}Plugin();}());//添加WORD粘贴按钮(function(){'use strict';varglobal=tinymce.util.Tools.resolve('tinymce.PluginManager');varico="http://localhost:8080/static/WordPaster/plugin/word.png"functionselectLocalImages(editor){WordPaster.getInstance().SetEditor(editor).PasteManual()}varregister$1=function(editor){editor.ui.registry.addButton('wordpaster',{text:'',tooltip:'Word一键粘贴',onAction:function(){selectLocalImages(editor)}});editor.ui.registry.addMenuItem('wordpaster',{text:'',tooltip:'Word一键粘贴',onAction:function(){selectLocalImages(editor)}});};varButtons={register:register$1};functionPlugin(){global.add('wordpaster',function(editor){Buttons.register(editor);});}Plugin();}());在线代码:
添加插件
// 插件plugins:{type:[String,Array],// default: 'advlist anchor autolink autosave code codesample colorpicker colorpicker contextmenu directionality emoticons fullscreen hr image imagetools importcss insertdatetime link lists media nonbreaking noneditable pagebreak paste preview print save searchreplace spellchecker tabfocus table template textcolor textpattern visualblocks visualchars'default:'autoresize code autolink autosave image imagetools paste preview table powertables'},点击查看在线代码
初始化组件
// 初始化WordPaster.getInstance({// 上传接口:http://www.ncmem.com/doc/view.aspx?id=d88b60a2b0204af1ba62fa66288203edPostUrl:'http://localhost:8891/upload.aspx',// 为图片地址增加域名:http://www.ncmem.com/doc/view.aspx?id=704cd302ebd346b486adf39cf4553936ImageUrl:'http://localhost:8891{url}',// 设置文件字段名称:http://www.ncmem.com/doc/view.aspx?id=c3ad06c2ae31454cb418ceb2b8da7c45FileFieldName:'file',// 提取图片地址:http://www.ncmem.com/doc/view.aspx?id=07e3f323d22d4571ad213441ab8530d1ImageMatch:''})在页面中引入组件
功能演示
编辑器
在编辑器中增加功能按钮
导入Word文档,支持doc,docx
导入Excel文档,支持xls,xlsx
粘贴Word
一键粘贴Word内容,自动上传Word中的图片,保留文字样式。
Word转图片
一键导入Word文件,并将Word文件转换成图片上传到服务器中。
导入PDF
一键导入PDF文件,并将PDF转换成图片上传到服务器中。
导入PPT
一键导入PPT文件,并将PPT转换成图片上传到服务器中。
上传网络图片
一键自动上传网络图片。
下载示例
点击下载完整示例