本发明涉及图像识别技术领域,具体涉及一种基于版式文件对电子文件矢量化的方法,该方法包括:获取纸质文档的扫描位图;获取扫描位图对应的不同字体的矢量文字,获取文字及矢量文字的对应的外包围框内的二值图像,获取包围框中心点到闭合边缘上的距离并得到距离序列及距离序列集合;利用多个不同采样尺度对距离序列集合进行采样得到目标序列集合,计算文字及矢量文字对应的目标序列的相似度距离,并进行KM匹配,根据匹配后的目标序列的相似度距离获取匹配效果评价值,获取文字与对应字体的矢量文字的字体匹配度,确定文字的替换对象,并得到矢量化后的文件,本发明精确确定了与文字匹配的字体的矢量文字,从而精准实现文字的矢量化。