一:常用场景,OCR识别金额大写错误时,金额大写内容可以固定,根据ocr识别的结果进行相似度比对进行替换
比如:核酸检测经过ocr识别成核酪椅测,此时计算每个字的相似度。
# coding:utf-8
# cython: language_level=3
import numpy as np
def edit_distance(string_a, string_b, name='Levenshtein'):
size_x = len(string_a) + 1
size_y = len(string_b) + 1
matrix = np.zeros((size_x, size_y), dtype=int)
for x in range(size_x):
matrix[x, 0] = x
for y in range(size_y):
matrix[0, y] = y
for x in range(1, size_x):
for y in range(1, size_y):
if string_a[x - 1] == string_b[y - 1]:
matrix[x, y] = min(
matrix[x - 1, y] + 1,
matrix[x - 1, y - 1],
matrix[x, y - 1] + 1
)
else:
if name == 'Levenshtein':
matrix[x, y] = min(
文章出处登录后可见!
已经登录?立即刷新