问题：查找两个字符串之间的相似性度量

如何获得一个字符串与Python中另一个字符串相似的概率？

我想得到一个十进制值，例如0.9（表示90％）等。最好使用标准Python和库。

例如

similar("Apple","Appel") #would have a high prob.

similar("Apple","Mango") #would have a lower prob.

How do I get the probability of a string being similar to another string in Python?

I want to get a decimal value like 0.9 (meaning 90%) etc. Preferably with standard Python and library.

e.g.

similar("Apple","Appel") #would have a high prob.

similar("Apple","Mango") #would have a lower prob.

回答 0

有一个内置的。

from difflib import SequenceMatcher

def similar(a, b):
    return SequenceMatcher(None, a, b).ratio()

使用它：

>>> similar("Apple","Appel")
0.8
>>> similar("Apple","Mango")
0.0

There is a built in.

from difflib import SequenceMatcher

def similar(a, b):
    return SequenceMatcher(None, a, b).ratio()

Using it:

>>> similar("Apple","Appel")
0.8
>>> similar("Apple","Mango")
0.0

回答 1

我认为您可能正在寻找一种描述字符串之间距离的算法。您可能会参考以下内容：

I think maybe you are looking for an algorithm describing the distance between strings. Here are some you may refer to:

回答 2

解决方案1：内置Python

使用SequenceMatcher从difflib

优点：本地python库，不需要额外的软件包。
缺点：太有限了，还有很多其他的用于字符串相似性的好的算法。

例如：

>>> from difflib import SequenceMatcher
>>> s = SequenceMatcher(None, "abcd", "bcde")
>>> s.ratio()
0.75

解决方案2：水母库

它是一个很好的图书馆，覆盖面广，几乎没有问题。它支持：
-莱文斯坦距离
– Damerau-Levenshtein距离
-哈罗距离
-哈罗-温克勒距离
-比赛评分方法比较
-海明距离

优点：易于使用，所支持算法的色域经过测试。
缺点：不是本机库。

例如：

>>> import jellyfish
>>> jellyfish.levenshtein_distance(u'jellyfish', u'smellyfish')
2
>>> jellyfish.jaro_distance(u'jellyfish', u'smellyfish')
0.89629629629629637
>>> jellyfish.damerau_levenshtein_distance(u'jellyfish', u'jellyfihs')
1

Solution #1: Python builtin

use SequenceMatcher from difflib

pros: native python library, no need extra package.
cons: too limited, there are so many other good algorithms for string similarity out there.

example :

>>> from difflib import SequenceMatcher
>>> s = SequenceMatcher(None, "abcd", "bcde")
>>> s.ratio()
0.75

Solution #2: jellyfish library

its a very good library with good coverage and few issues. it supports:
– Levenshtein Distance
– Damerau-Levenshtein Distance
– Jaro Distance
– Jaro-Winkler Distance
– Match Rating Approach Comparison
– Hamming Distance

pros: easy to use, gamut of supported algorithms, tested.
cons: not native library.

example:

>>> import jellyfish
>>> jellyfish.levenshtein_distance(u'jellyfish', u'smellyfish')
2
>>> jellyfish.jaro_distance(u'jellyfish', u'smellyfish')
0.89629629629629637
>>> jellyfish.damerau_levenshtein_distance(u'jellyfish', u'jellyfihs')
1

回答 3

Fuzzy Wuzzy是一个在python中实现Levenshtein距离的软件包，并提供了一些帮助程序功能以在某些情况下提供帮助，在某些情况下，您可能希望将两个不同的字符串视为相同。例如：

>>> fuzz.ratio("fuzzy wuzzy was a bear", "wuzzy fuzzy was a bear")
    91
>>> fuzz.token_sort_ratio("fuzzy wuzzy was a bear", "wuzzy fuzzy was a bear")
    100

Fuzzy Wuzzy is a package that implements Levenshtein distance in python, with some helper functions to help in certain situations where you may want two distinct strings to be considered identical. For example:

>>> fuzz.ratio("fuzzy wuzzy was a bear", "wuzzy fuzzy was a bear")
    91
>>> fuzz.token_sort_ratio("fuzzy wuzzy was a bear", "wuzzy fuzzy was a bear")
    100

回答 4

您可以创建如下函数：

def similar(w1, w2):
    w1 = w1 + ' ' * (len(w2) - len(w1))
    w2 = w2 + ' ' * (len(w1) - len(w2))
    return sum(1 if i == j else 0 for i, j in zip(w1, w2)) / float(len(w1))

You can create a function like:

def similar(w1, w2):
    w1 = w1 + ' ' * (len(w2) - len(w1))
    w2 = w2 + ' ' * (len(w1) - len(w2))
    return sum(1 if i == j else 0 for i, j in zip(w1, w2)) / float(len(w1))

回答 5

包装距离包括莱文施泰因距离：

import distance
distance.levenshtein("lenvestein", "levenshtein")
# 3

Package distance includes Levenshtein distance:

import distance
distance.levenshtein("lenvestein", "levenshtein")
# 3

回答 6

对于SequenceMatcher大输入量，内置函数非常慢，这是使用diff-match-patch可以完成的方法：

from diff_match_patch import diff_match_patch

def compute_similarity_and_diff(text1, text2):
    dmp = diff_match_patch()
    dmp.Diff_Timeout = 0.0
    diff = dmp.diff_main(text1, text2, False)

    # similarity
    common_text = sum([len(txt) for op, txt in diff if op == 0])
    text_length = max(len(text1), len(text2))
    sim = common_text / text_length

    return sim, diff

The builtin SequenceMatcher is very slow on large input, here’s how it can be done with diff-match-patch:

from diff_match_patch import diff_match_patch

def compute_similarity_and_diff(text1, text2):
    dmp = diff_match_patch()
    dmp.Diff_Timeout = 0.0
    diff = dmp.diff_main(text1, text2, False)

    # similarity
    common_text = sum([len(txt) for op, txt in diff if op == 0])
    text_length = max(len(text1), len(text2))
    sim = common_text / text_length

    return sim, diff

回答 7

注意，difflib.SequenceMatcher 仅找到最长的连续匹配子序列，这通常不是所希望的，例如：

>>> a1 = "Apple"
>>> a2 = "Appel"
>>> a1 *= 50
>>> a2 *= 50
>>> SequenceMatcher(None, a1, a2).ratio()
0.012  # very low
>>> SequenceMatcher(None, a1, a2).get_matching_blocks()
[Match(a=0, b=0, size=3), Match(a=250, b=250, size=0)]  # only the first block is recorded

寻找两个字符串之间的相似性与生物信息学中成对序列比对的概念密切相关。有很多专用的库，包括biopython。这个例子实现了Needleman Wunsch算法：

>>> from Bio.Align import PairwiseAligner
>>> aligner = PairwiseAligner()
>>> aligner.score(a1, a2)
200.0
>>> aligner.algorithm
'Needleman-Wunsch'

使用biopython或其他生物信息学软件包比python标准库的任何部分都更加灵活，因为可以使用许多不同的评分方案和算法。另外，您实际上可以获取匹配序列以可视化正在发生的事情：

>>> alignment = next(aligner.align(a1, a2))
>>> alignment.score
200.0
>>> print(alignment)
Apple-Apple-Apple-Apple-Apple-Apple-Apple-Apple-Apple-Apple-Apple-Apple-Apple-Apple-Apple-Apple-Apple-Apple-Apple-Apple-Apple-Apple-Apple-Apple-Apple-Apple-Apple-Apple-Apple-Apple-Apple-Apple-Apple-Apple-Apple-Apple-Apple-Apple-Apple-Apple-Apple-Apple-Apple-Apple-Apple-Apple-Apple-Apple-Apple-Apple-
|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-
App-elApp-elApp-elApp-elApp-elApp-elApp-elApp-elApp-elApp-elApp-elApp-elApp-elApp-elApp-elApp-elApp-elApp-elApp-elApp-elApp-elApp-elApp-elApp-elApp-elApp-elApp-elApp-elApp-elApp-elApp-elApp-elApp-elApp-elApp-elApp-elApp-elApp-elApp-elApp-elApp-elApp-elApp-elApp-elApp-elApp-elApp-elApp-elApp-elApp-el

Note, difflib.SequenceMatcher only finds the longest contiguous matching subsequence, this is often not what is desired, for example:

>>> a1 = "Apple"
>>> a2 = "Appel"
>>> a1 *= 50
>>> a2 *= 50
>>> SequenceMatcher(None, a1, a2).ratio()
0.012  # very low
>>> SequenceMatcher(None, a1, a2).get_matching_blocks()
[Match(a=0, b=0, size=3), Match(a=250, b=250, size=0)]  # only the first block is recorded

Finding the similarity between two strings is closely related to the concept of pairwise sequence alignment in bioinformatics. There are many dedicated libraries for this including biopython. This example implements the Needleman Wunsch algorithm:

>>> from Bio.Align import PairwiseAligner
>>> aligner = PairwiseAligner()
>>> aligner.score(a1, a2)
200.0
>>> aligner.algorithm
'Needleman-Wunsch'

Using biopython or another bioinformatics package is more flexible than any part of the python standard library since many different scoring schemes and algorithms are available. Also, you can actually get the matching sequences to visualise what is happening:

>>> alignment = next(aligner.align(a1, a2))
>>> alignment.score
200.0
>>> print(alignment)
Apple-Apple-Apple-Apple-Apple-Apple-Apple-Apple-Apple-Apple-Apple-Apple-Apple-Apple-Apple-Apple-Apple-Apple-Apple-Apple-Apple-Apple-Apple-Apple-Apple-Apple-Apple-Apple-Apple-Apple-Apple-Apple-Apple-Apple-Apple-Apple-Apple-Apple-Apple-Apple-Apple-Apple-Apple-Apple-Apple-Apple-Apple-Apple-Apple-Apple-
|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-|||-|-
App-elApp-elApp-elApp-elApp-elApp-elApp-elApp-elApp-elApp-elApp-elApp-elApp-elApp-elApp-elApp-elApp-elApp-elApp-elApp-elApp-elApp-elApp-elApp-elApp-elApp-elApp-elApp-elApp-elApp-elApp-elApp-elApp-elApp-elApp-elApp-elApp-elApp-elApp-elApp-elApp-elApp-elApp-elApp-elApp-elApp-elApp-elApp-elApp-elApp-el

回答 8

你可以发现，大部分的文本类似方法，以及它们是如何此链接下式计算：https://github.com/luozhouyang/python-string-similarity#python-string-similarity 下面一些例子;

归一化，度量，相似度和距离
（归一化）相似度和距离
公制距离
基于带状疱疹（n-gram）的相似度和距离
莱文施泰因
标准化莱文施泰因
加权Levenshtein
Damerau-Levenshtein
最佳字符串对齐
杰罗·温克勒
最长公共子序列
公制最长公共子序列
N-格拉姆
基于碎片（n-gram）的算法
Q-Gram
余弦相似度
雅卡指数
Sorensen-Dice系数
重叠系数（即，Szymkiewicz-Simpson）

You can find most of the text similarity methods and how they are calculated under this link: https://github.com/luozhouyang/python-string-similarity#python-string-similarity Here some examples;

Normalized, metric, similarity and distance
(Normalized) similarity and distance
Metric distances
Shingles (n-gram) based similarity and distance
Levenshtein
Normalized Levenshtein
Weighted Levenshtein
Damerau-Levenshtein
Optimal String Alignment
Jaro-Winkler
Longest Common Subsequence
Metric Longest Common Subsequence
N-Gram
Shingle(n-gram) based algorithms
Q-Gram
Cosine similarity
Jaccard index
Sorensen-Dice coefficient
Overlap coefficient (i.e.,Szymkiewicz-Simpson)

计算机视觉

近年来，我们看到了计算机视觉的非同寻常的增长，应用于人脸识别、图像理解、搜索、无人机、地图绘制、半自动和自动驾驶车辆。其中许多应用的关键部分是视觉识别任务，例如图像分类、目标检测和图像相似度

此存储库提供构建计算机视觉系统的示例和最佳实践指南。该存储库的目标是构建一套全面的工具和示例，以利用计算机视觉算法、神经体系结构和实现此类系统的最新进展。我们不是从头开始创建实现，而是利用现有的最先进的库，围绕加载图像数据、优化和评估模型以及向上扩展到云来构建额外的实用程序。此外，在此领域工作多年后，我们的目标是回答常见问题，指出经常观察到的陷阱，并展示如何使用云进行培训和部署

我们希望这些示例和实用程序可以通过按数量级简化从定义业务问题到开发解决方案的过程来显著缩短“上市时间”。此外，示例笔记本将作为指南，并以多种语言展示工具的最佳实践和用法

这些示例提供为Jupyter notebooks也很常见utility functions所有示例都使用PyTorch作为底层深度学习库

目标受众

我们这个存储库的目标受众包括具有不同计算机视觉知识水平的数据科学家和机器学习工程师，因为我们的内容是纯来源的，目标是自定义的机器学习建模。所提供的实用程序和示例旨在作为解决实际视觉问题的加速器

快速入门

要开始，请导航到Setup Guide，其中列出了有关如何设置计算环境和运行此Repo中的笔记本所需的依赖项的说明。设置环境后，请导航到Scenarios文件夹，开始浏览笔记本。我们建议从图像分类笔记本，因为这引入了其他场景也使用的概念(例如关于ImageNet的预培训)

或者，我们支持活页夹只需点击此链接，即可在网络浏览器中轻松试用我们的笔记本电脑。然而，Binder是免费的，因此只提供有限的CPU计算能力，并且没有GPU支持。预计笔记本的运行速度会非常慢(通过将图像分辨率降低到例如60像素，这在一定程度上有所改善，但代价是精确度较低)

场景

以下是此存储库中涵盖的常用计算机视觉场景的摘要。对于每个主要场景(“基础”)，我们都会提供工具来有效地构建您自己的模型。这包括在您自己的数据上微调您自己的模型等简单任务，以及硬性否定挖掘甚至模型部署等更复杂的任务

场景	支持	描述
Classification	基地	图像分类是一种有监督的机器学习技术，用于学习和预测给定图像的类别
Similarity	基地	图像相似度是一种计算给定一对图像的相似度分数的方法。在给定图像的情况下，它允许您识别给定数据集中最相似的图像
Detection	基地	对象检测是一种允许您检测图像中对象的边界框的技术
Keypoints	基地	关键点检测可用于检测对象上的特定点。提供了一种预先训练的模型来检测人体关节，以进行人体姿态估计。
Segmentation	基地	图像分割为图像中的每个像素分配类别
Action recognition	基地	动作识别，用于在视频/网络摄像机镜头中识别执行的动作(例如，“运行”、“打开瓶子”)以及各自的开始/结束时间。我们还实现了可以在(Contrib)[contrib]下找到的动作识别的i3D实现
Tracking	基地	跟踪允许随时间检测和跟踪视频序列中的多个对象
Crowd counting	Contrrib	统计低人群密度(如10人以下)和高人群密度(如数千人)场景下的人数

我们将支持的CV方案分为两个位置：(I)基地：“utils_cv”和“Scenario”文件夹中的代码和笔记本遵循严格的编码准则，经过良好的测试和维护；(Ii)Contrrib：“contrib”文件夹中的代码和其他资源，主要介绍使用尖端技术的不太常见的CV场景。“contrib”中的代码没有定期测试或维护

计算机视觉在蔚蓝上的应用

请注意，对于某些计算机视觉问题，您可能不需要构建自己的模型。取而代之的是，Azure上存在预先构建的或可轻松定制的解决方案，不需要任何自定义编码或机器学习专业知识。我们强烈建议您评估这些方法是否足以解决您的问题。如果这些解决方案不适用，或者这些解决方案的准确性不够，则可能需要求助于更复杂、更耗时的自定义方法

以下Microsoft服务提供了解决常见计算机视觉任务的简单解决方案：

Vision Services是一组经过预先训练的睡觉API，可以调用它们来进行图像标记、人脸识别、光学字符识别、视频分析等。这些API开箱即用，只需要极少的机器学习专业知识，但定制功能有限。查看各种可用的演示以体验该功能(例如Computer Vision)。该服务可通过API调用或通过SDK(以.NET、Python、Java、Node和Go语言提供)使用
Custom Vision是一项SaaS服务，用于在给定用户提供的培训集的情况下将模型训练和部署为睡觉应用编程接口。所有步骤，包括图像上传、注释和模型部署，都可以使用直观的UI或通过SDK(.Net、Python、Java、Node和Go语言)执行。训练图像分类或目标检测模型可以用最少的机器学习专业知识来实现。与使用预先培训的认知服务API相比，Custom Vision提供了更大的灵活性，但需要用户自带数据并对其进行注释

如果您需要培训您自己的模型，以下服务和链接提供了可能有用的附加信息

Azure Machine Learning service (AzureML)是一项帮助用户加速训练和部署机器学习模型的服务。虽然AzureML Python SDK不特定于计算机视觉工作负载，但它可以用于可伸缩且可靠的培训，并将机器学习解决方案部署到云中。我们在此存储库中的几个笔记本中利用Azure机器学习(例如deployment to Azure Kubernetes Service)
Azure AI Reference architectures提供一组示例(由代码支持)，说明如何构建利用多个云组件的常见面向AI的工作负载。虽然不是特定于计算机视觉的，但这些参考体系结构涵盖了几个机器学习工作负载，例如模型部署或批处理评分

生成状态

AzureML测试

构建类型	分支机构	分支机构
Linux GPU	师傅	试运行
Linux CPU	师傅	试运行
笔记本电脑单元GPU	师傅	试运行

贡献

这个项目欢迎大家提供意见和建议。请参阅我们的contribution guidelines

Python 实用宝典

标签归档：similarity

查找两个字符串之间的相似性度量