如何找到相似的结果并按相似性排序?


68

如何查询相似度排序的记录?

例如。搜索“库存溢出”将返回

  1. 堆栈溢出
  2. SharePoint溢出
  3. 数学溢出
  4. 政治溢出
  5. 视觉特效溢出

例如。搜索“ LO”将返回:

  1. 巴勃罗毕加索
  2. 米开朗基罗
  3. 杰克逊·波洛克

我需要什么帮助:

  1. 使用搜索引擎索引和搜索MySQL表,以获得更好的结果

    • 使用Sphinx搜索引擎和PHP

    • 在PHP中使用Lucene引擎

  2. 使用全文索引,查找相似/包含的字符串


什么不好

  • Levenshtein的距离非常不稳定。(UDFQuery
    搜索“ dog”给我:
    1. 沼泽
    2. 回声
  • LIKE 返回更好的结果,但是长查询没有返回任何结果,尽管确实存在类似的字符串
    1. 狗狗
    2. 多加拉尔
    3. 教条

Answers:


86

我发现,当您针对另一个完整字符串搜索完整字符串时,Levenshtein距离可能很好,但是当您在字符串中查找关键字时,此方法不会返回(有时)所需的结果。此外,SOUNDEX函数不适用于英语以外的其他语言,因此非常有限。您可以通过LIKE摆脱困境,但这实际上是针对基本搜索的。您可能想研究其他搜索方法以获取想要的结果。例如:

您可以将Lucene用作项目的搜索基础。它以大多数主要的编程语言实现,并且非常快速且通用。该方法可能是最好的,因为它不仅搜索子字符串,而且搜索字母转置,前缀和后缀(全部组合)。但是,您需要保留一个单独的索引(尽管有时可以使用CRON从独立脚本中对其进行更新)。

或者,如果您要使用MySQL解决方案,则全文功能相当不错,而且肯定比存储过程快。如果您的表不是MyISAM,则可以创建一个临时表,然后执行全文搜索:

CREATE TABLE IF NOT EXISTS `tests`.`data_table` (
  `id` int(10) unsigned NOT NULL AUTO_INCREMENT,
  `title` varchar(2000) CHARACTER SET latin1 NOT NULL,
  `description` text CHARACTER SET latin1 NOT NULL,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB  DEFAULT CHARSET=utf8 COLLATE=utf8_bin AUTO_INCREMENT=1 ;

如果您不想自己创建数据,请使用数据生成器生成一些随机数据...

**注意**:列类型应该是latin1_bin执行区分大小写的搜索,而不是使用不区分大小写的搜索latin1。对于unicode字符串,我建议utf8_bin进行区分大小写和utf8_general_ci不区分大小写的搜索。

DROP TABLE IF EXISTS `tests`.`data_table_temp`;
CREATE TEMPORARY TABLE `tests`.`data_table_temp`
   SELECT * FROM `tests`.`data_table`;

ALTER TABLE `tests`.`data_table_temp`  ENGINE = MYISAM;

ALTER TABLE `tests`.`data_table_temp` ADD FULLTEXT `FTK_title_description` (
  `title` ,
  `description`
);

SELECT *,
       MATCH (`title`,`description`)
       AGAINST ('+so* +nullam lorem' IN BOOLEAN MODE) as `score`
  FROM `tests`.`data_table_temp`
 WHERE MATCH (`title`,`description`)
       AGAINST ('+so* +nullam lorem' IN BOOLEAN MODE)
 ORDER BY `score` DESC;

DROP TABLE `tests`.`data_table_temp`;

MySQL API参考页面中了解更多信息

不利的一面是,它不会寻找字母换位或“相似,听起来像”的单词。

**更新**

使用Lucene进行搜索,您只需要创建一个cron作业(所有Web主机都具有此“功能”),该作业将简单地执行一个PHP脚本(例如,“ cd / path / to / script; php searchindexer.php” ),将更新索引。原因是索引成千上万的“文档”(行,数据等)可能需要几秒钟,甚至是几分钟,但这是为了确保所有搜索都尽可能快地执行。因此,您可能要创建要由服务器运行的延迟作业。可能是一整夜,或者在下一小时,这取决于您。PHP脚本应如下所示:

$indexer = Zend_Search_Lucene::create('/path/to/lucene/data');

Zend_Search_Lucene_Analysis_Analyzer::setDefault(
  // change this option for your need
  new Zend_Search_Lucene_Analysis_Analyzer_Common_Utf8Num_CaseInsensitive()
);

$rowSet = getDataRowSet();  // perform your SQL query to fetch whatever you need to index
foreach ($rowSet as $row) {
   $doc = new Zend_Search_Lucene_Document();
   $doc->addField(Zend_Search_Lucene_Field::text('field1', $row->field1, 'utf-8'))
       ->addField(Zend_Search_Lucene_Field::text('field2', $row->field2, 'utf-8'))
       ->addField(Zend_Search_Lucene_Field::unIndexed('someValue', $someVariable))
       ->addField(Zend_Search_Lucene_Field::unIndexed('someObj', serialize($obj), 'utf-8'))
  ;
  $indexer->addDocument($doc);
}

// ... you can get as many $rowSet as you want and create as many documents
// as you wish... each document doesn't necessarily need the same fields...
// Lucene is pretty flexible on this

$indexer->optimize();  // do this every time you add more data to you indexer...
$indexer->commit();    // finalize the process

然后,这基本上就是您搜索(基本搜索)的方式:

$index = Zend_Search_Lucene::open('/path/to/lucene/data');

// same search options
Zend_Search_Lucene_Analysis_Analyzer::setDefault(
   new Zend_Search_Lucene_Analysis_Analyzer_Common_Utf8Num_CaseInsensitive()
);

Zend_Search_Lucene_Search_QueryParser::setDefaultEncoding('utf-8');

$query = 'php +field1:foo';  // search for the word 'php' in any field,
                                 // +search for 'foo' in field 'field1'

$hits = $index->find($query);

$numHits = count($hits);
foreach ($hits as $hit) {
   $score = $hit->score;  // the hit weight
   $field1 = $hit->field1;
   // etc.
}

这是JavaPHP.Net中有关Lucene的绝佳网站。

总之,每种搜索方法各有利弊:

  • 您提到了Sphinx搜索,它看起来非常好,只要您可以使deamon在您的虚拟主机上运行即可。
  • Zend Lucene需要执行cron作业才能重新索引数据库。尽管它对用户是完全透明的,但这意味着任何新数据(或已删除的数据!)并不总是与数据库中的数据同步,因此不会在用户搜索时立即显示。
  • MySQL FULLTEXT搜索既好又快速,但不会给您前两个功能和灵活性。

如果我忘记/遗漏任何东西,请随时发表评论。


1
我已经在问题中添加了区分大小写/不区分大小写的部分,但是恐怕纯SQL解决方案不如Lucene解决方案好。但这只是恕我直言。也许有一天,有人会为MySQL实现Lucene搜索功能,坦率地说,我很乐意看到这一天,但与此同时,这是我现在可以找到的最佳解决方案。
亚尼克·罗雄

我会回应的。mysql唯一的解决方案很快将不可用。
Michael Clerx

你能帮我Lucene吗?如何开始查询相似性的记录?像搜索引擎一样?如果您可以向我展示如何使其发挥作用,我将为您提供赏金。
罗宾·罗德里克斯

1
Sphynx看起来还不错。您可以从Zend的网站上找到有关Lucene的信息(您不需要整个Zend Framework结构即可使用Zend_Search_Lucene类),所有内容都非常详细。如果您不想打扰Zend,Sphynx看起来也不错!而且似乎不需要为您的数据保留单独的索引的开销....我将进一步探讨该索引。感谢您分享。:) 祝好运!
Yanick Rochon 2010年

1
非常感谢Yanick!您的答案很棒,但是我需要其他一些帮助:1)您可以向我展示一个带有全文列的简单MySQL查询来搜索类似记录吗?看到我的问题。2)用于搜索相似记录的Lucene查询字符串是什么,最相关的“匹配”或“包含”记录位于顶部,而“相似”或“相似”记录位于其下。
罗宾·罗德里克斯

22

1.相似性

对于MySQL中的Levenshtein,我从www.codejanitor.com/wp/2007/02/10/levenshtein-distance-as-a-mysql-stored-function找到了

SELECT 
    column, 
    LEVENSHTEIN(column, 'search_string') AS distance 
FROM table 
WHERE 
    LEVENSHTEIN(column, 'search_string') < distance_limit
ORDER BY distance DESC

2.包含,不区分大小写

使用LIKEMySQL语句,默认情况下不区分大小写。该%是一个通配符,所以之前和之后,可以有任意的字符串search_string

SELECT 
    *
FROM 
    table
WHERE 
    column_name LIKE "%search_string%"

3.包含,区分大小写

MySQL手册帮助:

默认字符集和排序规则为latin1和latin1_swedish_ci,因此默认情况下非二进制字符串比较不区分大小写。这意味着,如果使用col_name LIKE'a%'搜索,则将获得所有以A或a开头的列值。要使此搜索区分大小写,请确保其中一个操作数具有区分大小写或二进制排序规则。例如,如果要比较均具有latin1字符集的列和字符串,则可以使用COLLATE运算符使两个操作数具有latin1_general_cs或latin1_bin排序规则。

我的MySQL设置不支持latin1_general_cslatin1_bin,但是对我来说使用排序规则的效果很好,utf8_bin因为二进制utf8区分大小写:

SELECT 
    *
FROM 
    table
WHERE 
    column_name LIKE "%search_string%" COLLATE utf8_bin

2. / 3.按莱文施泰因距离排序

SELECT 
    column, 
    LEVENSHTEIN(column, 'search_string') AS distance // for sorting
FROM table 
WHERE 
    column_name LIKE "%search_string%"
    COLLATE utf8_bin // for case sensitivity, just leave out for CI
ORDER BY
    distance
    DESC

当检查搜索的字符串是否出现在列中时,如何定义相似性?有2种可能性:TRUE和FALSE,介于两者之间。您实际上可以通过将搜索字符串的字符串长度除以该列的字符串长度来获得一个因子,但是您总是总能获得最短的字符串。您是否要按实际列中的出现次数进行排序?为什么不进行全文搜索?
opatut 2010年

不,我是说您可以使用#2和#3进行搜索,并使用Levenshtein或类似方法进行相似性排序吗?因此,您在顶部获得的结果最相似。.请参阅我的问题中给出的示例。
罗宾·罗德里克斯

可以,但我认为使用LIKE时按Levenshtein进行排序是没有道理的。为什么在示例中会这样排序(1.采用/ 2. Adore / 3. Adorn)?使用levenshtein,它们具有相同的值(3,因为您总是必须添加3个字符)
opatut 2010年

MySQL Dam-Lev实现很好,但是它产生的结果很不稳定,因为Lev的哲学是“度量编辑”而不是“度量差异” ..请参阅上面的更新问题。
罗宾·罗德里克斯

@opatut是的,Levenshtein是一个不错的选择。但是,当我有一组字符串要与另一组字符串匹配时,如何找到Levenshtein距离的最小值?
Walter Schrabmair

4

看来您对相似性的定义是语义相似性。因此,为了构建这样的相似度函数,您应该使用语义相似度度量。请注意,关于此问题的工作范围可能从数小时到数年不等,因此建议在开始工作之前确定范围。我没有弄清楚您需要哪些数据来建立相似关系。我假设您可以访问文档数据集和查询数据集。您可以从单词的同时出现开始(例如,条件概率)。您会很快发现自己得到了停用词列表与之相关的大多数单词只是因为它们非常流行。使用条件概率的提升将处理停用词,但会使该关系在少数情况下容易出错(大多数情况下)。您可以尝试使用Jacard,但由于它是对称的,因此将找不到许多关系。然后,您可能会考虑仅在距基本单词不远的地方出现的关系。您可以(并且应该)考虑基于一般语料库(例如Wikipedia)和特定于用户(例如他的电子邮件)的关系。

很快,当所有措施都很好并且相对于其他措施有一些优势时,您将拥有大量相似性措施。

为了结合这些措施,我希望将问题简化为分类问题。

您应该建立一个巴黎词组数据集,并将其标记为“相关”。为了构建一个大标签数据集,您可以:

  • 使用已知相关单词的来源(例如,良好的旧Wikipedia类别)进行肯定
  • 大多数不相关的词都不相关。

然后将所有具有的度量用作对的特征。现在您处于监督分类问题的领域。在数据集上建立分类器,根据您的需求进行评估,并获得适合您需求的相似性度量。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.