我读了一些有关Lucene的文件。我也通过此链接(http://lucene.sourceforge.net/talks/pisa)阅读了文档。
我不太了解Lucene如何为文档建立索引,也不了解Lucene用于索引的算法是什么?
在上面的链接上,它说Lucene使用此算法建立索引:
- 增量算法:
- 维护一堆细分指数
- 为每个传入文档创建索引
- 将新索引推入堆栈
- 令b = 10为合并因子;M = 8
for (size = 1; size < M; size *= b) {
if (there are b indexes with size docs on top of the stack) {
pop them off the stack;
merge them into a single index;
push the merged index onto the stack;
} else {
break;
}
}
该算法如何提供优化的索引编制?
Lucene是否使用B树算法或类似索引的任何其他算法-还是有特定的算法?