SQL Server 管理全文索引-白红宇

SQL Server 管理全文索引

阅读量：443 次

发布时间：2019-03-06

本文共 1407 字，大约阅读时间需要 4 分钟。

全文索引在数据库中扮演着重要角色，了解它的工作原理和管理方法对于数据库优化至关重要。全文索引与常见的聚集索引或非聚集索引不同，其内部实现采用平衡树（B-Tree）结构，但在物理上由一系列的内部表（Internal tables）构成，这些内部表被称为全文索引片段（Fragments）。

全文索引片段的形成

当新建全文索引时，索引片段只有一个，但随着业务数据的更新，基础表（underlying table）的数据也会更新。这时，旧的数据不会被删除，而是存储在新的索引片段中。因此，全文索引片段的数量会逐渐增加。每次全文搜索时，需要查找更多的数据行，导致性能下降。为了维持高效性能，必须定期对索引片段进行重组（reorganize）或重建（rebuild），以删除已删除的数据，减少片段数量，从而提高搜索性能。

倒转索引的名称由来

倒转索引的名称来源于其存储数据的方式。全文索引中存储的不是完整的文本，而是将文本分词后，记录分词及其位置信息。每个分词映射到文档唯一标识符（DocID），由DocID查询分词是正向操作，而由分词查询DocID则是倒转操作。因此，全文索引被称为倒转索引。

全文索引的拆分与重组

全文索引通常由多个索引片段组成。例如，当某个文档的标题字段（Title）被更新时，全文索引会新建一个索引片段。每个索引片段记录创建时间，当相同DocID出现在多个片段中，最新的数据由时间戳决定。重组操作通过Master Merge将各个片段合并到一个主片段中，并清除已删除数据。

全文索引的重组与填充

全文引擎使用Range来管理填充操作，Range是并行处理的进程，需要大量CPU资源。batch是基础表的数据块，Range会生成多个batch进行分批处理，以提高填充速度。填充完成后，SQL Server会进行Master Merge，将片段合并到主片段中。重组操作可以通过调度程序（Schedule）在Population Schedule tab设置，按计划对全文索引进行重组。

停用词管理

为了避免全文索引存储无效信息，SQL Server允许用户自定义停用词列表。停用词会被过滤，但其位置信息仍被记录。通过创建停用词列表（StopLists），并更新全文索引引用的停用词列表，可以有效管理停用词，提升查询性能。

分词与查询解析

分词是全文引擎的重要功能。通过sys.dm_fts_parser动态管理函数，可以查看查询分词结果，了解contains子句解析的关键词。查看同源词时，使用FORMSOF函数，并结合INFLECTIONAL或THESAURUS参数，分别处理同义词和形容词变体。

元数据查看

了解全文索引的元数据对于优化查询性能至关重要。可以通过系统视图查看全文索引的创建状态、填充进度等信息。查看索引片段的大小和数据行数，可以评估索引性能并决定是否需要重组。

SQL Server全文索引管理

通过监控当前正在运行的填充操作，可以了解索引填充的状态。每一次填充都会分多个Ranges并行执行，每个Range可以分多个Batch处理。通过查看sys.dm_fts_index_population动态管理视图，了解填充进度和性能。

参考文档

了解SQL Server全文索引管理，建议参考相关文档和技术博客，获取最新的优化建议和解决方案。保持对全文索引的深入了解，不断优化数据库性能。

转载地址：http://btxyz.baihongyu.com/

你可能感兴趣的文章

Mysql:连接报错“closing inbound before receiving peer‘s close_notify”