全文検索 CGI では、検索キーワードの文書内での出現回数(頻度)、検索キーワードの出現文書数(分布)、文書サイズを使って、文書の重み付けを計算します。出現回数が多ければスコアを高く、出現回数が少なければスコアを低く見積もります。次に出現文書数ですが、出現文書数が多ければ、そのキーワードそものののスコアを低く見積もります。逆に出現文書数が少なければ、そのキーワードは希少性が高いため、ヒットした文書は高いスコアとして計算されます。最後に文書サイズですが、文書サイズが小さいものほど、スコアを高くして計算します。つまり、文書サイズが大きければ、それだけそのキーワードの出現率がもともと高いはずであり、その文書にとっては大きな意味を持たないであろうという想定をします。逆に、文書サイズが小さいにもかかわらず、検索キーワードを含んでいれば、その検索キーワードにとって、その文書は意味がある文書であろうと想定します。
通常、タイトルはその文書を表す重要な情報とみなされます。従って、もしタイトルに検索キーワードが含まれていれば、その文書は他の文書よりも重要とみなすのです。その際に、あえて出現回数を多く見積もるのですが、その倍率をここで指定します。もし 1 (倍)を指定した場合には、検索キーワードがタイトルに含まれる文書も、文書内にしか現れない文書も同じ重み付けになります。