TF-IDF (Frequência de Termo–Frequência Inversa de Documento) é uma estatística numérica usada na recuperação de informação e mineração de texto para medir a importância de um termo dentro de um documento ou de um corpus. Ele quantifica a relevância de um termo considerando a frequência de sua ocorrência em um documento, ao mesmo tempo em que leva em conta sua raridade em todos os documentos. Quanto maior o valor TF-IDF de um termo, mais significativo ele é para representar o conteúdo de um documento.