TF-IDF (Term Frequency–Inverse Document Frequency) è una statistica numerica utilizzata nel recupero delle informazioni e nel text mining per misurare l'importanza di un termine all'interno di un documento o di un corpus. Quantifica la rilevanza di un termine considerando la frequenza della sua occorrenza in un documento, tenendo conto anche della sua rarità in tutti i documenti. Maggiore è il valore TF-IDF di un termine, maggiore è la sua importanza nel rappresentare il contenuto di un documento.