TF-IDF (Term Frequency–Inverse Document Frequency) ist eine numerische Statistik, die in der Informationsbeschaffung und im Text-Mining verwendet wird, um die Bedeutung eines Begriffs innerhalb eines Dokuments oder eines Korpus zu messen. Sie quantifiziert die Relevanz eines Begriffs, indem sie die Häufigkeit seines Vorkommens in einem Dokument berücksichtigt und gleichzeitig seine Seltenheit über alle Dokumente hinweg berücksichtigt. Je höher der TF-IDF-Wert eines Begriffs ist, desto bedeutender ist er für die Darstellung des Inhalts eines Dokuments.