正規表現(Regular Expression)は、検索パターンを定義する一連の文字です。
正規表現の構文は、さまざまなプログラミング言語やテキストエディタで、テキストのパターンマッチングや操作によく使用されます。正規表現を使用すると、特定のパターンを検索したり、入力を検証したり、複雑なテキスト処理タスクを実行したりできます。
正規表現の使用例
メールアドレスの検証:
- 正規表現パターン:
^[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}$ - このパターンは、入力が有効なメール形式に従っていることを保証します。
テキストから電話番号を抽出する:
- 正規表現パターン:
\b\d{3}[-.]?\d{3}[-.]?\d{4}\b - このパターンは、区切り文字としてハイフンまたはドットが省略可能な10桁の電話番号に一致します。
テキストドキュメント内の特定のキーワードを検索する:
- 正規表現パターン:
\b(apple|banana|orange)\b - このパターンは、「apple」、「banana」、または「orange」という単語全体に一致します。
SEOにおける正規表現
SEO(検索エンジン最適化)では、正規表現はさまざまなタスクに使用できます:
URLから重要な情報を特定および抽出する:
- 正規表現パターン:
https?://(?:www\.)?example\.com/category/(.+) - このパターンは、特定のURL構造からカテゴリ名を抽出します。
URL構造をクリーンアップおよび標準化する:
- 正規表現パターン:
[^a-zA-Z0-9-] - このパターンは、英数字またはハイフン以外のすべての文字に一致して削除し、クリーンでSEOフレンドリーなURLの作成に役立ちます。
- 正規表現パターン:
<h1>(.+?)</h1> - このパターンは、
<h1>タグ間のコンテンツを抽出します。これは、多くの場合、ウェブページのメイン見出しを表します。
これらは正規表現の使用方法のほんの一例です。その汎用性により、プログラミング、データクリーニング、SEOを含むさまざまなドメインで、テキスト処理およびパターンマッチングのための強力なツールとなっています。