開発 トークン化とは何ですか? -techopediaからの定義

トークン化とは何ですか? -techopediaからの定義

目次:

Anonim

定義-トークン化とはどういう意味ですか?

トークン化とは、文字列のシーケンスを単語、キーワード、フレーズ、記号、トークンと呼ばれる他の要素などの断片に分割する行為です。 トークンには、個々の単語、フレーズ、または文全体を使用できます。 トークン化のプロセスでは、句読点などの一部の文字が破棄されます。 トークンは、解析やテキストマイニングなどの別のプロセスの入力になります。

トークン化はコンピューターサイエンスで使用され、字句解析のプロセスで大きな役割を果たします。

Techopediaはトークン化について説明します

トークン化は、いくつかの手順に従ってトークンを分離するために、主に単純なヒューリスティックに依存しています。

  • トークンまたは単語は、空白、句読点、または改行で区切られます
  • 空白または句読点は、必要に応じて含まれる場合と含まれない場合があります
  • 連続した文字列内のすべての文字は、トークンの一部です。 トークンは、すべての英数字、英数字、または数字のみで構成できます。

トークン自体も区切り文字にすることができます。 たとえば、ほとんどのプログラミング言語では、識別子を空白なしで算術演算子と一緒に配置できます。 これは単一の単語またはトークンとして表示されるように見えますが、言語の文法では実際に数学演算子(トークン)をセパレーターと見なしているため、複数のトークンがまとめられても、数学的なオペレーター。

トークン化とは何ですか? -techopediaからの定義