目次:
定義-トークン化とはどういう意味ですか?
トークン化とは、文字列のシーケンスを単語、キーワード、フレーズ、記号、トークンと呼ばれる他の要素などの断片に分割する行為です。 トークンには、個々の単語、フレーズ、または文全体を使用できます。 トークン化のプロセスでは、句読点などの一部の文字が破棄されます。 トークンは、解析やテキストマイニングなどの別のプロセスの入力になります。
トークン化はコンピューターサイエンスで使用され、字句解析のプロセスで大きな役割を果たします。
Techopediaはトークン化について説明します
トークン化は、いくつかの手順に従ってトークンを分離するために、主に単純なヒューリスティックに依存しています。
- トークンまたは単語は、空白、句読点、または改行で区切られます
- 空白または句読点は、必要に応じて含まれる場合と含まれない場合があります
- 連続した文字列内のすべての文字は、トークンの一部です。 トークンは、すべての英数字、英数字、または数字のみで構成できます。
トークン自体も区切り文字にすることができます。 たとえば、ほとんどのプログラミング言語では、識別子を空白なしで算術演算子と一緒に配置できます。 これは単一の単語またはトークンとして表示されるように見えますが、言語の文法では実際に数学演算子(トークン)をセパレーターと見なしているため、複数のトークンがまとめられても、数学的なオペレーター。
![トークン化とは何ですか? -techopediaからの定義 トークン化とは何ですか? -techopediaからの定義](https://img.theastrologypage.com/img/img/blank.jpg)