言葉を区切って書くことを分かち書きといいます。
たとえば、 これ は ペン です。
こんな感じでしょうか。
英語では、単語と単語の間には、スペースがはいるので、単語の識別するのは
非常に簡単です。(単語も、複数形などの語尾変化は発生しますが。)

しかし、日本語では、句読点はありますが、単語ごとに分けて書いたりすることはありません。句読点が多くなると、日本語は読みにくくなります。
しかし、検索効率を上げるために、言葉を 分かち書きをして、その言葉を
検索対象にするという考え方があります。
多くの場合、人が、目で分割します。

これは、ヘンです。 これ は ヘン です。 これは ヘン です。

しかし、これもルールがあるようで、ないようで、難しい問題があります。
漢字は複合語をどんどん作れるので、どこで、分かちすべきか悩みます。
たとえば、世界遺産 は、世界遺産ひとつの語と考えるのか 世界 と 遺産
の2つの言葉と考えるのかなど、またまたクイズのような問題が出てきます。

図書館目録裏側では、こんな問題に苦闘している人もいます。
自動的に、文章の分解をしよう、自動的に漢字に読みをつけよう
いろいろ努力するのですが、簡単にいかない問題もあります。