Searching Chinese terms in middle of sentence

This is how stuff is being split in the tokenizer, does it look correct?

source: 我非常喜歡台灣
split: 我 | 非常 | 喜 | 歡 | 台 | 灣 |
source: 我們的總統目前不敢說台灣是個獨立的國家
split: 我 | 們 | 的 | 總 | 統 | 目前 | 不敢 | 說 | 台 | 灣 | 是 | 個 | 獨 | 立 | 的 | 國 | 家 |
source: 台灣主要的城市包括台北、台中、台南、高雄、台東和花蓮
split: 台 | 灣 | 主要 | 的 | 城市 | 包括 | 台北 | 、 | 台中 | 、 | 台南 | 、 | 高雄 | 、 | 台 | 東 | 和 | 花 | 蓮 |
source: 在我認識的人中,大部分不知道台灣在哪裡或以為是泰國
split: 在 | 我 | 認 | 識 | 的 | 人中 | , | 大部分 | 不知道 | 台 | 灣 | 在哪 | 裡 | 或以 | 為 | 是 | 泰 | 國 |

Everything looks logical, except that there are a couple of oddities in the last one. 人中 doesn’t seem like an important enough term to preserve, and I would expect 哪裡 and 以為 to be preserved as units as opposed to what is shown. I’m not sure what the parameters are though, in other words what it should be doing.

To help other English-speakers like me save their eyes, here’s what is shown:

i.e. the first character is attached to the character before it instead of the one after it

Yes, and this pair as well 或以 | 為, that 以為 seems like a much more common term.