Twitterがハッシュタグの同値判定に利用してるUnicodeライブラリが対応してるUnicodeバージョンが、7.0以上8.0未満であるらしいことがわかった。即ち7.0ってことだな。
Twitterがハッシュタグの同値判定に利用してるUnicodeライブラリが対応してるUnicodeバージョンが、7.0以上8.0未満であるらしいことがわかった。即ち7.0ってことだな。
todo
unicodedata2いれてUCD version 7にしてみる
リガチャは分ける
リガチャに恒等変換を追加
先にリガチャを適用、そのあと単文字を置き換へる
順番にサーチ、置き換えへはランダムにする関数を使ふ
ucdバージョンの違ひでtoLowerすると壊れる可能性があるので、小文字にしないで大文字から直接変換できるよう対応を作っておく