特集なにかリクエストあればどうぞ
This account is not set to public on notestock.
@pooza サーバリソースがわりとカツカツなので、少し慎重に検討しようかと思っております…
This account is not set to public on notestock.
ごち鯖の検索機能ですが、現在実験的に「全てのメディア付き公開トゥート」を対象とするように変更しています。みなさん使ってみてね
PGroonga、検索文字数が増えると遅いなあと思ったが、N-gramなんだからそりゃそうか...
ごち鯖の本番環境でカジュアルにコードを書き換える、脳内のザッカーバーグがそうしろと囁いている
あー、類義語だけ使っても辞書のほうがないからうまく検索に引っ掛からないのか...なるほど...
ちなみに、icu_normalizer は、㌢→センチ みたいな正規化をかけてくれるフィルタです
icu_normalizerが見つからない→おそらくanalysis-icuプラグインが入っていない
私も以前似たようなことをやったな...
neologd-synonymのCSVを類義語ファイルとして登録したので、インデックス再構築しております
かといってchewyでインデックス更新すると、不要なデータまでインデックスされちゃうんだなこれが
tootctl search deploy、インデックスのダウンタイムがデカめに発生するのがつらみ(chewy:deploy だとうまくエイリアスを貼ってダウンタイム無しにしてくれる)
イワテドンはこんな感じになってた、english_stemmerとか要らん気もするがなんとなく残している
https://github.com/iwatedon/mastodon/blob/v3.4.1-002-iwatedon/app/chewy/statuses_index.rb
Let's EncryptのルートCA期限切れで OpenSSL 1.0.2が思わぬ事故を起こす件 | ワルブリックス株式会社
https://www.walbrix.co.jp/article/openssl-102-letsencrypt-crisis.html
This account is not set to public on notestock.
行指定って、コミット重ねるうちにズレてくるような気がするので、どこまで正確に取れるかは謎
Firefoxだと、アドレスバー左のアイコンクリックで切り替えられるのに、Chromeはそれができないのでモヤモヤする
動画の再生位置にテキストをタグ付けして、テキストから簡単に頭出し検索できるようなの、まだないのかな
デフォルト設定だとメモリ食い過ぎなので、ヒープサイズ最大最小ともに512MBに切り詰めてなんとか動かしてるのだけど、やはりレスポンスがいまいち重いと思うときがある
あくまで「できる」というだけで、これ全部のスタンプに対してやろうとすると地味にダルい作業になるけど
話がちと変わるけど、Elasticsearchのsynonym token filter(類義語フィルタ)を使うと、カスタム絵文字を検索に引っ掛けることもできる。
「うちのトゥート検索に曖昧性なんで要らねえYO!」という方は、match_phrase固定のカスタマイズをしてしまうのもよろしいかと思います。ますますElasticsearchである必要がなくなるな
「関連度順」は普通のmatch検索、「新着順」はmatch_phrase検索を使って曖昧性が出ないように設定
そういうこともあり「関連度順」と「新着順」の検索機能を分けてしまっているシステムもそこそこある
うちも前はそれ入れてたのですけど、ダブルクオート無しの場合に、投稿最近だけど関連度低いトゥートが上に出てきちゃうことがあるのよね。。。
This account is not set to public on notestock.
たぶん、ESのスクリプトソーティングの機能を使って、スコアと投稿日時をうまいことガッシャンコするロジックを書いてあげればいいのだろうけど、それでも試行錯誤する必要がある
This account is not set to public on notestock.
ちなみに、イワテドンでElasticsearch+kuromoji、ごちそうフォトでPGroongaを使ってる
ダブルクオートすれば、match_phrase検索になるから、完全に一致するもののみが引っ掛かるはずだが...
送り仮名のブレの正規化あたりは、Kuromojiでも↓を使えばそこそこいける気がする
https://github.com/neologd/neologd-solr-elasticsearch-synonyms
便利そう
neologd/neologd-solr-elasticsearch-synonyms: Solr / Elasticsearch Synonym mapping file for Japanese web documents using results of NEologd
https://github.com/neologd/neologd-solr-elasticsearch-synonyms
- PGroongaはRDS等には入れられないので、その場合は工夫が必要
- 「自分が検索できる」という条件絞り込みを行うクエリが重め(連合全体を検索対象にしても可であればその限りではない)
- PGroogaのバージョンによってPostgreSQLのバージョンが多少縛られる
PGroongaのほうが負荷的には楽だけど、制約がいくつかできてしまうので、おすすめできるかといったら...
Elasticsearch導入はそんなに難しくないけど、日本語対応のカスタマイズが少々必要かな
天一画像少ない状態が続く場合は、ごちそうフォトから天一過去画像を大量ブーストすることに...
まあなんか怪しげなユーザー登録は時々ありますが、疑わしきは罰せずの方針でやっておりますのではい。