icon

さくっとメンテ入れるつもりで手間取りまして、ちょっと止まっておりました。

もう一度トライします。

icon

ログボ

icon

@kamisuke おはよう、王

icon

@salutora おはようございますー!

icon

全文検索のバックエンド側の機能は概ね整ったので、本格的にインデックスの再構築を開始します。

開始時点からそれ以降の内容はすぐに検索対象になりますが、それ以前の内容は順次インデックスしていくことになるので、すぐには検索対象になりません。

Fedibirdでは新しい投稿から順に登録していきます。すべての登録が完了するには、おそらく20日〜30日程度かかります。

これに先立ち最終的な調整を行うため、何度かサーバの再起動等行いますが、ご承知おきください。

2023-09-15 08:55:10 画眩の投稿 ggagen@pawoo.net
icon

このアカウントは、notestockで公開設定になっていません。

2023-09-15 08:55:15 画眩の投稿 ggagen@pawoo.net
icon

このアカウントは、notestockで公開設定になっていません。

icon

全文検索の機能を強化しました。

これは、Mastodon v4.2に搭載される予定の新機能と、Fedibirdが積み上げてきたものを統合し、さらに強化・拡張したものです。

ついては、説明の中で、Mastodon v4.2と共通するものと、Fedibird独自の部分が混在してきますので、あらかじめご承知おきください。

違いについては都度説明します。

最初に重要な点を挙げます。

あなたの投稿を全文検索の対象とする、つまりみんなに検索してもらえるようにするには、設定変更が必要です。

逆に言うと、設定を変更しなければ、あなたの投稿が検索によって発見されることはありません。

Mastodonの従来の全文検索は、あなたが既に知っている投稿を振り返るためのものでした。

自分自身の投稿は全て対象になる他、お気に入りやブックマーク、ブースト、返信(メンション)など、何らかのリアクションを行った投稿だけが対象になります。

今回、Mastodon v4.2から、自分で設定した(許可した)人の公開投稿に限り、誰かにとって未知の投稿を全文検索の対象となるよう拡張されました。

ついては、自身の公開投稿を全文検索の対象とする(許可する)か検討し、設定してください。

icon

Mastodon v4.2の場合、自分の公開投稿を検索結果にみせる設定は、プロフィールの『Privacy and reach』にある『Include public posts in search results』です。(開発中にて、まだ和訳が反映されていない)

対象は公開投稿なので、未収載、フォロワー限定にした投稿は対象外です。

この設定を有効にして保存すると、自身のフォロワーがいるリモートサーバにも伝わり、Mastodon v4.2以降、もしくはFedibirdにおいて、あなたの公開投稿が検索対象になります。

Fedibirdの場合、基本はFedibird独自の検索範囲設定があり、それと合わせてMastodon v4.2互換の設定項目があります。設定がある画面はプロフィールです。

所属サーバを含む、Fedibirdに対してはFedibirdの設定が有効になります。それ以外のMastodon v4.2互換のサーバには、互換設定の方が有効になります。

Fedibirdの設定では、フォロワーにだけ公開することが可能で、また個々の投稿毎に設定を切り替えられるようになっています。

この機能は、互換設定を行うとリモート側で無視されるのでご注意ください。

Mastodon v4.2以降の、あなたの公開投稿を検索結果に出すための設定
Attach image
Fedibirdの検索範囲設定
Attach image
icon

この他、Fedibird検索に対する互換機能として、プロフィールの説明文に特定文字列(キーワード)を書くという方法があります。

これは、Mastodon v4.2の公開機能ではなく、Fedibirdのフォロワー限定公開を使いたい場合や、Mastodon v4.1以前、Mastodon以外のシステムにおいて、

Fedibirdの利用者に対してのみ、それらの検索公開方法を有効にしたい場合にだけ使います。

Mastodon v4.2以降は標準の設定を行った方が良いですが、この互換機能は残しておきます。

プロフィールに記載するキーワードと意味の対応は次の通りです。


誰でも検索できる


フォロワーが検索できる


リアクションした人だけ検索できる(Mastodonのデフォルト)

icon

強化された全文検索では、様々な指定方法が可能になっています。

また、従来と仕様が変更になった部分があります。

まず、検索語を空白で区切って並べた場合、これまではOR検索になっていました。つまり、検索語のいずれかが一致すれば結果が表示されていました。

Mastodon v4.2以降およびFedibirdでは、これがAND検索になりました。つまり、検索語がすべて一致すれば結果が表示されます。

Fedibirdではさらに、検索語を , でつなぐとOR検索になります。OR検索はMastodon v4.2では対応していないのでご注意ください。

検索語を " " で囲うことで、フレーズ検索ができます。並び通りの検索語で調べたい場合、フレーズ検索が有効です。通常通り書いて結果の候補がうまくいかなかったら、" " で囲ってみてください。

検索語の先頭に - をつけることで、除外指定(NOT検索)が可能です。指定した検索後が含まれない投稿を検索できます。

URLを直接書いた場合、全文検索ではなく、アカウントや投稿の照会になります。

URLを検索する場合はフレーズ検索にするか、Fedibirdのurl検索を使います(後述)

icon

全文検索では、様々なオプション指定をして、検索結果を絞り込んだり、順番を変えることができます。

from:noellabo のように、プレフィックスを from + : という書式で書き、空白などを開けずに値を続けて書きます。

個々に詳細を解説したいのですが、スペースが限られますので、ざっくり列記しておきます。

has, is, not

投稿の種類などを指定して絞り込みます。hasとisの動作は同じです。notはFedibirdでのみ指定できる、指定の否定です。

image, audio, video, media, poll, link, embed, sensitive, reply が指定可能です。

またFedibirdでは、quote, bookmark, archive, bot が追加で指定できます。

language

投稿の言語を絞り込みます。

from

投稿者を絞り込みます。

before, after, during

投稿日時を絞り込みます。

in

all または library を指定し、libraryを指定した場合は従来のMastodonの検索結果同様、自分の投稿とリアクションした投稿だけに絞ります。

icon

なお、inについてはFedibirdのフォロワー限定も指定できます。 private です。

以下は、Fedibirdでのみ使える機能です。

to

投稿の宛先(メンション)として指定したアカウントで絞り込みます

domain

サーバーのドメインを指定して絞り込みます。

app, client, source, generator

クライアントアプリを指定して絞り込みます。先頭一致です。

url

Fedibirdでは、ノイズになりやすいため、本文の検索からURL文字列を除外しています。URLを検索したい場合はこちらを使って指定してください。

min_replies

投稿に対する返信数で絞り込みます。指定数より返信が多い場合にヒットします。先頭に - をつけて意味を反転させることが可能です。

min_boosts

投稿に対するブースト数で絞り込みます。

min_favs

投稿に対するお気に入り数で絞り込みます。

min_reactions

投稿に対する絵文字リアクション数で絞り込みます。

min_refs

投稿に対する参照・引用数で絞り込みます。

icon

おっと、is, has, not の指定で抜けているのがありました。

Fedibirdでは、投稿の公開範囲を public, unlisted, private, limited, direct, personal で指定して絞り込みできます。

また、FedibirdではMisskeyの投稿を検索対象としています。プロフィールへのキーワード指定で挙動を変更できるので、Misskeyの人は必要な場合、指定しておくことをお勧めします。

Fedibirdは指定のほとんどにカンマ区切りで複数の値を指定できるので、それも上手に使ってください。

使いこなし方法はいろいろと編み出せるハズです。組みあわせでかなり面白いことができます。

またおそらく、これらの機能拡張は、多くの人にとって、Fediverseの利用体験が一気に変わるほどのインパクトがあるハズです。

逆に、検索対象にならないように公開範囲を設定したり、基本の設定を考えるなど、ガードする方法もよく考えてください。

デフォルト設定で既に守られていますが、検索公開するメリットも大きいですから、うまく使いこなしてくださいね。

icon

おっと、もう一つ重要なのを忘れていました。

order:desc
order:asc

Fedibird固有の指定ですが、検索結果を最新順、古い順に変更します。デフォルトは最新順です。

期間指定もできるので、これでだいたい任意の投稿をみつけてくることができるのではないかと思います。

icon

いま、fedibird.comはインデックス再作成中なので、あまり古い投稿はでてこないと思いますが、しばらくの辛抱です。

この他、sudachiを使った形態素解析がきっちり仕事してくれるように調整したので、

フレーズ検索( " " で囲うやつ)を使わなくてもほとんどの場合に適切な日本語検索結果を返してくれると思います。

mastodon.socialなど海外サーバでは難しいところなので、検索については国内サーバの強みがでてくるかもしれません。

たまに、同一語として扱ってほしいのに失敗しているものなどに出くわしますがご愛敬、カンマ区切りのOR指定もできるので、使う側で頑張っていただけると……!w

(韓国語と中国語についても別途それぞれの形態素解析器を入れてはあるのですが、これは機能しているのかまったく検証されてません。language指定すると形態素解析器が切り替わります)

icon

サーバで実装する全文検索は、外部サービスと比較して、いくつか大きなメリットがあります。

まず、ミュートやブロックが反映されることです。非常に重要なポイントです。

また、検索結果に対してダイレクトにリアクションできます。

クライアントアプリ等で双方のサービスを統合する方法もありますが、標準でそれが可能になっているのはやはり違います。

そして、検索についての意思表明(検索対象にする意志)や、削除などの対応が即座に反映されます。

icon

@kiq 投稿者が検索結果に出さないように設定していても、ハッシュタグタイムラインには出る投稿というのがあります。

ハッシュタグタイムラインは検索結果ではない、という重要な視点です。

また、ハッシュタグで検索をかけた場合、その語がズバリヒットしますが、通常の検索では誤検知の可能性が高まります。

どちらかというと、特定のハッシュタグを除外指定するときに正確に指定できるメリットの方が大きいかもしれません。

逆に、ハッシュタグにするデメリットがあるかどうかです。おそらく、あまりないと思います。

icon

@annan ほとんどのパワーアップ要素は、検索のところに指定する文字列の変更だけなので、どのアプリから使っても多分大丈夫だよ。

icon

全文検索からのトラブルはもちろん増えるでしょうが、上手に防衛してくださいね。

Mastodonでは未収載やフォロワー限定を投稿に個別指定できるので、公開範囲をうまく使ってください。

公開で投稿したものは誰でも読めるし、あなたはそれを許可しています。

見せる範囲を限定する運用であれば、Fedibirdのフォロワー限定の検索公開にするのもお勧めです。(この運用の場合、Mastodonの公開投稿検索は利用できず他のサーバで検索してもらうことはできません)

読まれたくない相手から身を守る為には、ブロックも活用してください。

ユーザーが行うドメインブロックは、基本的にフォロー関係の拒絶+ミュートの挙動なので、読まれたくない時には効果がイマイチです。

icon

fedibird.comを試してみたい人も出てくるかと思いますので、少し招待URL出しておきますね。

fedibird.com/invite/wJFeRN6g
fedibird.com/invite/35YAJP2v
fedibird.com/invite/h7s4HnRW

それぞれ100名です。

icon

@secseek ……??
ずっとねてるね!!w

icon

Fedibirdの全文検索、バックエンド側の機能がだいたい揃って仕様がほぼ確定したというだけで、まだバグもあるだろうし、なによりフロントエンドの改良は何もしてません。

このぐらい大きな変更で、JavaScriptをまったく含まないコミットは珍しいですw

icon

一つ、この手を離さない
(真っ赤な誓い)

icon

@amty26 外部検索サービスをGoogleなどの従来型全文検索エンジンとすると、

・ユーザー設定 - その他『検索エンジンによるインデックスを拒否する』をチェック

・プロフィール - 外観『あなたの投稿の検索範囲』を『公開』

・プロフィール - 外観『公開投稿の検索をMastodon v4.2互換サーバに許可(互換設定)』をチェック

・ユーザー設定 - その他『デフォルトの投稿設定 - 投稿の公開範囲』を『公開』またはメインで使うもの

ぐらいかな。

icon

@y1slt キーワード購読は完全一致の正規表現検索です。

sudachiは、語の変化とか繋がりを曖昧なまま、比較的大きめの辞書から単語を認識してくれるので、正確な表現でなくてもヒットします。

全く違う仕組みです。

icon

株式会社台風

icon

@y1slt 語の一致方法だけでなく、対象となる投稿も違います。購読は検索許可とは関係なく、公開投稿か、フォローしている人の投稿(自分がみることができる投稿)を対象とします。

icon

これは私が嬉しいだけなのでみんなには関係ないんですが、

tootctl search deployっていう、既存データをElasticsearchに登録する管理コマンドがあるんですが、20日も30日も実行にかかって、途中で死んじゃうと悲しいので、処理状況を表示して、好きなところだけ再実行できるようにしてあります。

今回は最古のデータまで完走させたいのです。

icon

「Blueskyやめるのか、俺以外のヤツと……」

icon

ORがANDに変わるとか、激変

icon

そういや天気悪いのか……

icon

あべるのためにある

icon

@digi__tan でじたんおつかれさまー!

icon

分散と効率の話はこれな
QT: fedibird.com/@noellabo/1105861
[参照]

Web site image
のえる (@noellabo@fedibird.com)
Web site image
投稿の参照(1件) by のえる (@noellabo@fedibird.com)
icon

ちなみに同じActivityPubの仲間であるPeerTubeは、

巨大なバイナリである動画コンテンツの複製は本当に冗長化したい時にしかしない。そういうのは有志のサーバがやる。

再生する際は相手のサーバにデータを取りにいって、必要な時にストリーミング再生する。

再生の負荷軽減はWebTorrentを使って同時視聴者が多くなるほど軽くなるような仕組みにしている。

分散型の効率モデルを考えたいときは、せめてこっちを参照するべし。

icon

もす

2021-01-08 14:36:04 のえるの投稿 noellabo@fedibird.com
icon

*「それはキャタツだよ」

*「どうちがうの?同じようなものじゃない。もっとホンシツを見ようよ、なるほどくん。」

icon

あとね、分散の非効率の大部分は安全対策の経費なんだ。

税関みたいにね、出入りを検査してるし、備蓄して、国内で安全基準を満たすものだけを国民に提供しようとしてる。

安全担保とか安定供給の為に、直接取引に制限をかける、相手に依存しない・そのまま信用しないモデルが非効率の原因だよ。

独立性の担保。

効率の為の分散化じゃないんだよ。