鈴木雅之 - 違う、そうじゃない / THE FIRST TAKE https://youtu.be/PmEpx-Ywr2w
まあうちの父上はスマホに変えてから人生滑り込みでスマホで動画見る暇潰しの方法を覚えたので、自分もおじいちゃんになった頃どうなるかはわからない
スマホのリモートデスクトップアプリでデスクトップ画面を表示させずにタッチパッド+タッチキーボードとして使うみたいなやつないんじゃろか
オライリー正規表現、闇が深すぎて読みきれないのでお使いの言語にくっついてる章を読むくらいがいいと思います
正規表現慣れると便利だし、お手元にある長文のテキストファイルをサクラエディタかなんかで開いて正規表現検索をしてみるとよいです
みけくん氏が貼ったCSSセレクタをよく読んでいくと正規表現でやってるのとまったく同じ話が出てくるじゃんって気付くはずです
現代のサイトでスクレイピングする時は結構な割合でパーサー使わないとダメだと思うので、最終的にはCSSセレクタに戻ってくると思います
開始タグと終了タグを把握してないとできない処理をする時なんかは入れ子の問題で正規表現使うとクソめんどくさくなるので、パーサーの出番ですね
そのクッソ簡単な最小限構造htmlでもパーサー使うとクソほど時間かかっちゃうので、抽出範囲が少ない限りにおいては正規表現使ったほうが手っ取り早いんですね
htmlみたいな構造化フォーマットから特定要素の抽出するの、大まかには正規表現使うかフォーマット対応パーサー使うかの2択になる
落としてきたhtmlを目で見て、全行舐めて正規表現だけでいけんじゃーんってなったらもう正規表現で済ませちゃう(構造解析用のパーサー使うと基本遅いので
古代の論文公開ページはクッソ単純な構造というかただテキストとリンク羅列してただけだったので力技でなんとでもなるんですが、現代はね……