うぁぁ、ニュースサイトは見出しリストや広告や邪魔なもの満載だし、一般サイトはマークアップむちゃくちゃだしもうイヤ。
まぁ使う側が理解していれば問題ないのだろうけど人工無脳のエンジンに使うにはちと酷だな。googleの検索結果から拾ったほうがまだマシだ。
とりあえず実装してみる。 URLのみでtitle取得に、「要約:」を付けると1行抜き出しの要約が出ます。(要するにMacOSの要約機能)
それなりのページならば2%7E3行出力したほうが良さ気なんだけどね。世の中どうでもいいページが多すぎる。(w 人工無脳に利用するならそれこそマルコフ連鎖させちゃったほうが面白いんちゃうかなぁこれ。
とぼっち用に、URLから内容要約させるエンジンを書いてみた。 しっかし世の中のhtml文書ってほとんどムチャクチャなのがよくわかりますね。ちゃんと段落を付けてあるものはそれなりに、無いものはすべて平文扱いにして読み込ませてみました。 でもこのままじゃ使えないなぁ......みんな苦労するわけだ。
Bulknewsさんで主要なニュースサイトの見出しがRSSにて提供されてたので利用させて頂きました。「チェック」文字列を検出し、「/.」「日経」「朝日」等によって振り分け表示します。ある程度の汎用性を確保しましたので様々なRSSに対応出来るはず。
ぁぁ、そうだ、goo ラボの日本語自然文検索にも対応したんだった。 コマンドは「質問:文字列」 すげーおバカだけど。
とぼっち覚え書き(続き)01/31 12:33でとぼっちにもキーワード埋め込み型の置換機能が付いたので、ロイディばりの文末文字列利用が可能な気がしたので実装してみる。
キーワードからの過去ログ検索は、話題を追いかけて関連性のあるレスを見つけるのが狙いなのだが、会話として成り立つかどうかはかなり運に左右される。これをロイディばりに会話として成り立つ方向へ持ってゆこうというわけ。
たまたま近い部分で合致すれば置換処理の必要もなしに次の行をそのままレスとして利用出来る。
よい例が出せないけれど、そのままでも会話として成り立ちそうだけど微妙にズレた発言が多くなりがち。しかし「アニメ」等のキーワードを埋め込めばそれなりに読める会話となる。 本当は言語解析して動詞形容詞を活用出来ればこれくらいの事らくに出来るんだろうけどね。 いい加減な日本語がまかり通るchatログを利用するにはこれくらいが丁度いいような気もする。:-P