テキストだけHTMLから抽出する方法を考えてみた【ソースコード・ダウンロード可】

2017-03-13

テキストだけHTMLから抽出する方法を考えてみた【ソースコード・ダウンロード可】

現在の開発でウェブ上のHTMLページから重要なテキストだけを取得する必要がでてきたのでどのようなアプローチがいいのかを考えてみました。

いろいろなアプローチを試しては失敗をしたのですが、最終的にある程度の精度を出せる方法に行きついたのでここで紹介したいと思います。

【抽出アルゴリズム】

実際にはアルゴリズムというほど複雑な方法ではありませんが、結局は「人間の目で見てテキストが密集している部分をグループ化する」というアプローチが功を奏しました。

流れとしては以下になります。

もしテキスト間のHTMLタグが５つ以下なら（つまり近くにあるなら）そのテキストは全てひとつのテキストとして結合させる。
結合したテキストをひとつひとつチェックし、テキストの長さが１００以上あれば、それはコンテンツとして残す。

文章ではわかりにくいと思いますので、HTML タグの例を見てみましょう。

（HTML例）

<div>
    <div>テキスト１</div>
    <div>テキスト２</div>
    <div>テキスト３</div>
</div>

<img src="***">
<img src="***">
<img src="***">

<div>
   <div>テキスト４</div>
</div>

テキストが近いければ結合する

まず、「テキスト１」と「テキスト２」の間には HTML が２つ（</div>と<div>）だけです。
つまり HTML 構造的にいうと距離は「２ステップ」の位置にあるため近いテキストということになります。
なので、この２つのテキストは結合します。

では、「テキスト３」と「テキスト４」はどうでしょう？
間にあるのは、
</div></div><img><img><img><div><div>
なので７ステップです。

デフォルトの基準は５ステップ以下なら結合することになっているのでこれは「遠いテキスト」ということで結合はしません。

これを全てのテキストで実行すると、ほぼ「見た目で近いテキストが集まったグループ」が作成できることになります。

テキストが長ければコンテンツとして抽出する

グループ別のテキストが作成できたので次にこのテキストがある程度以上長ければ残し、短ければ重要度が低いと判断し削除します。

このフィルターを通過したテキストがコンテンツ・テキストということになります。

ただし

この方法でもパーフェクトではありません。
また、紹介した方法をする前に <br> タグなどを一時的に退避させるなど HTML の加工が必要になりますのでご注意ください。

ソースコードのダウンロード

ということで、このコンテンツ抽出アルゴリズム（細々とした HTML の加工を含んでいます）を PHP クラス「Shellless」として公開しました。
Github でダウンロードか composer でインストールできるかと思いますのでもし興味がありましたらぜひアクセスしてみてください。

https://github.com/SUKOHI/Shellless

今回は以上です。（＾ｏ＾）

0 件のコメント:

コメントを投稿

開発のご依頼

ブログ移転しました！
Console dot Log

たった３分でバグ報告完了！？

開発のご相談はいつでもお気軽に！

【プロフィール】

１．開発スキルプログラム開発は10年以上。
Android アプリや Python を使った機械学習プログラムもご提供しています。

現在は主に「Laravel」「vue.js」「bootstrap」を利用した開発をお受けしています。（Githubで独自パッケージを多数公開中！）

２．趣味
ピアノ

３．海外経験
過去２度カナダのバンクーバーに滞在していました。（このあたりです→地図）

・クライアント様へ
時期によりましては多忙のためお待ちいただく可能性がございますが、いつでもご相談は受けさせていただいております。
ぜひお気軽にご連絡ください。