4.SgmlReader (Webスクレイピングライブラリ)

Webスクレイピングライブラリ(SgmlReader)について説明していきます。

アグリモの製品では、日報データ自動取得システムDT、検索データ自動取得システムDTで、Webに表示された内容をCSVデータへ変換する過程で使用しています。

用途としては、C#のWebBrowserコントロールで取得されたHTMLをXMLにパースするために用います。何故そのようなことが必要かというと、HTMLは記述ミスが結構あるので、そのままXMLとして用いることが出来ません。(タグがちゃんと閉じていなかったりするので。。)そのために SgmlReaderのようなライブラリを用いて正確なXMLデータに変換することが重要になってきます。

XMLデータに変換した後は、LINQ to XML を用いて構文解析を行い、必要なデータを抽出します。

 

1.新規にソリューションを作成します。

2.パッケージマネージャーコンソールで、「Install-Package SgmlReader」と入力してEnterキーを押下します。

3.プロジェクトの参照にDLLが追加されます。

 

サンプルソース