ubicast Crawler(ユビキャストクローラー)の特徴
- HTMLだけでなく、Flash等にも対応したスクレイピング(Scraping)
- 通常のクローラーではスクレイピング対象はHTMLだけですが、弊社クローラーではFlash内のリンクなども辿ります。
PDFや動画などサイズの大きなファイルも取得することが可能です。 また、Flash内の画像取得等も可能です。
- 構文の間違ったHTMLやJavascriptへの対応
- クロール対象を中小企業や個人サイトに広げると正規表現に則らないページが散見されます。
過去の経験に基づき、これら構文エラーサイトにも対応いたします。
- 差分情報の管理
- テキストだけでなく、画像や動画に至るまでクロールにより取得した情報は既得情報と比較し差分を保持します。
- 構文解析・形素解析
- クロール対象サイトの分野に応じた日本語・英語の文章から必要な情報を解析・分類いたします。
- 検索
- クロールエンジンが取得したデータを利用目的に合わせた方法で検索することが可能です。
- ブラウザーの自動運転
- ボット(アプリケーション)がクロールするだけでなく、ブラウザを自動運転させることも可能です。
- データ投入
- 弊社Webクローラーは情報を取得するだけでなく、自動入力も行えます。ログインが必要がサイトでは自動ログインを行います。
社内システムとAPIがない外部のサービスなどの連携を取ることができます。 (自動ログインを防止する機能があるサイトについてはご相談ください)
- キャッシュによるページ再現
- Webクローラーで取得したサイトのページ内のリンクを書換え、再現することができます。時系列に管理をし特定時点のサイトを再現することができます。
|