スクレイピング Web Scraping
スクレイピングとは、ウェブサイト上にあるテキストや画像、リンクのURLなどの情報をEXCELなどに抽出して自動記述したりするコンピュータソフトウェア技術のことを指します。
ボット(bot)やクローラなど、自動的に動かせるものを指すのが一般的です。
プログラミングで設定したロボットが、Webサイトを訪れてデータを取得してEXCELやCSVに書き込んだり、データベースに保存したりします。
クローリングは訪れたWebサイト内の全ての情報を抽出するのに対し、スクレイピングは設定をした情報を元に、Webサイトから特定の情報を抽出します。
スクレイピングのメリット
生産性向上・業務効率化
Webサイト上からデータを集める際に、ブックマークやURLを入力して訪問し、必要な情報をコピーしてEXCELやCSVにペーストを行う。
この一連の作業だけで時間を要します。
これらを自動化することで、人間は別の作業を行い、情報の収集はロボットが行うことが可能になり、業務の効率化、生産性の向上を図ることができます。
最新の情報を入手しやすい
Webサイト上の情報は、特にニュースサイトやショッピング系のサイトだと頻繁に更新されてしまいます。
新しい情報を入手するためには、そのたびにWebサイトに訪れなければなりません。
しかし、スクレイピングによって定期的にWebサイトに訪問をして、最新の情報を入手することが容易になります。
スクレイピングのデメリット
法律に抵触する可能性がある
テキストや画像を収集するだけであれば、特に法律に抵触はしませんが、入手したデータを無許可使ってしまうと、著作権違反となってしまう場合があります。
フリー素材でも、商用利用不可などの条件が付いているものもあります。
Webページへの負荷
スクレイピングの技術を使用すると、大量のデータを収取することも可能となります。
そのため、Webサーバーへの負荷を高めてしまう要因となってしまうことがあります。
ひとつのWebサイトで多くの情報を入手する際は、それだけ負荷が高まり、最悪の場合アクセス禁止などの措置を取られてしまう可能性もあります。