加入收藏 | 设为首页 | 会员中心 | 我要投稿 衡阳站长网 (https://www.0734zz.cn/)- 数据集成、设备管理、备份、数据加密、智能搜索!
当前位置: 首页 > 运营中心 > 建站资源 > 优化 > 正文

10 种流行的 Web 挖掘工具

发布时间:2019-05-11 03:42:34 所属栏目:优化 来源:苏克1900
导读:互联网有数不清的网页,且不断在以指数级速度产生新内容。到 2022 年,整个互联网创建和复制的数据将达到 44 ZB,也就是 44 万亿 GB。这么大体量内容的背后也带来了丰富信息源,唯一的问题是怎么在这浩如烟海的信息中检索到你想要的信息并带来价值。 直接

5. Scrapy(Web 内容挖掘工具)

10 种流行的 Web 挖掘工具

Scrapy是一个很棒的开源 Web 挖掘工具。它可以帮助你从网站中提取数据,可以管理请求,保留用户会话,遵循重定向和处理输出管道。

特征

  • 从 HTML / XML 中选择和提取数据
  • 交互式 Shell 控制台
  • Cookie 和会话处理
  • HTTP 功能,如压缩,身份验证,缓存
  • 请求以异步方式进行调度和处理

6. Bixo(Web 结构挖掘工具)

10 种流行的 Web 挖掘工具

Bixo

Bixo是一个优秀的 Web 挖掘开源工具,在 Hadoop 之上运行一系列级联管道。通过构建定制的级联管道组件,你可以快速制定针对特定用例优化的专用 Web 挖掘应用程序。

特征

获取子装配

解析子组件

缺少数据可视化功能

7. Oracle 数据挖掘(Web Usage Mining Tool)

Oracle Data Mining(ODM)由 Oracle 设计。作为数据挖掘软件,它提供了出色的数据挖掘算法,可以帮助你收集洞察力,制定预测并有效利用 Oracle 数据和投资。

借助 ODM,可以在 Oracle 数据库中找出预测模型,以便你可以轻松预测客户行为,专注于你的特定客户群并发展客户档案。你还可以发现交叉销售方面的机会,并找出欺诈的差异和前景。

使用 SQL 数据挖掘功能,可以挖掘数据表和视图,星型模式数据,包括事务数据,聚合,非结构化数据,即 CLOB 数据类型(使用 Oracle Text 提取令牌)和空间数据。

特征

  • 分类
  • 回归
  • 属性重要性
  • 异常检测
  • 聚类
  • 协会
  • 特征选择和提取
  • 文本挖掘
  • 空间挖掘
  • Active Data Guard
  • 数据库库
  • 在线分析处理

8. Tableau(Web 使用挖掘工具)

Tableau是商业智能行业中使用最快,最快速增长的数据可视化工具之一。它可以使你将原始数据简化为可访问的格式。通过仪表板和工作表可以很方便地进行数据可视化。

Tableau 产品套件包括

  • Tableau 桌面
  • Tableau Public
  • Tableau Online
  • Tableau Server
  • Tableau Reader

特征

Tableau 具有许多使其受欢迎的功能。Tableau 的一些主要功能包括:

  • 数据驱动警报
  • 附加连接器
  • Tableau Bridge
  • 智能联接
  • PDF 连接器
  • 自动查询缓存
  • Android 改进
  • 切换视图并拖放
  • 突出显示并过滤数据
  • 共享仪表板
  • 用于数据查看的 Tableau Reader
  • 仪表板评论
  • 创建“无代码”数据查询
  • 将查询转换为可视化
  • 导入所有范围和大小的数据
  • 创建交互式仪表板
  • 字符串深入了解指导
  • 元数据管理
  • 自动更新

9. WebScraper.io(Web 内容挖掘工具)

Web Scraper Chrome Extension 是用于抓取 Web 数据的最有用的工具之一。借助此工具,你可以制定有关网站导航的站点地图或计划。完成后,web scrape chrome 扩展将遵循给定的导航并提取数据。在网络抓取扩展方面,你可以在 Chrome 中找到许多内容。

特征

  • 树/导航
  • 分页
  • 加载更多按钮
  • 云刮板
  • 一次运行多个刮刀
  • 安排刮刀
  • 下载 CSV 和 CouchDB 中的数据
  • 数据导出到 DropBox

10. Weka(Web 使用挖掘工具):

Weka是用于数据挖掘任务的机器学习算法的集合。它包含用于数据准备,分类,回归,聚类,关联规则挖掘和可视化的工具。

Weka 是根据 GNU 通用公共许可证发布的开源软件。

Weka 主要被设计为分析来自农业领域的数据的工具,但最近完全基于 Java 的版本(Weka 3),其开发于 1997 年,现在用于许多不同的应用领域,特别是用于教育目的和研究。

特征

  • 数据预处理
  • 集群
  • 分类
  • 回归
  • 可视化
  • 功能选择

以上是 10 种 Web 挖掘工具和软件的简单介绍,详细内容可以参考下方原文链接:

http://www.prowebscraper.com/blog/web-mining-tools/

本文转载自微信公众号「高级农民工」,可以通过以下二维码关注。转载本文请联系高级农民工公众号。

(编辑:衡阳站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读