博客
关于我
ETL工具-KETTLE教程实例实战1----术语和定义
阅读量:410 次
发布时间:2019-03-06

本文共 990 字,大约阅读时间需要 3 分钟。

1-资源库

资源库是用来保存转换任务的,用户通过图形界面创建的的转换任务可以保存在资源库中。

        资源库可以使多用户共享转换任务,转换任务在资源库中是以文件夹形式分组管理的,用户可以自定义文件夹名称。
        资源库有两种形式:
        一、Kettledatabase repository,即保存在各种常见的数据库资源库类型,用户通过用户名/密码来访问资源库中的资源,默认的用户名/密码是admin/admin和guest/guest。
        二、Kettle filerepository,保存在服务器硬盘文件夹内的资源库类型,此类型的资源库无需用户进行登录,直接进行操作。

下图为资源库的创建方式

 

 

2-转换

转换步骤,可以理解为将一个或者多个不同的数据源组装成一条数据流水线。然后最终输出到某一个地方,文件或者数据库等

3-作业

作业,可以调度设计好的转换,也可以执行一些文件处理(比较,删除等),还可以ftp上传,下载文件,发送邮件,执行shell命令等

3.1         转换连接

主要表示数据的流向。从输入,过滤等转换操作,到输出

3.2         作业连接

可设置执行条件: 

1)     无条件执行

2)     当上一个Job执行结果为true时执行

3)     当上一个Job执行结果为false时执行

4  连接线

连接转换步骤或者连接Job(实际上就是执行顺序)的连线

 

5  Chef

它是一个图形用户界面,使用SWT开发,用来设计一个作业,转换,SQL,FTP,邮件,检查表存在,检查文件存在,执行SHELL脚本

6  Kitchen

作业执行引擎,用来进行转换,校验,FTP上传。可以执行xml格式定义的任务以及保存在数据库上的

 

7  Spoon

Spoon是Kettle的另一个图形用户界面,用来设计数据转换过程

8  Pan

Pan是一个数据转换引擎,负责从不同的数据源读写和转换数据。

pan.sh -file="/PRD/Customer Dimension.ktr" -level=Minimal

 

注意:因某些限制,最新源代码和后续通用配置实现数据抽取 已放置在笔者公众号上,请关注微信公众号: 【JAVA大师】, 回复关键字:【KETTLE】,获取kettle安装程序和运行实例(表结构和kjb、ktr文件)

同时笔者原创了一套视频教程:现免费发放100套,先到先得。获得方法:扫描下方二维码,关注获得

往期文章:

转载地址:http://kozuz.baihongyu.com/

你可能感兴趣的文章
蹒跚来迟:新版博客后台上线公测
查看>>
[网站公告]11月26日00:00-04:00阿里云RDS升级
查看>>
[网站公告]又拍云API故障造成图片无法上传(已恢复)
查看>>
云计算之路-阿里云上:“黑色30秒”走了,“黑色1秒”来了,真相也许大白了
查看>>
上周热点回顾(6.9-6.15)
查看>>
上周热点回顾(10.20-10.26)
查看>>
上周热点回顾(2.16-2.22)
查看>>
上周热点回顾(3.2-3.8)
查看>>
.NET跨平台之旅:借助ASP.NET 5 Beta5的新特性显示CLR与操作系统信息
查看>>
上周热点回顾(7.27-8.2)
查看>>
上周热点回顾(5.9-5.15)
查看>>
上周热点回顾(1.16-1.22)
查看>>
上周热点回顾(1.23-1.29)
查看>>
上周热点回顾(3.20-3.26)
查看>>
云计算之路-阿里云上:14:20-14:55博客后台2台服务器都CPU 100%引发的故障
查看>>
上周热点回顾(6.19-6.25)
查看>>
云计算之路-阿里云上:docker swarm 集群故障与异常
查看>>
上周热点回顾(2.19-2.25)
查看>>
云计算之路-阿里云上:博客web服务器轮番CPU 100%
查看>>
云计算之路-阿里云上:服务器CPU 100%问题是memcached连接数限制引起的
查看>>