注意做好事先电脑设备准备
注意做好相关的经验累积
第一步,kettle安装,kettle无需安装,直接解压zip文件到指定的文件夹。在类unix操作系统上,需要执行以下脚本
第二步,启动spoon,在windows中执行spoon.bat,在类unix系统中执行spoon.sh;启动时首先出现一个对话框窗口提示选择资源库及输入连接信息,点击取消按钮。输入账号密码。
第三步, 可看到欢迎窗口,点击“工具”菜单下的“选项”,弹出窗口中可以进行一些全局设置,如语言、日志等信息,设置后需重启才能生效。
第四步,环境准备,开始设计一个转换之前,我们先创建一个文件夹Tutorial,我们将保存所有的文件到该文件夹中,然后创建一个csv文件,内容就是前面人员信息,你可以复制到文本文件中,然后命名为list.csv。
第六步,配置javascript代码步骤1)双击javascript代码步骤,弹出配置窗口2)与前面步骤不同,这里可以写javascript代码,输入“hello”,连接到每个名称前面。3)命名该步骤为Greetings.4)在配置窗口的主区域写代码,左边窗口,有一组变量及函数,可以在代码中使用;尤其是最后两个节点,输入字段和输出字段,可以在代码中使用;这个例子中有两个字段last_name和name,写入下面代码:var msg = 'Hello, ' + name.getString() + '!';注:name.getString()可以手动写入,或在左边树双击自动录入。5)在最下面的表格里,可以写代码中创建的任何变量作为输出流中的字段;这里我们创建一个msg变量,因为我们需要把msg内容写到xml输出文件中。
6) 点击确定完成JavaScript代码步骤配置。7) 选择刚才配置的步骤(JavaScript代码),为了检查离开这步骤的输出新的字段,我们将查看输入及输出字段。输入字段就是到达该步骤的数据列;输出字段就是离开步骤的数据列;有些步骤简单传输输入数据,这时,输入数据和输出数据通常相同;有些步骤增加字段到输出流中,如:计算步骤;还有一些步骤过滤或合并数据,这样输出数据中字段减少相对输入数据字段,如:分组步骤。8) 在该步骤上点击右键,弹出上下文菜单。9) 选择显示输入字段,可以看到输入字段,last_name和name,来自csv文件输入步骤。10) 选择显示输出字段,可以不仅有已经存在的字段,而且还增加了msg字段
第七步,配置XML文件输出步骤1) 双击XML输出步骤,弹出配置界面,这里可以设置输出文件的名称和位置,以及输出字段。可以设置全部或部分字段;2) 设置步骤名称:File With Greetings;3) 在文件设置框中录入:${Internal.Transformation.Filename.Directory}/Hello.xml4) 点击获取字段,用三个输入字段填充表格,输出文件中我们只想显示消息,所以删除name和last_name;5) 再次保存该转换设计文件;运行机制 当你执行一个转换,几乎所有步骤是同时执行的,因为转换时异步执行的;行数据流按照设计步骤流转,每个处理流执行到下一个步骤无需等待其他步骤。实际开发时,不了解这个特性,可能出现和设想不一样的结果。 至此,该示例基本配置完毕。该转换读取输入文件,然后通过javas代码步骤给每行添加问候,最后该内容被发送到输出文件中。因为例子中行数很少,很难看出了是异步执行。但是,切记,有可能在消息被写在输出文件的同时,有数据行刚离开第一步。
第八步,验证、预览和执行1) 执行转换之前,检查每个属性配置实用验证按钮,spoon将验证语法是否正确,查找不可到达的步骤及不存在的连接。如何你一直跟着本教程的步骤练习,应该能验证通过,可以准备预览输出结果。2) 选择JavaScript代码步骤,然后点击预览按钮,如下图:3) 如你所见,spoon假设你预览你选择的步骤,点击快速启动,然后,弹出JavaScript代码步骤的数出数据,如何数据和你期望一致,我们准备执行转换。4) 点击运行按钮在工具栏中。5) spoon将弹出一个窗口,这里可以设置一些信息,如执行参数和日志级别等,点击运行。6) 在主窗口的日志窗口中可以看到当前执行的日志信息及每步执行情况。 Read:来自前一步的数据行数; Written:离开这步到下一步骤时的数据行数; Input:从一个文件或表中读取的数据行数; Output:往表或文件中写的数据行数; Errors:执行中的错误信息,如果有错误,整行都是红色;
第九步,日志窗口中,可以看到每步骤执行情况。最后一行是:Spoon - Thetransformation has finished!!如果没有错误,可以打开新生成的Hello.xml文件,检查是否正确。 pan命令 pan是在终端执行转换的工具。在window是pan.bat,其他平台是pan.sh,在安装目录可以找到。如果你直接运行pan,不加任何选项,可以看到pan打印所有的选项。简单命令如下:pan /file
注意掌握一定的代码
注意设备联网状态