数据源使用手册

分类: APPBET365 时间: 2025-07-16 14:08:53 作者: admin 阅读: 2148

元数据管理#

元数据管理通过 Kafka,编辑数据源的入口进入。元数据目前在 Wasp 数据工厂中使用,支持将 CSV 和 JSON 类型的数据转换为数据库表中的数据。元数据的定义即这些数据的库表结构。

元数据管理列表展示了元数据的基础信息,包括元数据名称,类型,备注,创建时间和操作。在左上角可以新建元数据,在每个元数据的操作里可以对该元数据进行删除操作。

点击新建元数据,可以创建不同类型的元数据

元数据名称,最好是填写表的全限定表名,在创建 wasp 任务时更方便使用。

备注(选填)

选择元数据的类型,目前支持 CSV 和 JSON / JSON_CDC。

点击新建列可以创建元数据的列信息,目前元数据列类型支持7种数据类型,分别是 text,integer,double precision,bigint,numeric,date,timestamp。

CSV类型元数据#

CSV 类型元数据有分类标签和分类值,分类标签是复选选项,用来描述数据是否属于该元数据。

举例说明:

创建的元数据列分别为c1、c2、c3

有两条csv数据:

数据1: [a|b|c]

数据2: [a|b|d]

如果不设置分类标签,这两条数据都属于该元数据。如果设置 c3 为分类标签,且分类值为 ‘c’,那么只有数据1属于该元数据,数据2并不属于该元数据。

JSON类型元数据#

JSON元数据中的分类标签表示解析JSON数据时,该字段一定会在JSON数据中出现,若解析出的数据获取不到该字段值,则会判定此条数据不属于当前元数据。

JSON 类型的元数据特有的属性是 JsonPath,每个列都需要配置,是用来描述数据如何从 JSON 格式中取出。

举例说明:

{

"data": {

"a": {

"a1": "hello"

},

"b": "world"

},

"code": 1000,

"array": [

{

"value": "foo"

},

{

"value": "bar"

}

]

}

如果同步 a1 的数据 "hello",JsonPath: "/data/a/a1"

如果同步 b 的数据 "world",JsonPath: "/data/b"

如果同步 code 的数据 1000,JsonPath: "/code"

如果同步数组 array 的索引为 0 的对象中 value 字段的数据 "foo",JsonPath: "/array/0/value"

如果同步数组 array 内所有数据,并拆成多条数据,JsonPath: "/array/[*]/value"

JSON_CDC 类型的元数据更适用于 WASP-KafkaCDC 任务,CDC数据中存在 update_before 和 update_after 格式,

元数据列信息配置方式和 JSON 的 jsonPath 不一样,具体可见 WASP-KafkaCDC 章节。

同时和JSON的‘分类标签’不同的是,JSON_CDC 元数据可以配置‘通用字段’,通用字段是用于抽取 CDC 数据中,非 before 和 after 中的数据。

而被标记为‘通用字段’的 jsonPath 需要配置全路径。

批量创建元数据列#

可以通过文本框编辑每一行的元数据列信息,来实现元数据的快速创建。

导入JSON#

可以通过文本框中输入 json 数据搭配 jsonPath 快速生成元数据

通过配置的 jsonPath 会解析对应 path 下的所有字段并自动推断数据类型(如果解析根节点下的字段,则 JSON Path 输入 ‘/’ ),

如果字段是特殊的 json 类型如 Object / Array 等,会用 text 元数据类型处理。

保留JSON Path 则会控制 path 是否保留全路径。对上图数据的使用用例如下:

JSON path 输入: /after,选择保留 JSON Path 后生成元数据如下

JSON path 输入: /after,不选择保留 JSON Path 后生成元数据如下

相关文章

淘宝买一送一活动怎么设置?方法步骤分享

APPBET365 · 07-15 阅读 8538

国内如何安装和配置Shadowrocket

APPBET365 · 06-28 阅读 8990

游戏键盘怎么用啊 快速上手游戏键盘操作技巧

365app安卓客户端下载 · 07-11 阅读 7658