Skip to content

Commit

Permalink
Merge branch '1.8_dev' into 1.8.1
Browse files Browse the repository at this point in the history
  • Loading branch information
kanata163 committed Nov 4, 2019
2 parents 77e61d5 + a7beb5f commit 6fbf879
Show file tree
Hide file tree
Showing 90 changed files with 4,457 additions and 617 deletions.
3 changes: 3 additions & 0 deletions README.md
Original file line number Diff line number Diff line change
Expand Up @@ -233,6 +233,8 @@ reader和writer包括name和parameter,分别表示插件名称和插件参数
* [Carbondata读取插件](docs/carbondatareader.md)
* [MySQL binlog读取插件](docs/binlog.md)
* [KafKa读取插件](docs/kafkareader.md)
* [Kudu读取插件](docs/kudureader.md)


### 5.2 写入插件

Expand All @@ -248,6 +250,7 @@ reader和writer包括name和parameter,分别表示插件名称和插件参数
* [Carbondata写入插件](docs/carbondatawriter.md)
* [Kafka写入插件](docs/kafkawriter.md)
* [Hive写入插件](docs/hivewriter.md)
* [Kudu写入插件](docs/kuduwriter.md)

[断点续传和实时采集功能介绍](docs/restore.md)

Expand Down
183 changes: 183 additions & 0 deletions docs/kudureader.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,183 @@
# Kudu读取插件(kudureader)

## 1. 配置样例

```
{
"job": {
"content": [
{
"reader": {
"name": "kudureader",
"parameter": {
"column": [
{
"name": "id",
"type": "long"
}
],
"masterAddresses": "kudu1:7051,kudu2:7051,kudu3:7051",
"table": "kudu",
"readMode": "read_latest",
"authentication": "",
"principal": "",
"keytabFile": "",
"workerCount": 2,
"bossCount": 1,
"operationTimeout": 30000,
"adminOperationTimeout": 30000,
"queryTimeout": 30000,
"where": " id >= 1 ",
"batchSizeBytes": 1048576
}
},
"writer": {}
}
],
"setting": {}
}
}
```

## 2. 参数说明

* **name**

* 描述:插件名,此处填写插件名称,kudureader。

* 必选:是

* 默认值:无

* **column**

* 描述:需要生成的字段。

* 属性说明:

* name:字段名称;

* type:字段类型;

* 必选:是

* 默认值:无

* **masterAddresses**

* 描述: master节点地址:端口,多个以,隔开。

* 必选:是

* 默认值:无

* **table**

* 描述: kudu表名。

* 必选:是

* 默认值:无

* **readMode**

* 描述: kudu读取模式:

* 1、read_latest
默认的读取模式。
该模式下,服务器将始终在收到请求时返回已提交的写操作。
这种类型的读取不会返回快照时间戳,并且不可重复。
用ACID术语表示,它对应于隔离模式:“读已提交”。

* 2、read_at_snapshot
该模式下,服务器将尝试在提供的时间戳上执行读取。
如果未提供时间戳,则服务器将当前时间作为快照时间戳。
在这种模式下,读取是可重复的,即将来所有在相同时间戳记下的读取将产生相同的数据。
执行此操作的代价是等待时间戳小于快照的时间戳的正在进行的正在进行的事务,因此可能会导致延迟损失。用ACID术语,这本身就相当于隔离模式“可重复读取”。
如果对已扫描tablet的所有写入均在外部保持一致,则这对应于隔离模式“严格可序列化”。
注意:当前存在“空洞”,在罕见的边缘条件下会发生,通过这种空洞有时即使在采取措施使写入如此时,它们在外部也不一致。
在这些情况下,隔离可能会退化为“读取已提交”模式。

* 必选:是

* 默认值:无

* **authentication**

* 描述: 认证方式,如:Kerberos

* 必选:否

* 默认值:无

* **principal**

* 描述: 用户名。

* 必选:否

* 默认值:无

* **keytabFile**

* 描述: keytab文件路径。

* 必选:否

* 默认值:无

* **workerCount**

* 描述: worker线程数。

* 必选:否

* 默认值:默认为cpu*2

* **bossCount**

* 描述: boss线程数。

* 必选:否

* 默认值:1

* **operationTimeout**

* 描述: 普通操作超时时间。

* 必选:否

* 默认值:30000

* **adminOperationTimeout**

* 描述: 管理员操作(建表,删表)超时时间。

* 必选:否

* 默认值:30000

* **queryTimeout**

* 描述: 连接scan token的超时时间。

* 必选:否

* 默认值:与operationTimeout一致

* **where**

* 描述: 过滤条件字符串,多个以and连接。

* 必选:否

* 默认值:无

* **batchSizeBytes**

* 描述: kudu scan一次性最大读取字节数。

* 必选:否

* 默认值:1048576
187 changes: 187 additions & 0 deletions docs/kuduwriter.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,187 @@
# Kudu写入插件(kuduwriter)

## 1. 配置样例

```
{
"job": {
"content": [
{
"writer": {
"parameter": {
"column": [
{
"name": "id",
"type": "long"
}
],
"masterAddresses": "kudu1:7051,kudu2:7051,kudu3:7051",
"table": "kudu",
"writeMode": "insert",
"flushMode": "manual_flush",
"batchInterval": 10000,
"authentication": "",
"principal": "",
"keytabFile": "",
"workerCount": 2,
"bossCount": 1,
"operationTimeout": 30000,
"adminOperationTimeout": 30000,
"queryTimeout": 30000,
"batchSizeBytes": 1048576
},
"reader": {}
}
],
"setting": {}
}
}
```

## 2. 参数说明

* **name**

* 描述:插件名,此处填写插件名称,kuduwriter。

* 必选:是

* 默认值:无

* **column**

* 描述:需要生成的字段。

* 属性说明:

* name:字段名称;

* type:字段类型;

* 必选:是

* 默认值:无

* **masterAddresses**

* 描述: master节点地址:端口,多个以,隔开。

* 必选:是

* 默认值:无

* **table**

* 描述: kudu表名。

* 必选:是

* 默认值:无

* **writeMode**

* 描述: kudu数据写入模式:

* 1、insert

* 2、update

* 3、upsert

* 必选:是

* 默认值:无

* **flushMode**

* 描述: kudu session刷新模式:

* 1、auto_flush_sync

* 2、auto_flush_background

* 3、manual_flush

* 必选:否

* 默认值:auto_flush_sync

* **batchInterval**

* 描述: 单次批量写入数据条数

* 必选:否

* 默认值:1

* **authentication**

* 描述: 认证方式,如:Kerberos

* 必选:否

* 默认值:无

* **principal**

* 描述: 用户名。

* 必选:否

* 默认值:无

* **keytabFile**

* 描述: keytab文件路径。

* 必选:否

* 默认值:无

* **workerCount**

* 描述: worker线程数。

* 必选:否

* 默认值:默认为cpu*2

* **bossCount**

* 描述: boss线程数。

* 必选:否

* 默认值:1

* **operationTimeout**

* 描述: 普通操作超时时间。

* 必选:否

* 默认值:30000

* **adminOperationTimeout**

* 描述: 管理员操作(建表,删表)超时时间。

* 必选:否

* 默认值:30000

* **queryTimeout**

* 描述: 连接scan token的超时时间。

* 必选:否

* 默认值:与operationTimeout一致

* **batchSizeBytes**

* 描述: kudu scan一次性最大读取字节数。

* 必选:否

* 默认值:1048576
Loading

0 comments on commit 6fbf879

Please sign in to comment.