【Problems】Cloudera Manager错误集锦

本博客文章如无特别说明，均为原创！转载请注明出处：Big data enthusiast( http://www.lubinsu.com/ )

本文链接地址: 【Problems】Cloudera Manager错误集锦 ( http://www.lubinsu.com/cloudera-manager-errors/ )

问题描述：

文件系统检查点已有 1 天，14 小时，36 分钟。占配置检查点期限 1 小时的 3,860.33%。临界阈值：400.00%。自上个文件系统检查点以来已发生 14,632 个事务。

解决方法：

2个可能
1、namenode的Cluster ID 与 secondnamenode的Cluster ID 不一致，对比/dfs/nn/current/VERSION 和/dfs/snn/current/VERSION中的Cluster ID 来确认，如果不一致改成一致后重启应该可以解决。

2、修改之后还出现这个状况，查看secondnamenode 日志，报

ERROR： Exception in doCheckpoint java.io.IOException: Inconsistent checkpoint field

这个错误，直接删除 /dfs/snn/current/下所有文件，重启snn节点

问题描述：

已成功启用 High Availability

完成本向导后必须手动执行下列步骤：

对于每个 Hive 服务Hive，停止 Hive 服务，将 Hive Metastore 数据库备份到永久性存储中，运行服务命令”更新 Hive Metastore NameNodes”，然后重启 Hive 服务。

问题描述：

namenode standby的目录文件被我不小心删除了，无法进行格式化，也无法重启。

解决方法：

将活动的namenode数据目录下的所有文件拷贝一份过来重启即可。

问题描述：

Kettle中无法连接内网的Hadoop集群

解决方法：

这个问题还是因为我们集群的独立网段连接问题，首先需要在插件目录下，将hadoop集群的相关配置文件拷贝过来，否则后续会出现各种无法连接或者数据节点无法写入数据文件的问题：$KETTLE_HOME/plugins/pentaho-big-data-plugin/hadoop-configurations/cdh54

问题描述：

大数据平台服务器均为万兆双口网卡+千兆双口网卡，万兆网卡连接独立的光交换机以进行数据交换。千兆网卡连接外部其他的运营网段，以对外提供数据服务接口或者抽取数据。而目前大数据集群独立网段内连接可以正常进行数据交换和连接，但是在其他运营网段服务器中访问集群出现无法访问的问题。

解决方法：

修改文件：hdfs-site.xml，添加RPC配置：

<name>dfs.namenode.rpc-bind-host</name>

TheactualaddresstheRPCserverwillbindto.Ifthisoptionaladdressis

set,itoverridesonlythehostnameportionofdfs.namenode.rpc-address.

ItcanalsobespecifiedpernamenodeornameserviceforHA/Federation.

Thisisusefulformakingthenamenodelistenonallinterfacesby

settingitto0.0.0.0.

</description>

</property>

<name>dfs.namenode.servicerpc-bind-host</name>

TheactualaddresstheserviceRPCserverwillbindto.Ifthisoptionaladdressis

set,itoverridesonlythehostnameportionofdfs.namenode.servicerpc-address.

ItcanalsobespecifiedpernamenodeornameserviceforHA/Federation.

Thisisusefulformakingthenamenodelistenonallinterfacesby

settingitto0.0.0.0.

</description>

</property>

<name>dfs.namenode.http-bind-host</name>

TheactualadresstheHTTPserverwillbindto.Ifthisoptionaladdress

isset,itoverridesonlythehostnameportionofdfs.namenode.http-address.

ItcanalsobespecifiedpernamenodeornameserviceforHA/Federation.

ThisisusefulformakingthenamenodeHTTPserverlistenonall

interfacesbysettingitto0.0.0.0.

</description>

</property>

<name>dfs.namenode.https-bind-host</name>

TheactualadresstheHTTPSserverwillbindto.Ifthisoptionaladdress

isset,itoverridesonlythehostnameportionofdfs.namenode.https-address.

ItcanalsobespecifiedpernamenodeornameserviceforHA/Federation.

ThisisusefulformakingthenamenodeHTTPSserverlistenonall

interfacesbysettingitto0.0.0.0.

</description>

</property>

<name>dfs.client.use.datanode.hostname</name>

<description>Whetherclientsshouldusedatanodehostnameswhen

connectingtodatanodes.

</description>

</property>

<name>dfs.datanode.use.datanode.hostname</name>

<description>Whetherdatanodesshouldusedatanodehostnameswhen

connectingtootherdatanodesfordatatransfer.

</description>

</property>

参考连接： http://hadoop.apache.org/docs/r2.6.4/hadoop-project-dist/hadoop-hdfs/HdfsMultihoming.html

添加以上配置之后已经可以正常和namenode进行交互，但是写入数据时却无法和datanode交互，按理说只要配置了dfs.client.use.datanode.hostname=true就可以实现和datanode之间通信，查看错误，内部对应的IP实际上是正确

的。在Cloudera Manager中我们发现很多地方默认配置的都是主机名+端口号，比如：dfs.datanode.address默认设置为：0.0.0.0:50010，但是CDH中修改为了 host:50010 导致数据节点之无法监听到另外一个网卡IP过来的数据。

这里只要将值修改为：0.0.0.0:50010即可。

问题描述：

重启某个角色的时候，突然无法启动了，报错:

Command aborted because of exception: Command timed-out after 150 seconds.

解决方法：

1.再重启一次居然好了

2.另外一次是datanode无法启动，将yarn的nodemanager重启后，再重启hdfs datanode，发现可以了。

3.终极大法，重启agent

service cloudera-scm-agent next_stop_hard

service cloudera-scm-agent restart

Cloudera Manager Agent uses a python library called supervisord to manage

the processes it launches on each host. When you do hard_restart, it

restarts CM agent, supervisord and all processes that supervisord launched.

Likely you had something in bad state and hard_restart fixed it.

问题描述：

【Problems】Cloudera Manager错误集锦

Trending Articles

《沈冰自述——我和周永康的故事》全本

Moog - Subsequent 25

出售: 林憶蓮•回來愛的身邊 (東芝1A1頭版)

筆記 - 使用 PowerShell 清除停用 AD 帳號與 OU

df-dferh-01 中国区 Android 安装 Google Play Store 后报错的解决办法

「一棒接一棒、棒棒強棒」108學年度家長會長交接典禮

吸烟与MBTI类型判断捷径 (豆瓣 INFJ的奇幻之旅小组)

acermark龍璿國際展出多款包裝設備

枋寮北勢寮隆山宮睽違12年再辦迎王祭典

日本女优有村千佳COS集锦：狂三&黑白岩&亚丝娜&绫波丽

有遇到过这个问题么。/jsb-videoplayer.js not found, possible missing file.

MAS v2.8 magicgenius 汉化版 - 11.11更新

出售: Monster Cable Interlink Reference 2

福建佛教人士望云和尚(林斌)的九仙禅寺被强行收走，望云妈妈被赶出寺庙

R 语言中的OpenBLAS*和英特尔® 数学核心函数库的性能比较

[转载]煞貢、直星、人專吉日\金神七煞歌

HAKERS哈克士戶外 12月8~14日廠拍

OBS Studio 23.2.1 免安裝中文版 - 免費網路實況廣播軟體實況主必備軟體取代Fraps

<請教>行駛中安卓機會重新開機

Udp2raw-tunnel 及其一键安装脚本