Quantcast
Channel: CodeSection,代码区,数据库(综合) - CodeSec
Viewing all articles
Browse latest Browse all 6262

Hadoop周刊―第 175 期

$
0
0

Hadoop 周刊 第 175 期

启明星辰平台和大数据总体组编译

2016 年 6 月 19 日

Hadoop 峰会已过去一周了,我们已看到有多个产品(项目)敲定了发布时间。所以在技术新闻部分,有关于 Hadoop Kerberos 认证的内容另外还有 Salsify 应用 Avro 的文章。在产品发布部分,包括 Yandex 新近开源的列式数据库在内的多个项目均有新版本发布。

技术新闻

OpenCore 博客撰文示范了多种 Hadoop Kerberos 认证协议调试工具。尤其示范了如何使用 UserGropuInformation 的 “main()” 方法导出一些有用的调试信息。

http://www.opencore.com/blog/2016/5/user-name-handling-in-hadoop/

YARN 系列文章的第四部分, Cloduera 博客介绍了如何配置公平调度队列。尤其对资源约束设置、队列安置策略和抢占进行了详解。

http://blog.cloudera.com/blog/2016/06/untangling-apache-hadoop-yarn-part-4-fair-scheduler-queue-basics/

Salsify 基于 Apache Kafka 构建了一个异步微服务架构,并采用 Apache Avro 进行数据序列化。该应用使用 Ruby 开发,他们创建了多个新工具使得 Avro 能和 Ruby 语言很好的配合。本文介绍了这些工具和它们的价值: avro-builder 用于定义记录、基于 postgres 的模式注册表, avromatic 则从 avro schema 生成模型。

http://blog.salsify.com/engineering/adventures-in-avro

Apache Drill 可以动态推断模式,还支持多模式 ( 但相互兼容 ) 数据。这种组合使得一些有趣的用例得以实现,例如跨多个不同模式的 json 文件查询。 MapR 博客探究了这些特性并进行了示范。

https://www.mapr.com/blog/sql-query-mixed-schema-data-using-apache-drill

本教程展示了如何将 Druid 与 Apache Kafka 结合构建流式分析和可视化(借助 Pivot , Druid 的 web UI )应用。

http://www.confluent.io/blog/building-a-streaming-analytics-stack-with-apache-kafka-and-druid

Apache Beam (孵化中)博客撰文介绍了他们在连接 Apache Flink 批处理集群方面的成果。 Beam 是一个开源 SDK ,最初来自于 Google ,用于暴露后端未知数据管道 API 。

http://beam.incubator.apache.org/blog/2016/06/13/flink-batch-runner-milestone.html

Cask Hydrator 是一个通过 UI 界面采用拖拽方式构建数据管道的工具。本教程也演示了如何使用 Hydrator 把数据从 mysql 导入到 HDFS 。

http://blog.cask.co/2016/06/bringing-relational-data-into-data-lakes/

Databricks 撰文介绍了即将发布的 Apache Spark 2.0 中新的 SQL 子查询功能。有趣的是,本文以手册形式呈现,最直截了当的展现了代码和范例数据。

https://databricks.com/blog/2016/06/17/sql-subqueries-in-apache-spark-2-0.html

Apache Kudu (孵化中)博客撰写了在单集群节点使用 Raft 的文章,借此动态扩展到多主节点集群。

http://getkudu.io/2016/06/17/raft-consensus-single-node.html

其他新闻

本文指出 Apache Spark 社区如果不用心经营,可能会重走因碎片化导致 Apache Hadoop 生态系统混乱的老路。举例来说,最新版本的 CDH 和 HDP 支持不同版本的 Spark 。

https://techcrunch.com/2016/06/12/spark-fragmentation-undermines-community/

New Stack 撰写了一篇关于 Concord 的文章, Concord 是一个构建在 Apache Mesos 上新的流式处理框架(公开测试状态)。 Concord 使用 C++ 开发,支持动态拓扑(无需停机实现管道的增加和减少)。

http://thenewstack.io/concord-leverages-mesos-high-performance-stream-processing/

随着 Databricks 社区版的正式发布, Databricks 发布了使用 Databricks 编写 Apache Spark 应用程序系列教程的第一篇。

https://databricks.com/blog/2016/06/15/an-introduction-to-writing-apache-spark-applications-on-databricks.html

Hadoop 圣何塞峰会于几周前召开,期间举行了题为 “ 大数据行业中的女性 ” 专场午宴。 Hortonworks 博客特意采访了午宴主持人 Hortonworks CMO : Ingrid Burton 。

http://hortonworks.com/blog/summer-hortonworks-part-2-wibd-assertive-innovative-take-risks/

产品发布

Apache SystemML (孵化中)最近发布了 0.10.0 版。 SystemML 是一个机器学习框架,由多个项目在背后支撑,包括 Apache Spark 和 Apache Hadoop 。本次发布包括新的 Spark Matrix Block 类型、支持深度学习、性能上的提升、新的 KNN 算法等等。

http://systemml.apache.org/0.10.0-incubating/release_notes.html

Apache Mahout ,另一个机器学习框架发布了 0.12.2 版。本次发布向着集成 Apache Zeppelin 可视化和支持 notebook 的目标迈进了一步。

http://mail-archives.us.apache.org/mod_mbox/www-announce/201606.mbox/%3CCAOtpBjgBAuQs5FiX5X_5A+Rd-A1fVz0R7SKttGe4cJuCLRiGww@mail.gmail.com%3E

Qubole 宣布他们的 HBase-as-a-Service 已经在 AWS 上提供。它为长时运行集群提供了许多漂亮的特性。支持 Hannibal 和其它监控工具,集成了 Apache Zeppelin ,并能通过节点引导程序与 OpenTSDB 和 Apache Phoenix 配置。

https://www.qubole.com/blog/product/quboles-hbase-as-a-service-is-generally-available-on-aws/

Altiscale 发布了 Altiscale Insight Cloud 实时版。本系统由 Apache HBase 和 Spark Streaming 支撑。

https://www.altiscale.com/blog/announcing-the-altiscale-insight-cloud-real-time-edition/

`hs2client` 是一个为 Apache Hive 和 Apache Impala (孵化中)提供的新 C++ 库。除了支持 C++ ,这个库还绑定了 python ,可以在 pandas 中把数据读到 DataFrame 。

http://blog.cloudera.com/blog/2016/06/announcing-hs2client-a-fast-new-c-python-thrift-client-for-impala-and-hive/

MapR 在其发行版中支持了 Apache Spark 2.0 开发者预览版。

https://www.mapr.com/blog/spark-20-now-developer-preview-mode-mapr-platform

Apache Beam 发布了其 0.1.0 孵化版,是本项目加入 Apache 孵化器以来首次发布。

http://beam.incubator.apache.org/beam/release/2016/06/15/first-release.html

Yandex 开源了 ClickHouse ,一个列式分析数据库。本系统为横向和纵向扩展而生。支持复杂数据类型(例如数组)和近似查询。该团队还发布了与其它数据库相比的基准测试结果。

https://clickhouse.yandex/

活动

中国


Viewing all articles
Browse latest Browse all 6262