撰写者 下午3:29 大数据供应链, 需求, 需求驱动, 需求塑造 •2条评论

我为什么喜欢Hadoop的三个原因!

shutterstock_316568165大象来了!他们将很快改变您的供应链。随着时间的流逝,您将爱上他们。我认为他们将改变游戏规则。我什么意思让’从一个故事开始。

关系数据库是在1960年代设计的,当时兆字节(MB)的磁盘存储成本与今天的TB(TB)相同,因此关系数据库已成为当今的基础’s 供应链 systems 和 IT architectures. The limitations of these early computing systems shaped the first 和 second generation of 供应链 solutions. 今天, we are living with the limitations.

我们现在正在转向不再受这些限制所约束的第三代供应链解决方案。我称这一代 应用第三幕。 (我写了一些博客,介绍我认为第三幕的样子。)

回顾历史

尽管事实上内存成本在55年中降低了100万倍,但大多数供应链解决方案仍使用来自供应商等的关系数据库 甲骨文,SAP或Teradata。 数据在逻辑上以行和列表示。要在系统之间连接数据,需要移动和集成数据。结果,无论您走到哪里,用户和团队都会抱怨事务主数据的不足和数据集成的问题。

相反,当您使用自己喜欢的搜索引擎时–Google, Bing, Yahoo–该软件可为您的特定搜索快速将网页编入索引。我从未听过Google在主数据问题上的挣扎。为什么?他们索引。索引是一种数据结构,可将每个术语映射到其在文本中的位置,以便在用户输入术语时可以快速显示使用该术语的所有网页。它可以快速搜索大型数据集。为了改进搜索,Doug Cutting和Mike Carafella创建了一个名为Hadoop的分布式存储系统。 (道格以儿子的名字命名该软件 ’因此,Apache Hadoop的符号是一头大象。 Hadoop和创作者

Hadoop是一种用Java编写的开源软件框架,用于分布式存储和处理计算机集群上的大型数据集。 Hadoop将文件拆分为大块并将数据分布在集群中的节点上。设计的关键原则是用户不必为了处理数据而移动数据即可获得答案。相反,程序会处理数据所在的位置。这是一个关键的区分因素,与我们今天所知道的行和表中关系软件的原理以及使用ETL的传统数据仓库方法(其中处理数据需要移动)的原理有很大不同。问自己一个问题, “如果我们不必移动和集成数据以获得有价值的答案怎么办?”

第一步是受教育并学习术语以进行新的讨论。基本的Apache Hadoop框架构建块:

  • Hadoop常见 –包含其他Hadoop模块所需的库和实用程序;
  • Hadoop分布式文件系统(HDFS) –在商业机器上存储数据的分布式文件系统,在整个集群中提供很高的聚合带宽;
  • Hadoop纱 –一个资源管理平台,负责管理集群中的计算资源并将其用于调度;
  • Hadoop MapReduce –用于大规模数据处理的编程模型。
  • Apache Spark – 具备流媒体,机器学习和图形处理功能。
  • 生态系统软件– Apache Pig,Hive,HBase,Phoenix,Zookeeper,Impala,Flume,Oozie和Storm。

你为什么要在乎? 第一个答案是’更便宜。 Hadoop的数据管理方法大约是关系数据库方法成本的1/5。第二个是它启用了新功能。 Hadoop使用户可以将自然状态下的结构化和非结构化数据(例如文件夹)集中在一起,然后根据需要进行查询或索引。不再需要ETL提取和直接数据集成。数据不会移动。 (在计算,提取,转换和加载(ETL)是指数据库体系结构中的一个过程,该过程从同构或异构数据源中提取数据,并转换数据以将其以适当的格式或结构存储以进行加载。供应商包括IBM,Informatica,Oracle和SAS。 )

尽管世界其他国家/地区在2008年陷入严重衰退,制造商们在薪资决策和裁员方面苦苦挣扎,但Hadoop创新正如火如荼。 脸书贡献了Hive,Yahoo!在MapReduce之上引入了称为Pig的高级编程语言。 2010年,供应商架构与 Cloudera 提供打包的Hadoop解决方案,以及 霍顿工厂 提供Hadoop IT服务。

尽管Hadoop最初是为处理大型数据集(认为是PB级数据)并在电子商务和在线搜索引擎的并行处理中规避磁盘故障而开发的,但我发现有趣的是,该技术的应用以独特的方式将不同的数据源整合在一起,较低的成本。因此,尽管世界其他地区正在辩论SAP 汉娜(专为快速交易数据加载和处理而设计的列式数据库体系结构)以及基于云的内存中分析(例如我喜欢的Qlik),但我还是想弄个麻烦。 Isn’在关于未来供应链架构的讨论中,Hadoop是否还有地方?

在我的简单世界中,我将SAP 汉娜视为更快,更强大的企业资源计划(ERP)的答案。 汉娜在提高交易数据规模方面起着重要作用。 企业资源计划对于建立交易参考系统很重要,但是我不认为它是未来分析的基础。为什么?让我解释。并非所有供应链数据本质上都是事务性的。计划数据是按时间分段的数据,传感器数据(如物联网和RFID)是流数据。我不认为HANA是流传输和按时间分段的数据的理想结构。 (我的信念是基于对测试计划和物联网方法架构的公司的采访。)

但是,让’让讨论更进一步。我们的范例是当前的结构化数据(适合行和列);但是,非结构化数据又如何呢?我认为非结构化数据对于供应链管理的未来至关重要。考虑使用社交数据,图片,图像,电子邮件,保修数据,天气数据,社交数据,GPS地图数据的可能性。对我来说,可能性是无止境的。但是非结构化数据无法适应今天的需求’的供应链管理系统。如果您可以将非结构化数据与处于自然状态的结构化数据合并而无需移动数据进行强制集成,该怎么办。这是我看到Hadoop发挥作用的地方。

让我使用一些特定于供应链的示例进行解释。但是,在我这样做之前,让我给您一个免责声明。我不是技术专家。您将永远找不到我在周末写代码。相反,我是一名商业女孩,研究在供应链管理中使用新技术。在编写软件需求的同时,我已经学到了足够的知识,知道这不是我:我对软件开发人员非常赞赏。我为业务购买者而不是CIO或IT主管写信。因此,尽管本博客文章涉及技术主题,但我将尽量避免使用技术术语。结果,一些软件专家可能会发现此分析不完整。我的目标是引起辩论。

在供应链流程中的应用

大多数顾问会说答案就在于大数据。对我来说,这是垃圾。为什么?大数据是一个过度使用的术语,缺乏意义。供应链问题通常不会很大(少于1PB的数据),但对我而言,希望在于重新考虑使用各种数据类型和使用更高速度的数据。 (有关此主题的更多信息,请访问博客 重新思考比特。)为了将学术论点纳入实际示例,让我分享五个我认为Hadoop可能有意义的用例。

市场驱动的预测: 从历史上看,使用线性优化和遗传算法从订单和装运方式中感知未来趋势并预测未来定义的预测。随着需求等待时间(市场需求转化为订单的时间)的增加以及牛鞭效应的影响,传统预测从订单中感知市场模式的时间延迟对于零售商来说是几周,对于第一层是几周甚至几个月制造商,而对于第二层和第三层制造商(例如化学,半导体,采矿等)则要花很多个月的时间。随着项目的增加,产品供应的个性化以及供应链中新产品发布的复杂性的增加,这种增长的时间更长。有两个主要变化:图1中所示的牛鞭效应更大,图2中所示的长尾巴正在增长。

图1.基于订单模式和发货的需求转换的牛鞭效应

牛鞭效应

图2.供应链长尾对需求感知的影响。

长尾巴

从本质上讲,我们通过这些第一代和第二代应用程序构建的(我们称为预测)是订单预测而不是市场预测。为什么这是个问题?在这种常规分析中,战术上的预测过程无法足够快地感知市场以减慢或加快过程。

让我举一个例子。在2008年的经济衰退中,普通的消费品公司花了三到五个月的时间来感知经济衰退并重新定义产品计划。相比之下,一般的化工公司或汽车供应商要花五到八个月的时间。结果,公司关闭了生产设施。今天,我们生活在动荡的时代。库存很高,我们的海洋容量过大。这是迫在眉睫的衰退迹象或运输机会吗?假期的卡车运力开始激增,但公司担心市场增长停滞。金砖四国的增长预期令人担忧。这些新兴经济体的市场潜力是什么?

今天,公司不知道。传统的预测系统还不够。牛鞭效应扭曲了信号,供应链长尾巴的增长使今天的情况比十年前更糟。根据上次经济衰退的情况,我只知道有四家公司建立了市场驱动的预测系统。市场驱动的预测系统利用市场力量和趋势来预测未来的总需求。它是市场健康的指标。例如,对于汽车供应商来说,可能是汽车的销量,对于销售除草剂的农作物保护公司来说,可能就是种植的英亩数和农作物的市场价格(是否将农作物改种为农作物的强有力决定。在该领域)。可能是天气或客户情绪。如果您可以利用影响您市场的所有市场驱动因素并允许自动更新该怎么办?当您想进行分析时,可以使用SAS或R或认知推理,将Enterra与Hadoop架构结合使用来访问市场指标并根据市场运行模型。然后,您可以将其用作市场驱动的预测。

(我将不太详细地解释下一个示例,但是数据提取的原理和Hadoop的使用保持不变。)

需求感知和市场分析。 我最近访问了一家大型饮料公司,该公司具有三个销售点系统,四个客户洞察数据库和众多零售商信息源。他们在Cloudera的Hadoop平台上使用了可视化工具Trifecta,以分析市场篮子,出行类型,促销效果和市场启动效果。

重新定义计划主数据。 今天’一家公司的平均拥有6个企业资源计划(ERP)系统,以及20个运行供应链计划的不同引擎(需求计划,供应计划,生产计划和运输计划各有2到3个)。引擎有效性仅与数据模型的拟合度和输入的准确性一样好。大多数系统在实施时是正确的,但尚未使用正确的计划主数据进行更新。

什么是计划主数据?计划主数据是对按车道,转换,运行时间,周期约束,计划维护和生产车间限制的提前期的假设。保持此数据更新很困难。那么,如果您可以让Hadoop中的ERP和MES的系统文件处于自然状态,并使用Indexing找到最佳的假设来规划主数据并保持其最新状态呢?我认为这是一项季度任务,以确保所有引擎均使用相同且当前的计划主数据运行。今天,获取这些数据并不容易。

流数据。 数字制造,冷链技术,机器人技术和运输远程信息处理有一个共同点。什么?成功的实现取决于流数据的成功使用。流式传输数据会发出高频信号,并且该信号需要转换为可用的数据馈送。像Savi Technology和Translink这样的RFID供应商首选在Hadoop上使用Apache Spark。

认知学习。 我们开始看到供应链技术中认知计算的发展。认知计算使您能够持续学习并回答您不知道要问的问题。这些技术可以在关系或非关系技术的基础上工作,但是如果您可以继续测试和学习计划数据,同时又将系统数据保留为原生格式,那该怎么办?

选项是无止境的。这些用例提供了引发新对话的框架。

结论:

那么,为什么我喜欢Hadoop的思想?三个原因:

  1. 我认为这为供应链领导者解决新问题提供了新的可能性。
  2. 我喜欢这项创新以及它是开源的事实。
  3. 它使供应链领导者可以在不花费大量时间和精力的IT项目的情况下,以更快,更便宜的价格实现其目标。

您如何看待Hadoop在供应链管理中的使用?有什么想法要分享吗?我很想在这里或在甜菜融合社区中收到您的来信。

BeetFusion_Logo_FINAL什么是 甜菜融合? 甜菜融合是一个社区,旨在让全球的供应链领导者就供应链惯例的演变进行健康的对话。我们的目标是使其成为供应链社区的Facebook,LinkedIn,Yelp和Monster。我们在两周前以Beta格式启动了它,目前我们有600多个社区成员。随时在社区中发布职位,进行讨论或添加内容。本周,我们将开始对技术提供商进行评级和评论。 (我们认为此评估应由供应链负责人而不是白板会议室中的分析师进行。)

此外,我们正在画龙点睛的议程 供应链洞察全球峰会 在九月。我们确认了四位发言人。日期是9月7日至9日在亚利桑那州斯科茨代尔的腓尼基人。我们希望看到你在那里!

关于作者:

罗拉 in italy罗拉 Cecere is the Founder of 供应链见解。 她正在尝试重新定义行业分析师模型,以使其对供应链领导者更友好,更有用。劳拉写了书 重要的供应链指标 and 砖头,目前正在撰写她的第三本书《领导力问题》。作为行业中供应链内容的经常贡献者,Lora每月为SCM季度,消费品技术,供应链变动和供应链大脑撰写按行列。她还积极地在自己的博客上 供应链见解 website, for 领英和 福布斯。在不写作或经营公司的时候,洛拉正在接受铁人三项的训练,在坦普尔(Temple)攻读DBA学位的研究课程,或者为她的新孙女编织和缝。在写作和培训之间,劳拉(Lora)积极地做腱(stenu)和舞蹈(Dégagé)来使自己的脚拱起,以在芭蕾舞蹈中进行足尖训练。她认为我们永远不会太老,无法学习或推动组织提高绩效。

Sources used: The History of Hadoop, //medium.com/@markobonaci/the-history-of-hadoop-68984a11704#.9uvrdzt2x, November 28, 2015