[Hadoop] 菜鸡初学者对 Hadoop 云端架构的一些疑惑

Java 开发实习生,但是实习期间一直在弄些 hive 脚本的相关工作,维护现有的报表。
之前没了解过大数据相关,自学了两天 Hadoop 和 Hive 相关的东西,有一些疑问:
1 、由于公司是海外业务,aws 和 azure 用的比较多,数仓这一套东西全都搭在云上,用的是 aws EMR 服务 + aws S3 做存储。这里第一个问题:S3 作为存储服务,是和 HDFS 同级别的东西吗?是 S3 从根本上代替了 HDFS ,还是说 HDFS 是一种概念或者规范,S3 是 HDFS 的一种实现方式?
2 、如果是前者,那么 HDFS 架构中的 NameNode ,DataNode 这些概念,在 S3 中是必要的吗? S3 又是否有数据冗余的措施来保证数据的高可用?

初学者有很多基本的概念和理念还没有搞清楚,所以这可能是一个非常蠢的问题。求有经验的大佬们点拨一二

发表回复

您的电子邮箱地址不会被公开。