SQL和NoSQL之争只不过是关系数据库和非关系数据库的比较。区别在于它们是如何构建的、存储信息的种类以及如何存储信息。关系数据库是结构化的,非关系数据库是面向文档、分布式的。四十多年来,结构化查询语言(SQL)数据库一直是主要的数据存储机制。
随着Web应用程序以及PostgreSQL、MySQL和SQLite等开源技术日益盛行,使用率在上世纪90年代末急剧提高。尽管NoSQL数据库自上世纪60年代以来就已存在,但最近开始受到追捧,比如MongoDB、CouchDB、Redis和Apache Cassandra等流行的选择方案。说到底,SQL和NoSQL都做同样的事情:存储数据,只不过方法不一样。尽管NoSQL日益流行,却不是取代SQL的技术,而是另一种选择。一些项目更适合使用SQL数据库,而其他项目适用于NoSQL。一些项目可以换着使用两者。
1.SQL
结构化查询语言(SQL)是存储数据的更结构化、更僵硬的方式,就像电话簿那样。关系数据库要高效,你得以一种非常条理化的方式来存储数据。SQL数据库仍很流行,因为它们天生适用于许多古老的软件堆栈,包括LAMP和基于Ruby的堆栈。这些数据库得到了广泛的支持,并得到了充分的理解;如果你遇到问题,这可能是一大有利条件。
说到数据库技术,不存在一应俱全式的解决方案。这就是为什么大多数公司同时依赖非关系数据库和关系数据库来完成不同的任务。不过在许多情况下,尽管NoSQL数据库凭借速度和可扩展性越来越受欢迎,但高度结构化的SQL数据库更受喜爱。
优点:
ACID(原子性、一致性、隔离性和持久性)合规性准确地表明事务如何与数据库交互,以此减少异常情况,并保护数据库的完整性。NoSQL数据库常常具有处理速度快、灵活的优点,但牺牲了ACID合规性。
你的数据保持不变、结构化。如果贵公司没有迎来大规模发展(那需要更多的服务器),而且只处理一致的数据,那么恐怕没有理由使用旨在支持高流量和众多数据类型的系统。
由于很早就面市了,这些工具随带更好的支持、产品套件和附件以管理这些数据库。
缺点:
SQL的主要问题是随着数据库变大而进行扩展。你发现,即使可扩展性通常在生产环境中进行了测试,但常常不如NoSQL数据库。分片(sharding)同样存在相当大的问题。
2.NoSQL
如果贵公司在处理大量非结构化数据,你的数据要求一开始又并不清晰,那么可能无法开发模式(schema)明确定义的关系数据库。使用非关系数据库可以获得比传统数据库高得多的灵活性。不妨把非关系型数据库想象成档案夹,整理各种类型的相关信息。
优点:
推动NoSQL发展的重大因素是大数据,促使CouchDB、MongoDB、Cassandra和HBase之类的NoSQL数据库大行其道。NoSQL数据库确保:当服务器端应用程序的所有其他组件都被设计成无缝、快速时,数据没有成为瓶颈。
你可以存储大量几乎没有结构的数据。此外,NoSQL数据库对于可以一起存储的数据类型没有限制,你的要求若有变化,可以添加更多的新类型。若使用基于文档的数据库,还可以将数据存储在一个地方,无需事先定义数据类型。
基于云的存储是一种节省成本的优秀解决方案,不过你得将数据分散在多台服务器上来进行扩展。NoSQL数据库旨在直接可以跨多个数据中心进行扩展,没有太大的麻烦。
你不必事先准备好NoSQL数据。NoSQL数据库的非关系性质让你可以迅速创建数据库,没必要开发详细的数据库模型,因而为你节省大量的开发时间。
缺点:
由于历史较短,NoSQL社区缺乏MySQL用户群的成熟性。虽然眼下NoSQL社区在迅猛发展,但相比MySQL之类的SQL数据库管理系统,很难与其经验丰富的最终用户组成的庞大网络相竞争。
NoSQL数据库的一大问题是缺乏用于性能测试和分析的报告工具。另一方面,使用SQL,你能找到一大批报告工具帮助证明应用程序的有效性。
你将面临与SQL指令兼容的问题。在查询语言中,新的数据库使用自己的特性,目前还无法与关系数据库中使用的SQL完全兼容。
缺乏标准化。现在有许多NoSQL数据库,却仍然没有标准,而关系数据库有标准。NoSQL缺乏标准化的这个现状可能会在迁移过程中带来问题。
结论
如今,NoSQL数据库正成为数据库市场的一个重要角色。凭借诸多优点,它们会成为企业领域真正改变游戏规则的技术。对于希望整合大数据的公司而言,成本更低、更易于扩展和开源等特性使得NoSQL成为一种诱人的选择。
即便如此,NoSQL还是一种比较年轻的技术,没有MySQL等SQL数据库提供的那一套标准。一些人认为NoSQL是未来的方向,另一些人担心它缺乏ACID合规性和标准化。最终,贵公司复杂的业务需求以及所使用数据的数量和种类将决定选择SQL还是选择NoSQL。
不论好坏,对于大多数项目而言,你可以有一个非分布式、可扩展的关系数据库作为系统中的单一数据源(single point of truth)。这是保持数据一致性,支持复杂查询的一种简易方法。
我希望本文对你有所帮助,但请记住每个项目不一样,最终你要了解什么最适合你的要求。无论选择是什么,我们开发人员都很擅长证明我们的技术选择的合理性。不过我建议在充分考虑风险和优势后,再试用新技术