Home / Category / Data

數據管理的應用需要數據分析員處理和釐清邏輯關係。這裏要介紹一種概念技術和其作者——美籍華裔的陳品山(Peter P.S Chen)。

所謂數據只是一種的紀錄和資料,在未被處理的情況下,它只是一堆文字或檔案。在商業世界裏,數據可以說是一本天書,它能為目標導向的商業組織作出指導,當然前提是數據能被有效收集、統計和分析(這裏是三個完全不同而又缺一不可的步驟)。但在電腦應用範疇裏,我們是以如何分析呢?我們明白電腦應用其實依賴以數學式的邏輯作為語言基礎。那麼數據管理或數據分析,實際上的操作是根據什麼呢?現在的商業機構,會聘用數據分析員(Data analyst)處理數據,那個系統叫數據庫或資料庫,或者稱為「資料庫管理系統(Database management system, DBMS)」。除了電腦科學(Computer Science)外,這些分析員所學習的是「數據模型」(Data Model)理論,例如層次模型(Hierarchical model)、網狀(Network model)、關聯模型(Relational model)、鑽型(Dimensional model)和ER模型,ER模型即ERD。

Entity-Relationship Diagram(ERD)

Entity-Relationship Diagram(ERD)是一種著名的數據模式理論,現在大多軟體開發都會應用這個數據開發模式概念。運用Entity-Relationship Diagram(ERD),能夠視覺化數據個體(Entity)和它們之間的關係(Relationship)及其屬性(Attributes),用來規劃數據結構。換句話說,這個理論有助將現實世界的抽象資訊轉換為數據,讓分析員能夠量化及統計。ERD的視覺化邏輯亦有利數據分析員檢視、統計和管理。在規劃數據管理上,會將不同類型的數據分類,我們叫作邏輯設計(Logical design);在實踐和製作數據庫/資料庫上,稱為物理數據庫設計(Physical database design)。

ERD,我們可譯為「實體關係模組」。在1976年3月,台灣國立台灣大學電機工程學系畢業的陳品山,在ACM Transactions on Database Systems上發表了《The Entity-Relationship Model–Toward a Unified View of Data》一文。由於大眾廣泛使用實體聯繫模型,而這篇文章已成為計算機科學38篇被廣泛引用的論文中之一。他已被譽為全球最具軟體開發技術的16位科學家之一。早在1968年,IBM的推出一種產品IMS(Information Management System, IMS),它使用的是層次模型,一種樹型結構的數據模式。1970年,Edgar Frank Codd提出關聯式資料庫(Relational model),藉助於集合代數(Set)等數學概念來建立數據之間的關係。Edgar F.Codd在IBM工作期間提出的「科德十二定律」(Codd’s 12 rules)來建立數據模型的理論,它是ERD概念的先驅。後來更有EERD(Enhanced Enitity Relatioship Diagram)是ERD的進階加強版,加入其他進階術語。

ERD基本分為三大基本部分,實體(Entity)、屬性(Attribute)、關係(Relationship)。長方形代表實體(Entity)、橢圓形代表屬性(Attribute)、菱形代表關係(Relationship)。例如部門和僱員都是一個實體;它們的關係是部門包括員工。

但是考慮到它們關係並不平等(僱員不會包含一個部門),因此我們需要另外兩組符號標示兩者關係。

這個數式意思是一個部門可以有至少一個或多個員工,但一個員工可以沒有部門,而且每位員工不可隸屬多於一個部門,意思十分清楚。如果寫成述句(Statement),大概可以分為四個邏輯述句。

一個部門包含最少一個員工

一個部門可以擁有多位員工

僱員最多隸屬一個部門

僱員可以不隸屬部門

至於EERD(Enhanced Enitity Relatioship Diagram),包括更為複雜的關係。例如子類別subtypes與元類別supertypes;特殊化 (Specialization) 和一般化 (Generalization)。它們能有效應用更複雜的關係,例如在醫院、應診者、住宿患者、床位與訪客之間的關係。

這些理論很大程度都受到數學概念影響,只有小部分是分政治因素影響:其時冷戰年代,美國國防部出於蘇聯核子武器的威脅而提出網狀設計的互聯網通訊模型,預防受到一旦受到核武襲擊對政府通訊土崩瓦解,華盛頓因而製造出ARPA,它是現在互聯網的前身。部分數據網狀數據亦因而受到啓發,例如Network model。資訊社會學、全球化與傳訊學的權威Manuel Castells在其的《信息時代:經濟、社會與文化》(The Information Age: Economy, Society and Culture (The Rise of the Network Society (1996), The Power of Identity (1997), and End of Millennium (1998). ))一書詳細闡述了互聯網的發展進程,是傳訊學經典刊物。

現在的DBMS大多是RDBMS,即Relational database management system, RDBMS)」,使用關聯式數據模型Relational Data model。例如MS SQL Server, IBM DB2, Oracle, MySQL, and Microsoft Access,這些都是著名的數據庫的軟體。Mysql是現今十分常用的RDBMS,它是一款免費開源的數據庫軟體,能安裝在主機或伺服器上,讓管理員檢視數據列表、增改和刪減。

MySQL是一款免費開源軟體,名字源於數據技術SQL(Structured Query Language),這種技術是在RDBMS的基礎既開發的。

(待續)

參考

台南科技大學文章:http://faculty.stust.edu.tw/~jehuang/oracle/ch2/2-1.htm
MySQL Taiwan 台灣MySQL技術研究站:http://www.mysql.tw/2013/03/entity-relationship-model.html
ERD templates: http://creately.com/blog/examples/er-diagram-templates/
Back
Copy link
Add to
Email
Facebook
Whatsapp
Gmail
More
Save
Like
Cancel