2012年4月21日

我的貼標籤規範

前幾天討論了目前各家網站標籤功能的混亂,即便有這些混亂,「標籤」仍是訊息管理非常重要的一個工具,也是落實真正語義網(semantic web)的一個基礎。

too many tags!

然而正由於目前沒有一致性的標籤標準,人們對於標籤的使用也很隨興,所以會常常看到下面三種情形:

  1. 同一個概念以不同的詞語組合方式標籤

    例如一篇文章中同時加入了 win7, Windows 7, MS windows 7, windows-7 等標籤,有縮寫、有全名、有各種不同的連接詞。這種現象在以搜尋流量為主的媒體網站中尤為常見。上面的圖就是一個活生生血淋淋(?)的例子,這組關鍵字取自 Engadget 的這篇文章

  2. 同一個概念以不同的單字形式標籤

    以英文做標籤的網站中很容易發生這種情形,因為一個概念在不同的詞性表現下就是不同的單字,因而成為不同的標籤關鍵字。例如我想要加上「部落格」這個標籤,用英文寫時就可能同時把名詞、動詞、動名詞,還有單數型複數型全部通通填上去,像這樣: blog, blogging, blogs

  3. 同一個概念以不同的語言標籤

    這個就是多語言使用者的苦惱了。例如像我這樣的宅宅就會因為以下 動畫, アニメ, Anime, 動画 等標籤到底要用哪個好而苦惱,而最後的結果通常就是全部都用。

這三種情形都是用不同的方式去標籤同一個概念,雖然初衷是為了將來方便搜尋,但往往反而導致搜尋時的困難。考慮以下情形:假設我的一篇部落格文章用了 win7Window 7 作為標籤,另一篇主題近似的文章卻是用了 Windows 7win-7 作為標籤。這種不一致性會讓讀者在前篇文章中點下 win7 這個標籤連結時,無法將所有主題相關的文章列出。

另外一個問題則是製造不必要的心力浪費。因為沒有一個標準來選擇用哪個單詞做標籤,因此也不知道自己將來要回頭找資料時,會用哪個單詞來做搜尋,只好想辦法把所有自己想得到的所有相關字一股腦兒全部填入。

為了避免上述問題,雖然目前每個網站的標籤機制如同多頭馬車各行其道,制定一個自己個人使用的標籤習慣(或規範)倒是可行的一個作法。這個問題相信困擾的不只是我,上網找了一下,有兩篇值得參考的文章,第一個是 Calvin C. Yu 所寫的 Taggin Guidelines (在投影片中的第 13 頁),主要原則如下:

  • 簡練
  • 小寫
  • 單數

另一個參考是由 Hutch Carpenter 所提出的,他認為標籤機制應該有個標準,而這個標準就是複數詞組,逗號分隔 (Multi Word, Comma Seperated)。


而我自己所使用標籤的標準如下:

  1. 簡便性

    1. 盡量簡單。

    2. 方便輸入。所以標籤時會以英文為主,例如用 browser 而不用 瀏覽器

    3. 自己容易想起。通常第一個想到的字詞就是了。

    4. 使用容易理解的詞。

  2. 一致性

    1. 一個概念一個詞。所以 動畫, アニメ, Anime, 動画 就只剩下用一個 anime

    2. 小寫。同樣是為了方便輸入。

    3. 用單數,用名詞。當然,這免不了會遇到例外情況,主要還是要依照使用情境判斷。

    4. 人名的標記盡可能從主人。例如使用 菅野よう子 而非 菅野洋子, 韩寒 而非 韓寒。除非該人名的原始拼寫方式我不熟悉,例如我總是想不起來戈巴契夫怎麼拼,那就直接用戈巴契夫吧。同樣是以自己方便為最高原則。

    5. 除非是自己口語常用的縮寫,不然不使用縮寫作標記。nds win7 xbox360 都很好理解,可是用 resp req 來做為 response request 標籤的替代,就太過頭了。現在連寫程式都不鼓勵這種縮寫了。

  3. 格式

    1. 省略單字間空白。也就是說用 macosx 而非 mac os x。不過英文人名是例外;日常用字如 smartphone 我們容易斷字,相對的人名如果省略空白有時候就不容易逆推。其他如果空白省略會造成歧異的話,也應該保留空白於關鍵字中。

    2. 以逗號區隔關鍵字。正確來說應該是以「逗號加空白」區隔關鍵字。


以上便是我個人使用的標籤規則。如果你有不錯的標籤習慣,也歡迎一起討論分享。

沒有留言:

張貼留言

Related Posts Plugin for WordPress, Blogger...