今年是CERNET建設30年。回望曆史,作爲中國首個互聯網主幹網,CERNET不僅見證了中國互聯網從無到有、從小到大的發展奇迹,也爲高校師生群體提供了創新的舞台,締造了中國互聯網曆史上衆多的第一。
中國第一個電子雜志的誕生
1995年1月12日,中國第一個電子雜志——《神州學人》電子版(英文名CHISA,取自China Scholars Abroad)誕生。
△1995年《神州學人》電子版的主頁
承載與發布這本電子雜志的平台是1994年開始建設的我國首個覆蓋全國的互聯網——中國教育和科研計算機網CERNET。“一開始,我們就和CERNET結下了不解之緣。”曾任《神州學人》副總編輯的許珑說。
海外學子的呼聲
創辦于1987年5月的《神州學人》是一本專門面向我國海外留學人員的雜志。
“改革開放後,許多中國留學生奔赴世界各地,但當時的通訊之難,成本之高,現在難以想象。這本雜志像是一個情感的紐帶,連接着身處全球的中國留學生們,大家對它有着非常特别的感情。”許珑回憶。
80年代末,互聯網在國外大學首先興起,大學師生是最早接觸互聯網的群體。“能不能把國内的信息及時發布在網上?”這是當時很多留學生們的渴望。中央有關部門得知這樣的期待,于是在1994年10月21日,相關領導建議由國家教育委員會負責辦理此事。國家教委非常重視這項工作,4天之後,就向中央遞交了報告,指出已開始建立中國教育和科研計算機網CERNET,通過CERNET,即可讓國外的留學生看到國内的媒體信息。于是,1995年1月,在中央的指導和國家教委的推動下,《神州學人》電子版在CERNET上誕生了。
△1995年,時任國家教委主任朱開軒、副主任韋钰等視察《神州學人》電子版
CERNET支撐CHISA的誕生
《神州學人》電子版CHISA誕生的前夜,1994年初,在當時國家計劃委員會、教育委員會的領導下,清華大學吳建平、李星等一批年輕的專家開始牽頭建設中國第一個互聯網主幹網——中國教育和科研計算機網CERNET。
一個偶然的機會,聽說國家教委正在籌辦《神州學人》電子版CHISA,李星立刻想到,能不能把這本電子刊放到CERNET上?在回國之前,他在國外留學8年,對《神州學人》很有感情。正是這樣一種情結,使得李星極力争取,要把《神州學人》電子版放在剛剛建成的CERNET上發布。
這和國家教委的想法不謀而合,可能也正是許珑提到的“緣分”。當時CERNET的發起領導之一,也就是主管CERNET工作的國家教委副主任韋钰,也分管留學生工作,而韋钰本人的留學經曆和其“報效祖國,責無旁貸”的留學理念,使得她對留學生和《神州學人》也有格外的關注和厚愛。天時地利人和,就這樣,《神州學人》電子版和CERNET相伴而生。
《神州學人》電子版開辟了中國出版刊物上網的先河。對于這樣的新鮮事物,大家感到非常新奇,也非常包容與支持。“我們去辦理《神州學人》電子版出版手續時,新聞出版署期刊司說,這是一個全新的事物,他們之前也沒有任何經驗。讓我們先辦,也是給我國以後的電子刊摸索出一些經驗。” 回憶起29年前去新聞出版署的場景,許珑說。
區别于《神州學人》雜志主要發表原創文章的模式,電子刊摘選彙集了當時許多媒體的精華文章。《神州學人》電子版的出版,主要分爲兩個部分:神州學人編輯部負責内容建設,CERNET負責電子刊的發布、網頁的創建、運營和維護。
△2004年,CERNET網絡中心李星、朱爽回顧CHISA的創辦
名副其實的技術維護咨詢
《神州學人》電子版最初的服務器是一台當時流行的Sun Sparc 20工作站,位于清華大學主樓CERNET的機房。
電子版的發布由CERNET網絡中心朱爽和李星老師共同完成。在當年那十分簡單,卻十分醒目的《神州學人》電子版的版權頁上,寫着一行字:“技術維護咨詢:朱爽,李星,chisa-tech@chisa.edu.cn ”。
“我們名副其實,哈哈。”朱爽回憶說。“爲了趕國外讀者閱讀的時差,選定在每周周五發刊。”
雖然設備已經是當時的最好,但互聯網是那麽新,全球當時的網絡硬件環境、發布技術和軟件環境都剛剛起步:短短兩萬多字的文字内容,有時要花上幾個小時才能發布完成。爲了電子版的發布和網上傳播萬無一失,李星和朱爽進行了大量的準備。爲保證1月12日順利發刊,他們要在1月6日發布“試刊”。在試刊的過程中,解決了許多技術上的小挑戰。
最初,電子刊隻是簡單的文件格式,編輯部制作成磁盤,由專人送到CERNET網絡中心,後來通過FTP上傳到網絡中心,再後來,就直接以撥号上網的方式上傳到服務器了。
在收到編輯部發來的期刊後,他們将當期的内容生成各種編碼版本,包括GB、BIG5、HZ、T3、ISO2022-CN和Postscript等,這些今天我們看來非常簡單的技術,在當時卻是相當專業、超前的。經過編碼後的版本被發布到FTP、GOPHER和WWW上,同時以UUCODE編碼郵件,發送到海外留學人員的訂閱郵箱中。
“無論是在外出差還是寒暑假,我們都想方設法地保證在周五按時發布上線。”朱爽說。
1995年1月15日,李星和朱爽到泰國參加第一屆亞太地區網絡信息中心會議。會後,在取道香港回北京時,正好是個周五——電子版第二期的發刊日。他們抵達香港後,顧不上忙其他事情,第一時間就去了香港中文大學網絡中心,爲的就是準時發布《神州學人》電子版。
“電子刊創刊僅僅幾個月,随機浏覽人數就達到了數萬人,訂閱人數有8000多個。”許珑說。一時間,《神州學人》電子版成爲了中國互聯網上的一道亮點,連版權頁的技術維護咨詢郵箱都收獲了許多讀者熱情洋溢的來信。“有不少讀者詢問英文環境下閱讀中文的問題,我們當即做了一個如何在網上閱讀中文的指南。後來,爲了方便讀者查找信息,我們還做了詳細目錄分類檢索。記得李星老師還常常現寫一些小的軟件來幫助發布,比如檢查編碼錯誤等等。”朱爽回憶。
在那段時間裏,爲了讓電子刊發布得更好更快,他們研究出了很多小技巧,比如電子郵件讨論組技術(MAILING-LIST)。後來,《神州學人》電子版還有了詳細的目錄分類。當時李星教授帶的一位研究生還針對電子版内容的特殊性,設計了最初的中英文搜索引擎,方便讀者查找電子版上的有關資料。這在當時互聯網剛剛興起的全球,都是非常實用、有趣的探索。
開創了一個先河
1995年的夏天,時任國家教委主任朱開軒、副主任韋钰來到了位于CERNET網絡中心的機房,視察電子刊工作的進展情況。韋钰表示:“《神州學人》電子版是與《神州學人》雜志比翼齊飛的一份電子雜志。”
“電子雜志發布後,收到了來自全世界的聲音,每一期内容刊發後,都有幾百個留學生給我們發Email互動。大家把身在異國他鄉的所思所感都通過互聯網與我們分享,非常讓人感動。”許珑說。
在沒有其他來自祖國的中文刊物上網的年代,這份來自祖國的聲音彌足珍貴。當時的讀者紛紛表示:“讀到神州學人電子版,猶如飲到了沙漠中的甘泉,聽到了來自北京的聲音。”“在國外通過《神州學人》電子版直接點擊國内要聞和自己感興趣的欄目,倍覺親切溫暖,心能與祖國一起跳動。”
《神州學人》電子版的問世,開創了國内中文媒體進入國際互聯網的先河,具有劃時代的曆史意義,它的創辦,立即引起了國内媒體的關注,中央電視台新聞聯播、新華社、人民日報等媒體都迅速發布了消息。
随着《神州學人》電子版影響力的增大,國務院新聞辦公室将其納入了國家對外新聞宣傳平台。國内高校編寫的新聞學教科書也将《神州學人》電子版的誕生作爲開創性的曆史事件,編入了我國新聞發展史。
1995年,美國國會圖書館電腦網絡中心OCLC(Online Computer Library Center)将《神州學人》電子版正式編目,成爲被此類大型圖書館編目的第一個中國大陸的中文新聞媒體。
“有一次我看王小丫主持的《開心辭典》,其中一個問題是‘我國最早的電子期刊是哪一家’?台下一位來自媒體的答題者很快就說:《神州學人》!我當時非常的激動和自豪。”回顧往事,已經退休多年的許珑說。
擴展閱讀:1990年代的網絡刊物發行技術
三十年前網絡刊物發行技術與當今并不一樣。爲了适應全世界各個地區讀者環境的多樣性,《神州學人》網絡版發行了不同的形式,使用不同的中文編碼方法。
一、應用協議
1.郵件列表(Mailing List)
郵件列表的起源可以追溯到1975年,是互聯網上最早的社區形式之一,也是Internet上的一種重要工具,用于各種群體之間的信息交流和信息發布。
早期的郵件列表是一個小組成員通過電子郵件讨論某一個特定話題,一般稱爲讨論組,由于早期聯網的計算機數量很少,讨論組的參與者也很少。讨論組很快就發展演變出另一種形式,即有管理者管制的讨論組,也就是通常所說的郵件列表,或者叫狹義的郵件列表。
由于互聯網早期使用ASCII編碼,隻有7比特,電子郵件、域名系統(DNS)等主流應用隻支持7比特的透明傳輸,因此,對于中文等多字節文字(每個字節的全部8比特均需傳輸)必須轉換成7比特字符。從而《神州學人》郵件列表采用了UUCODE編碼。
2.文件傳輸協議(FTP)
文件傳輸協議(File Transfer Protocol)是在計算機網絡的客戶端和服務器間傳輸文件的應用層協議。傳送文件(file transfer)和訪問文件(file access)之間的區别在于:前者由FTP提供,後者由NFS等應用系統提供。文件傳輸協議由RFC959規範。
FTP是8位的客戶端-服務器協議,能操作任何類型的文件而不需要後續處理,就像MIME或Unicode一樣,但FTP有極高的延時,意味着從開始請求到第一次接收數據間的時間非常長,并且必須不時地執行一些冗長的登錄進程。
Chrome和Firefox等主流浏覽器都計劃棄用對FTP的支持, 2019年推出的Chrome 82已停止對FTP支持,2020年疫情原因導緻遠程辦公需求增加,Chrome短暫地恢複了FTP,但于2021年10月推出的Chrome95完全移除了FTP相關代碼。而Firefox原計劃在版本77中停止支持FTP,最終在2021年7月發行的90版正式停止支持FTP協議。微軟的Edge浏覽器也在2020年起停止支持FTP,Internet Explorer 11仍保留FTP客戶端,直到2022年6月15日終止支持。
3.地鼠(Gopher)
Gopher是一個互聯網上使用的分布型的文件搜集獲取網絡協議。它是1991年由明尼蘇達大學發明的。“Gopher”(地鼠)這個名字有三層含義:第一是“挖掘信息”;第二,使用菜單形式搜集來的信息與地鼠洞相類似;第三,明尼蘇達大學有一支運動隊名叫“黃金地鼠隊”。
Gopher最初的設計目标與萬維網類似:共享文檔。今天的萬維網幾乎已經替代了Gopher。但Gopher協議還提供了一些萬維網先天缺乏的功能,比如在Gopher中所有信息都以層級形式存儲,這被認爲是存儲大量信息的最好方式之一。
萬維網在1991年被發明,由于耗用帶寬較少,Gopher網絡當時仍然是非常流行和制作精良的。1993年2月,明尼蘇達大學宣布他們将對Gopher的使用收取執照費,這就部分減少了Gopher服務器數量。一些人相信這是Gopher變成互聯網曆史的原因。很多人相信Gopher的衰微實際上是它那有限制的結構造成的,這種結構使得它沒有自由形态的HTML網頁靈活。使用Gopher時,每個文檔都已有一個預定義的格式和類型,一個Gopher用戶必須通過一個服務器定義的系統菜單導航進某一個特定的文檔。很多人不喜歡Gopher系統中這種人爲制造的菜單和文件的區分,而Web網絡上使用的超文本協議和交互式應用程序顯得更爲開放靈活。
4.萬維網(WWW)
萬維網(World Wide Web)是一個通過互聯網訪問的、由許多互相鏈接的超文本組成的信息系統。英國科學家蒂姆·伯納斯-李于1989年發明了萬維網,1990年,他在瑞士CERN工作期間編寫了第一個網頁浏覽器。網頁浏覽器于1991年1月向其他研究機構發行,并于同年8月向大衆開放。
萬維網是信息時代發展的核心,也是數十億人在互聯網上進行交互和浏覽的主要工具。網頁主要是文本文件格式化和超文本置标語言(HTML)。除了格式化文字之外,網頁還可能包含圖片、影片、聲音和軟件組件,這些組件會在用戶的網頁浏覽器中呈現爲多媒體内容的頁面。萬維網并不等同于互聯網,萬維網隻是互聯網所能提供的服務之一,是靠着互聯網運行的一項服務。
1993年4月30日,歐洲核子研究組織宣布萬維網對任何人免費開放,且不收取任何費用。兩個月之後,Gopher協議宣布不再免費使用,造成大量用戶從Gopher轉向萬維網。早期流行的網頁浏覽器是用于Unix和X Windows系統的ViolaWWW。
學者普遍認爲,萬維網的一個轉折點始于1993年推出的Mosaic網頁浏覽器,這是由伊利諾伊大學厄巴納-香槟分校(NCSA-UIUC)的國家超級計算機應用中心團隊所開發的圖形接口浏覽器,由馬克·安德裏森領導。Mosaic的資金來自美國高速運算及通信計劃(High-Performance Computing and Communications Initiative)和高速運算及通信法案(High Performance Computing and Communication Act of 1991),這也是美國參議員阿爾·戈爾所發起的幾項運算發展計劃之一。在Mosaic發布之前,網頁中的圖片和文字混合并不常見,萬維網的受歡迎程度遠低于互聯網上使用的舊協議,例如Gopher和WAIS。Mosaic的圖形使用接口讓萬維網成爲迄今爲止最受歡迎的互聯網協議。
1994年10月,萬維網聯盟(W3C)在麻省理工學院計算機科學實驗室成立,建立者是萬維網的發明者蒂姆·伯納斯-李。到了1994年底,全球網站數量仍然相對稀少,但是很多著名網站已經相當活躍,這些網站已經預示或者啓發了當今最流行的服務。
二、中文編碼
1.UUCODE (uuencoding)
uuencode這個名字衍生自"Unix-to-Unix encoding",原先是Unix系統下将二進制的資料借由uucp郵件系統傳輸的一個編碼程式,是一種二進制到文字的編碼。uudecode是與uuencode搭配的解碼程式,uuencode/decode常見于電子郵件中的檔案傳送以及usenet新聞組和BBS的貼文等等。近來已被MIME大量取代。
2.GB
GB/T 2312,GB/T 2312—80 或 GB/T 2312—1980 是中華人民共和國國家标準簡體中文字符集,全稱《信息交換用漢字編碼字符集·基本集》,通常簡稱GB(“國标”漢語拼音首字母),又稱GB0,由中國國家标準總局于1980年發布,1981年5月1日實施。
在GB 2312内,每個漢字及符号的碼位使用兩個字節來表示。第一個字節稱爲“高位字節”,對應分區的編号(把區位碼的“區碼”加上特定值);第二個字節稱爲“低位字節”,對應區段内的個别碼位(把區位碼的“位碼”加上特定值)。
3.BIG5
大五碼(英語:Big5,又稱五大項目碼、五大碼)是繁體中文社群最常用的電腦漢字字符集标準,共收錄13060個漢字。
大五碼是雙字節字符集,以十六進制表示,使用雙八碼存儲方法,以兩字節安放一字。第一字節稱爲“高位字節”,第二字節稱爲“低位字節”。
4.Postscript
PostScript(PS)是一種頁面描述語言和編程語言 ,由Adobe Systems公司于1984年推向市場。大概在這個時候,史蒂夫·喬布斯參觀了Adobe公司的工作,并敦促他們改進PostScript作爲驅動激光打印機的語言,将其添加到Canon打印機,誕生了LaserWriter。1985年3月,Apple LaserWriter是第一款帶有PostScript的打印機,這也帶來了1980年代中期的桌面印刷革命。它的技術優點和廣泛應用使得PostScript成爲打印應用領域影像輸出的一個選擇。直到1990年代,PostScript語言解釋器,有時稱作Raster image processor,曾經一度成爲激光打印機的一個普通組成部分。随着使用電子方式發布文檔最終版本成爲事實上的标準,PostScript就在這個領域不斷地被它的後續版本Portable Document Format(PDF)所超越。
5.HZ
HZ編碼是1988年發明的編碼系統。其目的是在7字節的限制下(如電子郵件)儲存GB/T 2312的雙字節字符。
其在ISO 2022編碼字符的前後分别加上轉義字符~{(7E 7B)和~}(7E 7D)後,使用正常的ASCII轉碼變成 ASCII 字符。部分機器也可以接受使用EUC-CN編碼的轉義字符。
HZ出現于RFC 1843《HZ - A Data Format for Exchanging Files of Arbitrarily Mixed Chinese and ASCII characters》,作者來自斯坦福大學。
6.T3
T3其目的是在7字節的限制下(如電子郵件)儲存BIG5的雙字節字符。
7.ISO2022-CN
爲避開ASCII字符中的不可顯示字符(十六進制爲0×00至0×1F,十進制爲0至31)及空格字符(十六進制爲0×20,十進制爲32),國标碼(又稱爲交換碼)參考ISO 2022規定表示非ASCII字符雙字節編碼範圍爲十六進制爲 <21 21>-<7E 7E>,十進制爲 (33, 33) 至 (126, 126)。因此,在進行碼位轉換時,須将“區碼”和“位碼”分别加上32(十六進制爲0×20)作爲國标碼。
在這個編碼模式内,軟件需要使用低端控制字符(C0),高端控制字符(C1)和US-ASCII字符集(GL)标注字符屬于單字節(ASCII)還是雙字節,相對容易造成亂碼(如丢失控制/轉義字符)。
ISO2022-CN在RFC 1922《互聯網消息的漢字編碼》(Chinese Character Encoding for Internet Messages)中被定義。RFC1922是中國大陸的第一個RFC,其主要作者來自清華大學。
8.UNICODE
Unicode,全稱爲Unicode标準(The Unicode Standard),其官方機構Unicode聯盟所用的中文名稱爲統一碼,又譯作萬國碼、統一字符碼、統一字符編碼,是信息技術領域的業界标準,其整理、編碼了世界上大部分的文字系統,使得電腦能以通用的字符集來處理和顯示文字,不但減輕在不同編碼系統間切換和轉換的困擾,更提供了一種跨平台的亂碼問題解決方案。Unicode由非營利機構Unicode聯盟(Unicode Consortium)負責維護,該機構緻力于讓Unicode标準取代既有的字符編碼方案,因爲既有方案編碼空間有限,亦不适用于多語環境。
Unicode伴随着通用字符集ISO/IEC 10646的标準而發展,同時也以書本的形式對外發表。Unicode至今仍在不斷增修,每個新版本都加入了更多新的字符。目前最新的版本爲2022年9月公布的15.0.0,已經收錄超過14萬個字符(第十萬個字符在2005年獲得采納)。Unicode标準不僅僅是爲文字指定代碼。除了涵蓋視覺上的字形、編碼方法、标準的字符編碼資料外,聯盟官方出版品還包含了關于各書寫系統的細節及呈現方式,如規範化的準則、拆分、測序、繪制、雙向文本顯示、書寫方向、字符特性(如大小寫字母)等等。此外還提供參考資料和視覺圖像,以幫助開發者和設計師正确應用标準。
Unicode備受認可,被ISO納入國際标準,成爲通用字符集,即 ISO/IEC 10646。Unicode兼容ISO/IEC 10646,能完整對應各個版本标準。Unicode廣泛應用于電腦軟件的國際化與本地化過程。很多新科技,如可擴展置标語言(Extensible Markup Language,簡稱:XML)、Java編程語言以及現代操作系統,都采用Unicode來編碼。Unicode最普遍的編碼格式是和ASCII兼容的UTF-8,以及和UCS-2兼容的UTF-16。
(以上資料來自網絡)
來源:中國教育和科研計算機網CERNET