text/html 媒体类型( 二 )


使用这种媒体类型的应用:
第一个也是最普及的应用就是WWW(World Wide Web) 。一般来说,HTML文档包含两部分内容,一是指向其他文档的URI引用(参考文献[URI]),二是要通过HTTP协议得到的媒体(参考文献[HTTP]) 。许多网关程序提供基于HTML的接口,使得其他程序可以通过这些接口使用底层的复杂服务 。许多其他应用也使用HTML,因为这样可以用方便的、与平台无关的形式表示多媒体文档 。
其他信息:
魔数(Magic Number):
没有专门的字符串来标识HTML文件 。尽管如此,第5部分还是给出了一些识别HTML文件的指导 。
文件扩展名:
扩展名"html"和"htm"最为常用,但是其他表示预处理文件的扩展名也很常用(译注:如ASP、PHP等) 。
Macintosh机(译注:Apple公司于1984年推出的一种系列微机)上的文件类型码:TEXT
要获得更深入的信息,可以联系:
Dan Connolly
Larry Masinter
Intended usage:COMMON
"作者/改写"控制(Author/Change controller):
HTML规范是World Wide Web Consortium"s HTML工作组的成果 。W3C在规范上拥有修改的支配权 。
更多信息:
通过URI引用,HTML可以使HTML具有包含其他资源(图像、视频剪辑、Java的applet程序等)的能力 。为了在单独的一个MIME对象中传输一个完整的HTML对象及其包含的资源,[MHTML]中提到的机制会被使用到 。
3. 片段标识符(Fragment Identifiers)
URI规范中指出,片段标识符(URI的一部分,在一个"#"后)的语义学含义是指所获得数据的属性,规范中同时指出,片段标识符的格式和解释依靠于获得数据的媒体类型 。
对于由text/html所标识的文档,片段标识符会为其分配相应的命名元素 。在命名过程中,任何元素都可能有"id(标识)"属性,而A、APPLET、FRAME、IFRAME、IMG和MAP元素可能会拥有"name(名称)"属性 。关于这一点,在[HTML40]的第12部分有具体描述 。
4. 编码考虑
由于在HTML中使用字符实体引用(character entity references)有其实用性,使用宽字符集的文档将仍然用US-ASCII字符集表示,在传输过程中不会对其进行编码 。但当使用非US-ASCII字符集传输text/html文档时,可能需要使用base64或者quoted-printable对其7位通道进行编码(原文:However, transport of text/html using a charset other than US-ASCII may require base64 or quoted-printable encoding for 7-bit channels) 。
就像所有的MIME text子类型一样,规范的text/html文本中,必须用一系列CR字符(0x0D)以及一个LF字符(0x0A)来表示行中断 。反过来也成立,即在text/html文本中一旦出现这样的CRLF列,则其必定代表一个行中断 。在行中断以外的地方使用CR字符或者LF字符都是非法的 。不管是否存在字符编码(字符集),这个规则都是适用的 。
注重,HTTP协议答应数据在传输中不使用规范格式,而是使用其他非凡的行终止符 。详情请参考[HTTP]的3.7.1部分 。这个例外在HTML中普遍存在 。
通过电子邮件传输的HTML文本仍然服从MIME的限制,这在[MHTML]的第10部分中有完整的讨论 。
5. HTML文件的识别
几乎所有的HTML文件的前端都有"

推荐阅读