mediawiki-extensions-Visual.../modules/unicodejs/tools/unicodejs-properties.py

#!/usr/bin/env python

"""Generates unicodejs.*properties.js from Unicode data"""

import re, urllib2

for breaktype in ['Grapheme', 'Word']:
	# a list of property name strings like "Extend", "Format" etc
	properties = []

	# range[property] -> character range list e.g. [0x0040, [0x0060-0x0070], 0x00A3, ...]
	ranges = {}

	# Analyse unicode data file
	url = "http://www.unicode.org/Public/UNIDATA/auxiliary/" + breaktype + "BreakProperty.txt"
	for line in urllib2.urlopen( url ):
		line = line.strip()
		# Ignore comment or blank lines
		if re.search( r"^\s*(#|$)", line ): continue
		# Find things like one of the following:
		#   XXXX       ; propertyname
		#   XXXX..YYYY ; propertyname
		m = re.search( r"^([0-9A-F]{4,5})(?:\.\.([0-9A-F]{4,5}))?\s*;\s*(\w+)\s*#", line )
		if not m:
			raise ValueError( "Bad line: %r" % line )
		start, end, prop = m.groups()
		if breaktype == 'Grapheme' and start == 'D800' and end == 'DFFF':
			continue # raw surrogates are not treated

		if not ranges.has_key( prop ):
			properties.append( prop )
		ranges.setdefault( prop, [] ).append( (start, end) )

	# Translate ranges into js fragments
	fragments = []
	for prop in properties:
		rangeStrings = []
		for start, end in ranges[prop]:
			if not end:
				rangeStrings.append( "0x" + start )
			else:
				rangeStrings.append( "[0x" + start + ", 0x" + end + "]" )
		fragments.append( "'" + prop + "': [" + ", ".join( rangeStrings ) + "]" )

	# Write js file
	js = "unicodeJS." + breaktype.lower() + "breakproperties = {\n\t"
	js += ",\n\t".join( fragments )
	js += "\n};\n"
	jsFilename = "../unicodejs." + breaktype.lower() + "breakproperties.js"
	open( jsFilename, "w" ).write( js )
	print "wrote " + jsFilename
Match non-BMP characters in wordbreak regexes unicodejs.js: * charRangeArrayRegexp to write surrogate-aware regexps * private helper functions unicodejs.wordbreak.test.js: * test charRangeArrayRegexp * corrected tests for non-BMP wordbreaks unicodejs.wordbreak.js: * use new surrogate-aware regexps unicodejs.wordbreakproperties.js: * generated from Unicode data unicodejs.graphemebreakproperties.js: * generated from Unicode data unicodejs.wordbreak.groups.js: * delete as no longer used unicodejs-properties.py: * generate unicodejs.wordbreakproperties.js from Unicode data * generate unicodejs.graphemebreakproperties.js from Unicode data index.php: * update script tag links /VisualEditor.php: * update script tag links /demos/ve/index.php: * update script tag links /maintenance/makeStaticLoader.php: * update script tag links Change-Id: I39c0386a85b0cf21d68d3385b84018a5d7648de5 2013-06-07 01:30:44 +00:00			`#!/usr/bin/env python`

			`"""Generates unicodejs.*properties.js from Unicode data"""`

			`import re, urllib2`

			`for breaktype in ['Grapheme', 'Word']:`
			`# a list of property name strings like "Extend", "Format" etc`
			`properties = []`

			`# range[property] -> character range list e.g. [0x0040, [0x0060-0x0070], 0x00A3, ...]`
			`ranges = {}`

			`# Analyse unicode data file`
			`url = "http://www.unicode.org/Public/UNIDATA/auxiliary/" + breaktype + "BreakProperty.txt"`
			`for line in urllib2.urlopen( url ):`
			`line = line.strip()`
			`# Ignore comment or blank lines`
			`if re.search( r"^\s*(#\|$)", line ): continue`
			`# Find things like one of the following:`
			`# XXXX ; propertyname`
			`# XXXX..YYYY ; propertyname`
			`m = re.search( r"^([0-9A-F]{4,5})(?:\.\.([0-9A-F]{4,5}))?\s;\s(\w+)\s*#", line )`
			`if not m:`
			`raise ValueError( "Bad line: %r" % line )`
			`start, end, prop = m.groups()`
Revert model to use simple UTF-16 code units This is a prerequisite to browser-based grapheme cluster handling, which is needed so left/right cursoring and backspace behave as users expect. modules/ve/ve.js modules/ve/ce/ve.ce.Document.js modules/ve/ce/ve.ce.js * Revert cluster-aware splitting to trivial javascript code unit splitting * Rewrite ve.splitClusters as a trivial compatibility method (remove soon) * getClusterOffset/getByteOffset use unicodeJS.graphemebreak.splitClusters modules/unicodejs/tools/unicodejs-properties.py modules/unicodejs/unicodejs.graphemebreakproperties.js modules/unicodejs/unicodejs.js * Allow grapheme break tests to work with surrogate pairs demos/ve/pages/minimal.html demos/ve/pages/multibyte.html demos/ve/pages/unicode.html * replace file with more precise tests modules/ve/test/ve.test.js * Remove reference to grapheme-based splitting (which is no longer used) * Correct typo Bug: 53757 Bug: 51472 Bug: 51596 Bug: 51846 Change-Id: Ife34c87ebe40bc1689298b592eec5c0cdc2f7589 2013-10-11 23:41:24 +00:00			`if breaktype == 'Grapheme' and start == 'D800' and end == 'DFFF':`
Match non-BMP characters in wordbreak regexes unicodejs.js: * charRangeArrayRegexp to write surrogate-aware regexps * private helper functions unicodejs.wordbreak.test.js: * test charRangeArrayRegexp * corrected tests for non-BMP wordbreaks unicodejs.wordbreak.js: * use new surrogate-aware regexps unicodejs.wordbreakproperties.js: * generated from Unicode data unicodejs.graphemebreakproperties.js: * generated from Unicode data unicodejs.wordbreak.groups.js: * delete as no longer used unicodejs-properties.py: * generate unicodejs.wordbreakproperties.js from Unicode data * generate unicodejs.graphemebreakproperties.js from Unicode data index.php: * update script tag links /VisualEditor.php: * update script tag links /demos/ve/index.php: * update script tag links /maintenance/makeStaticLoader.php: * update script tag links Change-Id: I39c0386a85b0cf21d68d3385b84018a5d7648de5 2013-06-07 01:30:44 +00:00			`continue # raw surrogates are not treated`

			`if not ranges.has_key( prop ):`
			`properties.append( prop )`
			`ranges.setdefault( prop, [] ).append( (start, end) )`

			`# Translate ranges into js fragments`
			`fragments = []`
			`for prop in properties:`
			`rangeStrings = []`
			`for start, end in ranges[prop]:`
			`if not end:`
			`rangeStrings.append( "0x" + start )`
			`else:`
			`rangeStrings.append( "[0x" + start + ", 0x" + end + "]" )`
			`fragments.append( "'" + prop + "': [" + ", ".join( rangeStrings ) + "]" )`

			`# Write js file`
			`js = "unicodeJS." + breaktype.lower() + "breakproperties = {\n\t"`
			`js += ",\n\t".join( fragments )`
			`js += "\n};\n"`
			`jsFilename = "../unicodejs." + breaktype.lower() + "breakproperties.js"`
			`open( jsFilename, "w" ).write( js )`
			`print "wrote " + jsFilename`