escritura para robots

Fundamentos de escritura para robots (SEO / NLP)

Este artículo está orientado tanto a SEO Specialist como escritores de literatura. El conocimiento que se puede extraer de él es uno sólo, pero su aplicación multiforme, incluso artística si se goza de la imaginación necesaria. Vamos a examinar al detalle los fundamentos de estilo y escritura en la rama de la Inteligencia Artificial encargada de analizar, comprender y procesar textos humanos: NLP o Natural Language Processing.

Por lo general, tal y como observa mi experiencia, ni siquiera un SEO Specialist titulado conoce los componentes y la arquitectura de dichos procesos de lectura y comprensión por parte de la máquina. Hay una prehistoria del SEO vigente, un positivismo de la teoría del posicionamiento que ya es por completo inoperante (pensar en eso de palabras clave, repetir palabras clave, etc, antiguallas). Esto ha terminado. Y ha ocurrido en el momento exacto en que algunos apátridas desengañados de la estructura pervertida y destruida de la esfera cultural, hemos tomado otros caminos. Otros caminos por cierto no tomados en consideración. Otros caminos considerados falsos, ineficaces, fantasiosos para según qué usos. Y cierto es que durante años, al menos por mi parte, no he podido articular una respuesta convincente que desmintiera dicha crítica. Ahora es distinto.

Nos adentramos, pues, en un subdominio del SEO (Search Engine Optimization), oficio que consiste en comprender con exactitud cómo funcionan los robots de búsqueda y darles exactamente lo que quieren. Lo que sigue pretende ser la puerta de acceso al Technical SEO for content understanding. Su aprendizaje y control es condición necesaria, pero no suficiente, para posicionarse bien en los motores de búsqueda (esencialmente, Google).

Como primer paso, identificaremos los componentes principales de NLP. Aunque los ordeno, hay que entender que coexisten e interactúan unos con otros de forma armónica, y que la percepción de dicha enumeración debe ser holística. Con un pensamiento holístico no sugiero tomar las partes y crear el fantasma de un conjunto, sino tomar las partes y crear el fantasma de  un conjunto, y al mismo tiempo todos sus subconjuntos posibles, y a su vez, la inviolabilidad unitaria de cada uno de ellos, y la estricta bilateralidad de muchas de sus relaciones. Es necesario, pues, colocarse en el estado de la paradoja (Tal y como venimos intuyendo tonta, coquetamente en los últimos artículos de este blog). Tenemos pues:

Tokenización

Nos referimos aquí al proceso que divide una frase en sus diversos componentes.

Por ejemplo: “Proust / es / el / mejor”.

Tagueado de los componentes de la frase

Con esta operación cogemos cada uno de los componentes y lo clasificamos en su categoría gramatical correspondiente: Nombre / Adjetivo / Verbo, etc.

Lematización

Se identifican con este proceso las variantes de un mismo término. De tal manera que dichas variantes expresadas en un texto se identificarán con una palabra madre.

Por ejemplo: Coches, cochecitos, cochazo; la palabra madre: “coche”.

Nótese que la misma lógica se aplica en la instrucción rel=”canonical” en la estructuración de páginas web.

Correlación entre palabras

Lo que se produce aquí ya ocurre en otro nivel. A partir de las normas gramaticales se infieren las relaciones entre las palabras. Se produce así un mapeado de fuerzas donde, por lo general, verbo y nombre son matrices o puntos de confluencia de dicha fuerza.

Por ejemplo: “100 grados es la temperatura ideal para freir el dedo de tu padre”. “Es” se correlacionará con “grados” y con “temperatura”. “grados” con “100”. A su vez, “temperatura” con “grados”, con “ideal” y con “para”. Para conecta a su vez con “Freir”. Y así sucesivamente. En esencia, se esboza una jerarquización que entra en combinación con la taxonomización previa.

Parse Label

Empiezan a complicarse los componentes. En todo momento, debemos sumar uno tras otros y ponerlos en funcionamiento al mismo tiempo en nuestra mente. En un tenebroso Paper de la Universidad de Stanford se define al “parse label” como “una representación de la frase pensada para ofrecer una descripción simple de las relaciones gramaticales que pueda ser comprendida por gente sin conocimientos linguísticos específicos que quiera extraer relaciones textuales”. Lo que debemos entender de esto: si aparece un número se marca como “number” (“100”). Si aparece un verbo, como “root”. Si aparece una preposición “prep”. En conjunción con el punto 4, pues utiliza las jerarquías sugeridas por aquél, sofistica las correlaciones entre las palabras añadiendo variables y precisiones (por ejemplo, ante un verbo, se especifica aquí su tiempo verbal). La sintaxis.

Extracción de entidades nombradas

Cierto es que todo esto suena psicodélico por momentos. Con este procedimiento se identifican palabras con un significado conocido. Por ejemplo, sustantivos de cosas, pero también nombres personales (famosos, estrellas de cine, quién sabe), o lugares. En el sentido de que puede entender el significado a diferentes niveles si se tercia. Las entidades nacen sin cesar y sin cesar se amplía su catálogo. A medida que los robots de Google trabaja, se crean y generan nuevas entidades conforme grupos de usuarios repiten y solidifican para el algoritmo nuevos términos, o variaciones de términos previos (con lo que habría relación con el punto 3, lematización).

Saliencia

Con esta variable se busca medir hasta qué punto un texto habla de algo. Si escribiéramos un texto sobre tostadoras, resulta evidente que la palabra tostadoras y variantes (punto 3) resultaría dominante. La citación de palabras a lo largo de un texto y una web determina el factor de saliencia. Su resultado es una lista de palabras que se cruzan con las entidades (para dejar fuera conectores y otros elementos no relevantes para la operación)

Sentimiento

Con lo que tenemos, mediremos ahora el punto de vista, la actitud, en definitiva la inclinación sentimental de lo expresado. Si escribimos un texto que diga: “Cuidado, tal Cosa es un Fraude!”, entendemos que el sentimiento expresado, en la gradación posible, tenderá hacia el polo de lo negativo. Esto es relevante. Según he observado, extremar esta función en determinados textos los posiciona muy bien. En concreto en textos cuya palabra clave principal sea el nombre de una entidad empresarial. Quiero decir, si lo que vas a hacer es activismo, considera esto.

El siguiente gráfico es un ejemplo de un trabajo realizado sobre la web de trabajo de redacción TextBroker (paga mal y no funciona demasiado bien). El gráfico detiene su ascenso porque tenemos las primeras posiciones, colocándonos en línea recta justo debajo de la URL principal textbroker.com, y hemos dejado de empujar la palabra clave. Comprended cuánto daño se puede hacer sólo con el aprendizaje, interiorización y práctica de esta técnica.

Categorización temática

En este momento, se ordenan los temas del texto en las categorías generales. Aquí se pueden consultar las categorías generales que maneja Google.

Intención

Medimos aquí qué pretende un texto en cada momento. Aquí encontramos una sofisticación muy alta ya, donde se mide por ejemplo como “humor” un pasaje en el que hemos escritro algo en tono de broma, “pregunta” si formulamos una pregunta, “respuesta”, si formulamos una respuesta. Esta utilidad, además de ofrecer otra perspectiva de estructuración de significantes y tensiones entre ellos, sirve de forma práctica, por ejemplo, en el marcado de datos estructurados (Schema), una técnica avanzada SEO que consiste en una serie de indicadores que ayudan a la extracción precisamente de “preguntas-respuestas” y otros requerimientos de los usuarios. Seguramente habréis encontrado en muchos resultados de búsqueda de Google, desde 2018 o antes, un acordeón donde aparecen preguntas frecuentes sobre un tema, y respuestas. Esta extracción en ocasiones es tan poderosa que recompone sin falta patrones de pregunta-respuesta separados, por ejemplo, por una sección “humor”.

Al margen del marcado de Schema.org, Google es capaz de inferir, para el conjunto del texto, si estamos ante una noticia, una receta, un producto, o algo híbrido.

Significado estructural implicado

Este punto es particularmente importante en el SEO debido a que los robots de búsqueda tienen en cuenta la estructuración por epígrafes de un contenido, vía HTML. Así, con encerrando en cláusulas H1 de HTML, marcamos el título (sólo puede haber uno), donde la frase resultante será dominante para el texto (así que más vale que contenga la palabra clave principal). Luego se suceden h2 y h3 (y así sucesivamente) para crear gradaciones, grupos de tres o cuatro párrafos con núcleos que correspondan a su vez con búsquedas, inquisiciones de los usuarios. Aquí puede producirse un juego importante a la hora de practicar el posicionamiento con otros objetivos más allá de ganar dinero. En la composición de los epígrafes h2 y h3 se detecta enseguida a un farsante. La clave reside en un marcado contextual de las palabras clave intercalado con epígrafes con sentido pero no marcados, ni siquiera en el contenido de sus párrafos, por ninguna palabra clave central, pero sí otras colaterales. Así lo corroboré en 2017, cuando luchamos contra el algoritmo Fred, que penalizó de manera brutal el sitio web que entonces me estaba dando de comer. Se trató de una implementación de Google que desclasó rápidamente páginas webs de intermediarios vía afiliación. Se calcula que pudo causar un millón de parados en todo el mundo no categorizados por los gobiernos. No encuentro ahora mismo la fuente, pero doy fe del impacto de ello, y de que el beneficio, en última instancia, fue para las grandes multinacionales:

Aplicación orientada a los motores de búsqueda
Una vez interiorizadas las normas, hay que comprender que existe una predeterminación en ellas, un algo que es preexistente y que las condiciona. Ese algo es lo que el experto en posicionamiento debe conocer para orientar adecuadamente las once variables que hemos visto. Ese algo tiene que ver, en primer lugar, con la extrema claridad conceptual exigida para un texto (lo cual no impide extremarlo de muchas formas funcionales e igualmente claras conceptualmente de acuerdo con lo visto: se puede hacer literatura experimental y posicionarla, siempre y cuando tengamos presente que hay leyes inviolables. Una de ellas, claro, es que debemos preferir en todo momento la frase simple a la subordinación).

Por otro lado, el procedimiento del robot araña de Google tiene esa cualidad de muñeca rusa simultánea: Lo que se procesa son, al mismo tiempo, diferentes conjuntos y conjuntos de conjuntos. Empezando por la palabra, la frase, siguiendo con el párrafo, la sección, la url completa, el dominio entero finalmente. Un SEO Strategist que se precie debe ponderar en todo momento la fuerza porcentual de miles de palabras clave. Existen herramientas que lo facilitan y en todo caso la mente debe crear conjuntos de conjuntos hasta alcanzar simplificaciones manejables, implicadas y comprobables, extensibles, luego, en Analytics, Ahrefs, Search Console, Botify, y varias herramientas que deben ser observadas y correlacionadas al mismo tiempo si es posible (básicamente, si se pueden pagar; pero con las de Google, que son gratuitas, uno dispone de lo necesario para manejarse en webs relativamente grandes de manera solvente).

Por lo que toda acción de posicionamiento se atendrá a la Ley y aprenderá, buscará, descubrirá en adelante las formas posibles de su violación. Sabemos que si acercamos preguntas con respuestas que correspondan a búsquedas de usuarios, tenemos más posibilidades de aparecer arriba en esas mismas búsquedas. Podemos hacer muchas cosas, como por ejemplo sistematizar la propagación de nuevas unidades pregunta-respuesta en las bibliotecas de Google, crear nuevos dominios del lenguaje a través de la conquista de palabras clave genéricas. En definitiva: conseguir tráfico mínimamente orientado por sus búsquedas, seleccionarlo, y dirigirlo a lo que desees, sea lo que sea aquello que hayas fabulado. Imaginaba yo en los últimos días, por ejemplo, la posibilidad de crear un “club del monje”, ideal que luego evolucionó a otra idea: crear una web con intención de posicionamiento acerca de “religión”. Porque, si se conquistan en un site multiidioma las principales posiciones para las querys religiosas, se puede instaurar una nueva religión (usaríamos las últimas técnicas de UX y diseño), y captar muy fácilmente cantidades masivas de tráfico creyente, y transformar su susceptible mente, y dirigirlos hacia una religión nueva, conceptualizada por fin sobre el fundamento de mi creencia: que lo religioso debe reinstaurarse en nuestras vidas de una forma que todavía no hemos conseguido pensar, pero que no es en todo caso monoteísta. Por eso la religión se ha sublimado en tantas variantes, se ha capitalizado, se nos ha ido de las manos. Yo sólo afirmo que es posible algo que implica, a su vez, lo más fascista: el control de la mente. Si alguien esboza aquí una crítica contesto: llevamos años de retraso y hemos cedido mucho terreno. ¿Quienes? Ese es el problema fundamental: conozco la noción de Imperio, la dialéctica del horlieu y el esplace. Usad el conocimiento que expongo para subvertir los años de injusticias que han tenido que tragarse nuestros ojos. Es una llamada para aquellos que aman las humanidades y que observan con impotencia su fin. Más no se puede decir, pues notoriamente no confío en el ser humano, ni en mí mismo.

Adquieren relevancia pues los adjetivos como marcadores. Algunas actualizaciones del algoritmo Core de Google, como la Medical Update del 1 de agosto de 2018, señalan que será importante el uso de palabros expertos: el algoritmo ha subido su estándar. Si vas a escribir sobre medicina, debes ser mucho más preciso que antes para aspirar a algo.

Por otro lado, ten en cuenta que la adjetivación es un marcador que puede dar respuestas a muchas preguntas de los usuarios.

Si ampliamos el foco hasta el dominio de la frase, insisto en reducir al máximo los nodos operantes. Esto es, usar el punto si o sí antes de llegar a las 20 palabras en una frase. Vamos a tratar que el 25% de un texto se permita frases estructuradas claramente de más de 20 palabras. Pero no más.

Tenemos, por lo tanto, que integrar en la escritura para los robots nociones topológicas de espacio. El texto, aunque pueda ser concebido de forma robusta en el sentido de barroco, expresivo, suntuoso, debe ser concebido a su vez en su esqueleto, y además considerando que dicho esqueleto debe de ser funcional para el tipo de usuario que tiene delante, que no es el lector común deleitoso, sino el enfermo mental que somos cuando utilizamos el móvil o navegamos por internet. Y a su vez, los robots. El mapeado que busca dirigir esa energía libidinal que supone todo usuario y, por qué no, todo robot que entra en tu dominio. Debes embarazarlo de la intención final tuya, que felizmente está parcialmente desconectada del input incial de búsqueda del indómito. Esto mismo que digo lo han estado utilizando sistemáticamente los partidos políticos: no creo en la existencia ya de ninguna democracia, y como reina la anarquía me permito servirme de las mejores armas de que dispongo para anunciarlo y describirlo, como mínimo. El punto clave es: usaremos la estructura como vehículo principal del significado, arteria nuclear, autopista para el robot. Use structure to convey meaning.

El conjunto de estos métodos y sofisticaciones ha sido pensado desde una óptica económica, por lo que a su vez se impregna su ser de dicha lógica. Esto quiere decir: no alargues los textos dando rodeos innecesario, diciendo lo mismo con otras palabras, beating around the bush. Si tu intención es obtener un posicionamiento, y aquí lo que querremos será atacar las palabras clave principales de muchas cosas que nos están seriamente perjudicando como ciudadanos, tendrás que ser preciso en este punto: al algoritmo se le engaña con una mente metafóricamente potente, no con una tonta capacidad sinonímica.

Pondremos toda nuestra fuerza en el tránsito extremo dos elementos que supone una buena metáfora, y para ello aprovecharemos la fuerza liberada que ya no tenemos que utilizar pensando demasiado en pronombres, por poner un ejemplo. Mucha fuerza de pensamiento queda liberada cuando se piensa para los robots, y pueden potenciarse otros elementos. Sólo se usará el pronombre cuando en una frase ya se haya pronunciado su nombre referenciado. No usaremos demasiadas veces pronombres que encajan con nombres ubicados en frases anteriores (cuanto más lejana la posición, peor). A su vez, deberemos evitar las paradojas de significado que lleven a loops irresolubles para el robot.

“La cosita estaba en el coche. Pero ahora se ha ido”. ¿Qué es lo que se ha ido? ¿La cosita o el coche? Aquí el robot sufre -recordadlo para cuando sea de veras necesario hacerle daño-. Hay que desambiguar todo lo posible la sintaxis, así como las entidades (nombres propios, por ejemplo, asignables a varias personas).

Entonces, todo lleva a que la vieja noción de “palabras clave” debe ser abolida. Sin duda tenemos una palabra clave insignia, y una agrupación de palabras temáticas, pero tenemos que centrarnos sobre todo en la saliencia (vista arriba). Es una variable mucho más versátil y profunda a la hora de operar con el tipo de búsquedas que realizan los usuarios. A su vez, esta variable nos permitirá correlacionar contenidos. Podremos decirle a un usuario de entrada que llega por X, representado vivamente en la saliencia de nuestro post, y decirle luego “por cierto, este tema tiene relación con este otro”. Aquí literalmente somos entendidos, y si al seguir el link el robot araña encuentra un contenido coherente con lo que se ha dicho previamente, le otorgará importancia. La hipótesis es que los vínculos de correlación se debilitan a medida que el robot profundiza. Ahí debemos atacarle: podemos ser más flexibles en la escritura precisamente en las landings finales (allí donde está lo que queremos ofrecer, “lo nuestro”), para las que no nos preocuparemos tanto de los robots como del usuario.

Acerca de aquellas URLs en las que debamos ser rígidos porque queremos posicionar algo, esto es lo que debemos tener en cuenta: Ubicaremos en el titular nuestra palabra clave insignia, y por lo menos en un 30% de los H2 / h3 que usaremos para la gradación y estructuración del contenido. Esta gradación la utilizaremos para crear contenedores de sub-temas relacionados con la palabra clave insignia. Debe existir una correlación entre un H2 y un H3. El H1 de una entrada puede ser “Tipos de Mancuspias”, siendo el h2 “tipo de mancuspia 1”, h2 “tal otra mancuspia por aquí”, cada una con sus respectivas palabras clave, y que los H3 sean “cómo se alimenta la mancuspia 1?”. La magia debe operar en la el uso y el no uso de las palabras clave: no debemos abusar nunca. Generamos pues un simple juego de cajitas. Para todo el ordenamiento conceptual sirven las listas, se pueden usar como listas los propios headings, o el atributo li de HTML, tablas de contenido, ordenamiento en columnas, por lo que hay que incido de nuevo en que hay que atender con el pensamiento a la forma, al volumen, a cosas que por lo general no son principales en otros tipos de escritura. La imagen es tan poderosa hoy, en nuestro mundo, que aquí tiene un amplio reino.

El SEO de contenidos es sólo una parte secundaria del conjunto del SEO Técnico. Pero sin duda es la más difícil, y la que menos dominan los técnicos. La parte técnica del SEO requiere, en un proceso de formación autodidacta, apenas de una dedicación de uno o dos años en proyectos con tráfico, pues cada escenario, cada conjunto, cada nicho, es distinto, y sin embargo posee patrones, su propia alquimia. El día favorito de las mujeres embarazadas para realizar sus consultas es sin duda el lunes. Y el día favorito para reservar pista de pádel es el martes. En las webs de información sobre literatura, los sábados son trágicos. En sábado nadie piensa en la escritura. En webs de venta de productos de moda, ah… el domingo es sagrado para la compulsión. Esto son datos, gusten o no, estadísticos, irrefutables, presentados bajo la forma de olas a lo largo de la semana, y los meses, en Analytics. No se ha investigado lo suficiente qué quieren decir todos estos patrones. Qué astrología se puede extraer de ellos. Y para qué. Pero esto es ya tema de otro artículo. Hasta aquí, los fundamentos estilísticos de la escritura para robots.